基准
-
中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布,腾讯混元居首
IT之家 8 月 5 日消息,据腾讯科技今日报道,中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布,腾讯混元大模型位居国内大模型首位(71.95 分)。 腾讯科技方面…
-
专治大模型”刷题”!贾佳亚团队新基准,GPT-4得分不到50
涵盖多个学科,难度等级也有区分 MR-Ben团队 投稿AI快讯网 | 大模型测试能拿高分,实际场景中却表现不佳的问题有解了。 贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让…
-
GPT-4o 首次亮相!图像自动评估新基准发布
面对层出不穷的个性化图像生成技术,一个新问题摆在眼前: 缺乏统一标准来衡量这些生成的图片是否符合人们的喜好 对此,来自清华、西交大、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员…