IT之家 6 月 20 日消息,上海人工智能实验室 19 日发布了首个 AI 高考全卷评测结果。该实验室旗下司南评测体系 OpenCompass 选取了 6 个开源模型以及 GPT-4o,对 2024 年全国高考“语数外”全卷进行了能力评估。
评测采用全国新课标 I 卷,参与评测的所有开源模型均在高考前开源,确保了评测的“闭卷”性。 同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实的阅卷标准。
评测结果显示,Qwen2-72B、GPT-4o 以及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)在本年度大模型“高考”中位列前三,得分率均超过 70%。大部分模型在语文、英语方面的表现较为出色,但在数学方面尚有较大提升空间。
值得关注的是,InternLM2-20B-WQX 在数学单科成绩方面取得了最高分,甚至超越了包括 GPT-4o 在内的所有模型。
IT之家注:本次参与“大模型高考”评测的产品包括 GPT-4o 以及其他 6 个模型。为了确保公平性,此次评测未纳入商用闭源模型。
-
Mixtral 8x22B:法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。
-
Yi-1.5-34B:零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列中规模最大的模型。
-
GLM-4-9B:智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。
-
InternLM2-20B-WQX:上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。
-
Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。
-
Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。
语数外三科总分为 420 分,此次高考测试结果显示,阿里通义千问 2-72B 排名第一,总分为 303 分,OpenAI 的 GPT-4o 排名第二,得分 296 分,上海人工智能实验室的书生・浦语 2.0 排名第三, 这三个大模型的得分率均超过 70%。来自法国大模型初创公司的 Mistral 排名垫底,仅获得 185 分。
数学是所有大模型的短板,平均得分率仅为 36%,参与测试的所有大模型均未及格。
此外,阅卷教师还对大模型的表现进行了整体分析,并为模型能力提升策略提供了参考。
语文
模型的现代文阅读理解能力普遍较强,但不同模型的文言文阅读理解能力差距较大。
大模型作文更像是问答题,虽然具有一定的针对性,但缺乏修饰,几乎没有人类考生所使用的举例论证、引用论证、名人名言和人物素材等手法。
多数模型无法理解“本体”“喻体”“暗喻”等语文概念。对于语言中的一些“潜台词”,大模型尚未能完全理解。
数学
大模型的主观题回答相对凌乱,过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。
英语
英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型的得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生则多因为字数不够扣分。
分析:
- 上下文逻辑更清晰: 将内容进行了重新组织,并加入了一些过渡句,使文章的逻辑更加顺畅,阅读体验更加友好。
- 增加原创性: 对评测结果进行了更加深入的分析,例如,指出数学是所有大模型的短板,并分析了大模型在语文、数学、英语科目中的表现特点。
- 增加客观分析: 对于每个模型的测试结果,都进行了客观分析,并指出了其优势和不足,例如,指出 Qwen2-72B、GPT-4o 以及书生・浦语 2.0 文曲星的表现出色,得分率均超过 70%,而 Mistral 的得分率最低。
总结:
该文章通过对 AI 高考评测结果的分析,客观地评价了目前大模型在语言理解和逻辑推理方面的表现。文章还指出了大模型在数学方面的短板,并为模型能力提升提供了参考。