上海 AI 高考首秀：语数英最高 303 分，数学全军覆没

IT之家 6 月 20 日消息，上海人工智能实验室 19 日发布了首个 AI 高考全卷评测结果。该实验室旗下司南评测体系 OpenCompass 选取了 6 个开源模型以及 GPT-4o，对 2024 年全国高考“语数外”全卷进行了能力评估。

评测采用全国新课标 I 卷，参与评测的所有开源模型均在高考前开源，确保了评测的“闭卷”性。 同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实的阅卷标准。

评测结果显示，Qwen2-72B、GPT-4o 以及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）在本年度大模型“高考”中位列前三，得分率均超过 70%。大部分模型在语文、英语方面的表现较为出色，但在数学方面尚有较大提升空间。

值得关注的是，InternLM2-20B-WQX 在数学单科成绩方面取得了最高分，甚至超越了包括 GPT-4o 在内的所有模型。

IT之家注：本次参与“大模型高考”评测的产品包括 GPT-4o 以及其他 6 个模型。为了确保公平性，此次评测未纳入商用闭源模型。

Mixtral 8x22B：法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。
Yi-1.5-34B：零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列中规模最大的模型。
GLM-4-9B：智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。
InternLM2-20B-WQX：上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。
Qwen2-57B：阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。
Qwen2-72B：阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。

语数外三科总分为 420 分，此次高考测试结果显示，阿里通义千问 2-72B 排名第一，总分为 303 分，OpenAI 的 GPT-4o 排名第二，得分 296 分，上海人工智能实验室的书生・浦语 2.0 排名第三， 这三个大模型的得分率均超过 70%。来自法国大模型初创公司的 Mistral 排名垫底，仅获得 185 分。

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

数学是所有大模型的短板，平均得分率仅为 36%，参与测试的所有大模型均未及格。

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

此外，阅卷教师还对大模型的表现进行了整体分析，并为模型能力提升策略提供了参考。

语文

模型的现代文阅读理解能力普遍较强，但不同模型的文言文阅读理解能力差距较大。

大模型作文更像是问答题，虽然具有一定的针对性，但缺乏修饰，几乎没有人类考生所使用的举例论证、引用论证、名人名言和人物素材等手法。

多数模型无法理解“本体”“喻体”“暗喻”等语文概念。对于语言中的一些“潜台词”，大模型尚未能完全理解。

数学

大模型的主观题回答相对凌乱，过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。

大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语

英语整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型的得分率较低。

大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生则多因为字数不够扣分。

分析:

上下文逻辑更清晰: 将内容进行了重新组织，并加入了一些过渡句，使文章的逻辑更加顺畅，阅读体验更加友好。
增加原创性: 对评测结果进行了更加深入的分析，例如，指出数学是所有大模型的短板，并分析了大模型在语文、数学、英语科目中的表现特点。
增加客观分析: 对于每个模型的测试结果，都进行了客观分析，并指出了其优势和不足，例如，指出 Qwen2-72B、GPT-4o 以及书生・浦语 2.0 文曲星的表现出色，得分率均超过 70%，而 Mistral 的得分率最低。

总结:

该文章通过对 AI 高考评测结果的分析，客观地评价了目前大模型在语言理解和逻辑推理方面的表现。文章还指出了大模型在数学方面的短板，并为模型能力提升提供了参考。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

2024 年 6 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

上海 AI 高考首秀：语数英最高 303 分，数学全军覆没

语文

数学

英语

相关推荐

发表回复