七款大模型“高考”成绩揭晓：前三名文科超一本线，理科达二本线

近日，上海人工智能实验室进行了一场别开生面的“高考”，7个顶尖的AI大模型成为这场考试的“考生”。这场评测旨在探究当前大模型的真实能力水平，并找出其可能存在的不足，为推动人工智能技术进步提供参考。

评测结果显示，书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o 在众多模型中脱颖而出，分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超过了“一本”和“二本”的分数线，该参考线基于今年高考人数最多的河南省的分数线设定。

除上述三款外，参与评测的还有 Yi-1.5-34B、Qwen2-57B、GLM-4-9B 以及来自法国 AI 初创公司 Mistral 的 Mixtral 8×22B。整场评测过程严谨细致，不仅对试卷进行全面的评分，还特邀有高考阅卷经验的教师进行打分，确保评分的公正性和准确性。

七款大模型“高考”成绩揭晓：前三名文科超一本线，理科达二本线

在这场特殊的“高考”中，Qwen2-72B 以 546 分的高分夺得了文科状元的桂冠，浦语文曲星则以 468.5 分领跑理科。GPT-4o 在文理科均展现出不俗的实力。不过，国外的大模型 Mixtral 8x22B 在此次评测中的表现相对较弱。

阅卷老师对试卷进行仔细分析后指出，虽然大模型在基础知识掌握方面表现出色，但在逻辑推理和知识灵活应用上与真实考生相比仍存在明显差距。特别是在解答主观题时，大模型往往难以完整理解题目要求，导致答案偏离预期。在数学题的解答过程中，大模型的表现也显得机械且缺乏逻辑性。

根据上个月上海人工智能实验室公布的 AI 高考全卷结果，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX) 位列本次大模型高考前三甲，得分率均超过 70%。大部分模型“考生”在语文、英语科目表现良好，但数学方面仍有较大提升空间。

本次 AI 大模型“高考”的评测结果表明，当前的大模型在语言理解、信息检索等方面已取得了显著进展，但在逻辑推理、问题解决等方面仍存在局限性，未来需要进一步加强模型的推理能力和知识迁移能力。同时，针对大模型的伦理问题、安全问题等也需要进行深入研究，以确保人工智能技术健康发展。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

七款大模型“高考”成绩揭晓：前三名文科超一本线，理科达二本线

相关推荐

发表回复