AI大模型“集体高考”，成绩单揭晓

2024年全国高考结束后，国内外众多AI大模型纷纷“参加”了一场别开生面的考试，在考场外与人类考生同台竞技，这场“高考”的结果也引起了广泛关注。

据了解，本次“大模型考生”阵容强大，包括来自OpenAI的GPT-4o、字节跳动的豆包、百度的文心4.0、百川智能的百小应、阿里巴巴的通义千问2.5、月之暗面的Kimi智能助手、腾讯的元宝、智谱AI的智谱清言以及MiniMax的海螺AI等。他们面对的是覆盖地域广泛的“新课标Ⅰ卷”，与河南省考生所用的考卷相同，这无疑增加了考试的真实性和难度。

从考试成绩来看，文科方面，GPT-4o以562分拔得头筹，国产大模型豆包表现同样出色，以542.5分的高分紧随其后，成功超过了河南文科一本线20多分。此外，豆包、文心4.0、百小应三款国产AI大模型也成功“冲上一本线”，展现出国产大模型在文科领域的实力。

AI大模型“集体高考”，成绩单揭晓

真实考题+名师阅卷：文科表现出色，理科成绩欠佳

值得一提的是，本次大模型“高考”的语文作文阅卷人是北京市级骨干教师、怀柔区语文学科带头人夏老师，这位资深的阅卷专家为大模型的作文打分提供了客观公正的评价。从整体来看，大模型在文科考试中的表现普遍比较出色，尤其是在语言类科目上，展现出了一定的逻辑与语言组织能力。然而，在写作方面，尽管大模型的文章结构清晰、语言通顺，但普遍存在理性有余而感性不足的情况，缺乏感情色彩与感染力，这或许是大模型目前仍需克服的挑战。

与此形成鲜明对比的是，大模型们在理科方面的成绩则普遍欠佳，多数大模型的理科总分在400分以下，与河南理科511分的一本线存在明显差距。这似乎表明，大模型在处理需要深度逻辑推理和灵活应变的理科问题时，仍面临着巨大的挑战。

理科普遍不及格：大模型更像文科生？

以新课标“文综”考试为例，GPT-4o获得了237分，平均分79分，优于多数真实考生。国产大模型产品中，豆包的文综成绩最高，为224.5分。在各个科目中，豆包在历史科目上取得82.5分的最高分，GPT-4o则以88分在政治科目中拔得头筹，地理科目最高分则由GPT-4o以68分摘得。

而理科考试中，9款大模型产品里，只有GPT-4o、文心一言4.0和豆包获得60分以上的数学成绩，但面对满分150分的试卷，均未及格。在重点考查实验探究能力的化学和物理试卷中，各模型的平均分分别只有34分（满分100分）和39分（满分110分）。虽然在本次“高考”中，部分大模型在理科考试中也有可圈可点之处，例如“豆包”大模型在求导题目和三角函数题上表现较好，展现出了一定的解题能力，但整体而言，数理科目全线不及格的成绩表明，大模型在理科领域的学习能力仍有很大的提升空间，还需要进一步的突破。

国产AI技术能力显著进步，挑战依然巨大

从本次“高考”结果来看，大模型在文科领域展现出了一定的优势，尤其在语言处理和知识记忆方面表现突出。河南高考分数段统计数据显示，GPT-4o的562分在文科考生中排名8811名，相当于真实考生的前2.45%，国产大模型“豆包”位列约4.27%的位置。这表明，在过去一年多的时间里，国产AI技术能力取得了显著进步。

然而，理科领域，面对需要深度逻辑推理和灵活应变的问题时，大模型仍面临巨大挑战。这表明大模型在处理某些特定类型的任务时具备较强能力，但在综合运用知识和解决复杂实际问题方面，与人类的智力水平仍存在差距。

此次通过“高考”检验各家大模型，不仅备受业界及广大网友关注，对于大模型的发展也意义重大。一方面，为评估大模型的学习和知识运用能力提供了全新、客观的标准。同时，也让我们更加清晰地看到了各家大模型的优势和不足。在接下来的一年中，各家大模型将如何进步与发展，值得持续追踪。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

AI大模型“集体高考”，成绩单揭晓

关于作者

AI快讯网编辑-青青

AI大模型“集体高考”，成绩单揭晓

关于作者

AI快讯网编辑-青青

相关推荐

具身智能 产业智变新引擎 2024科技创变者大会成功举行

具身智能产业智变新引擎 2024科技创变者大会成功举行