中美AI“考生”东大入学考：英语超群数学短板，能否预示AI未来？

近日，由日经新闻披露的一项联合研究成果引发了广泛关注：美国OpenAI的“o1”模型与中国AI初创企业DeepSeek的“R1”模型，这两款新型生成式人工智能（AI）在模拟考试中，均成功跨越了日本顶尖学府——东京大学理科3类入学考试的合格门槛。这意味着AI在理解和应用复杂知识方面的能力已经达到了相当高的水平，甚至可以与人类顶尖学生相媲美。

本次测试模拟了2025年度东京大学入学考试，所有题目由AI初创公司Life Prompt提供输入，AI生成答案后，由日本知名预备学校河合塾的专业讲师进行评分。结果显示，o1模型取得了374分，R1模型紧随其后，获得了369分，而东大理科3类合格的最低分数线为368.7分。这一结果无疑是对中美两国AI技术实力的一次有力证明，同时也预示着AI将在教育评估领域发挥越来越重要的作用。

尽管R1模型在理科1类和理科2类的共通考试中，因分数略有不足未能达到合格线，但在其他类别，包括文科在内，R1与o1均表现出色，均成功“合格”。这不仅体现了AI在跨学科应用上的强大潜力，也展现了其在学术评估领域的广泛适用性。值得注意的是，不同于专注于特定领域的AI，通用型AI在应对跨学科、综合性考试时展现出的优势，凸显了其发展方向的重要性。

中美AI“考生”东大入学考：英语超群数学短板，能否预示AI未来？

在具体科目表现上，英语成为了AI模型的优势项目。o1和R1在英语部分的得分率均超过了75%，河合塾的英语讲师久恒秀雄评价道：“这两个模型在英语表达上几乎没有单词和语法的错误，其水平远远超过了东大考生的平均水平。” 这表明AI在自然语言处理方面已经取得了显著进展，能够精准理解和运用英语的语法规则，甚至在表达的流畅性和准确性上超越人类考生。

然而，在数学科目上，AI模型的表现却暴露出了一些短板。虽然能够正确解答出不少最终答案，但在图形处理和论证问题上，却频繁出现论述错误和说明不足的情况。在满分为120分的理科数学考试中，o1得了38分，R1得了49分，远低于合格者的平均分。负责数学评分的香坂季京讲师指出：“AI在数学论证上的表现还有待提高。” 这提示我们，AI在逻辑推理和抽象思维方面，仍有很大的提升空间。尤其是在需要完整论证过程的数学领域，AI需要进一步提升其理解和运用数学原理的能力。

长期致力于“机器人能否进入东京大学”项目的国立信息学研究所新井纪子教授，对这项研究成果给予了高度评价：“这是AI成长历程中的一个重要里程碑。” 她同时强调：“我们也必须认识到，AI有时会给出令人困惑甚至错误的答案。因此，培养能够正确判断并熟练使用AI输出的人才显得尤为重要。” 这段评论指出了AI发展过程中不可避免的挑战，强调了在使用AI技术的同时，人类批判性思维和判断能力的重要性。未来的教育，不仅需要培养学生运用AI的能力，更需要培养学生识别和纠正AI错误的能力。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

中美AI“考生”东大入学考：英语超群数学短板，能否预示AI未来？

相关推荐

发表回复