近日,上海人工智能实验室进行了一场别开生面的“高考”,7个顶尖的AI大模型成为这场考试的“考生”。这场评测旨在探究当前大模型的真实能力水平,并找出其可能存在的不足,为推动人工智能技术进步提供参考。


评测结果显示,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o 在众多模型中脱颖而出,分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超过了“一本”和“二本”的分数线,该参考线基于今年高考人数最多的河南省的分数线设定。
除上述三款外,参与评测的还有 Yi-1.5-34B、Qwen2-57B、GLM-4-9B 以及来自法国 AI 初创公司 Mistral 的 Mixtral 8×22B。整场评测过程严谨细致,不仅对试卷进行全面的评分,还特邀有高考阅卷经验的教师进行打分,确保评分的公正性和准确性。


在这场特殊的“高考”中,Qwen2-72B 以 546 分的高分夺得了文科状元的桂冠,浦语文曲星则以 468.5 分领跑理科。GPT-4o 在文理科均展现出不俗的实力。不过,国外的大模型 Mixtral 8x22B 在此次评测中的表现相对较弱。
阅卷老师对试卷进行仔细分析后指出,虽然大模型在基础知识掌握方面表现出色,但在逻辑推理和知识灵活应用上与真实考生相比仍存在明显差距。特别是在解答主观题时,大模型往往难以完整理解题目要求,导致答案偏离预期。在数学题的解答过程中,大模型的表现也显得机械且缺乏逻辑性。
根据上个月上海人工智能实验室公布的 AI 高考全卷结果,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX) 位列本次大模型高考前三甲,得分率均超过 70%。大部分模型“考生”在语文、英语科目表现良好,但数学方面仍有较大提升空间。
本次 AI 大模型“高考”的评测结果表明,当前的大模型在语言理解、信息检索等方面已取得了显著进展,但在逻辑推理、问题解决等方面仍存在局限性,未来需要进一步加强模型的推理能力和知识迁移能力。同时,针对大模型的伦理问题、安全问题等也需要进行深入研究,以确保人工智能技术健康发展。