首个AI高考志愿评估发布:通义千问在多方面超越人类咨询师

6月23日,一份专门针对高考志愿填报场景的AI能力评估报告——《高考AI评估基准》正式发布。该报告由独立研究团队有松实验室完成,首次将通义千问高考报考助手作为评估对象进行系统测试。结果显示,通义千问在多项核心指标上已达到资深人类咨询师水平,尤其在稳定性、准确性、结构化表达和响应效率方面展现出明显优势。这一基准的建立,为快速涌现的高考报考AI产品提供了一个可复现、可扩展的公共评测框架,有助于厘清当前阶段AI能承接的任务边界。

image.png

有松实验室长期专注于人工智能与教育决策研究,关注大模型能力评估、AI在教育场景的应用,以及学生升学选择中的信息、认知与决策问题,其研究成果已被多所高校和研究机构采纳。本次评测之所以选中通义千问高考助手,正是因为该产品基于阿里8年高考服务数据与经验打造,在产品形态、数据积累和用户覆盖上都具有行业代表性。人类对照组则招募了53位咨询师,平均从业年限4.6年。

评估覆盖四个阶段:高考基础知识与规则、模拟填报、开放式咨询以及报考推荐报告,这正好对应考生和家长从查资料、懂规则到定方案、做决策的完整流程。结果令人印象深刻:通义千问在44道客观题上全部答对,准确率100%,而人类咨询师平均正确率仅89.3%。在模拟填报中,AI给出的方案包含6个可接受志愿,且无一出现明显偏好违规,最终目标达到最优结果;人类咨询师平均只给出5.3个可接受志愿。在开放式咨询环节,经100次匿名对比,专家更偏好AI版本的次数达到58次,AI方案“可直接展示”的比例为56.0%,远高于人类咨询师的33.0%。专家认为AI在专业路径拆解、风险预警和表述清晰度上更加稳定可靠。

不过,报告也明确指出,人类咨询师的价值依旧不可替代。尤其是在收入预期、就业判断等需要根据个体情况精细校准的话题上,咨询师能给出更贴合实际的建议。在亲子沟通、价值取舍等场景中,AI那种结构完整的解决方案反而无法取代人与人之间的交流与判断。基于此,报告建议AI更适合高效完成信息核对、数据整理和方案初筛,而咨询师则可以腾出精力专注家庭沟通、价值权衡和个性化决策,两者互补才能让志愿填报过程既提升精度,也真正符合学生和家庭的切实需求。

从行业视角看,这类AI评估基准的出现,实际上为整个教育科技赛道立下了一面照妖镜:它把AI在高考报考场景中的能力上限与短板同时暴露出来,避免了“全知全能”的过度宣传。未来随着更多厂商的产品接入类似评测,消费者或许能像看手机跑分一样,直观对比不同报考助手的实际水平。而真正值得关注的,不仅是AI答对了多少题,更是它究竟能在多大程度上减轻家长和考生的焦虑,这或许才是技术落地最该被量化的“指标”。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
字节豆包Seed 2.1 Pro与Turbo深度思考模型发布,三大能力对标GPT-5.5
上一篇 13小时前
华为智驾涨价3000元并承诺兜底,陈震力挺:行业趋势使然
下一篇 13小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注