6月23日,一份专门针对高考志愿填报场景的AI能力评估报告——《高考AI评估基准》正式发布。该报告由独立研究团队有松实验室完成,首次将通义千问高考报考助手作为评估对象进行系统测试。结果显示,通义千问在多项核心指标上已达到资深人类咨询师水平,尤其在稳定性、准确性、结构化表达和响应效率方面展现出明显优势。这一基准的建立,为快速涌现的高考报考AI产品提供了一个可复现、可扩展的公共评测框架,有助于厘清当前阶段AI能承接的任务边界。

有松实验室长期专注于人工智能与教育决策研究,关注大模型能力评估、AI在教育场景的应用,以及学生升学选择中的信息、认知与决策问题,其研究成果已被多所高校和研究机构采纳。本次评测之所以选中通义千问高考助手,正是因为该产品基于阿里8年高考服务数据与经验打造,在产品形态、数据积累和用户覆盖上都具有行业代表性。人类对照组则招募了53位咨询师,平均从业年限4.6年。
评估覆盖四个阶段:高考基础知识与规则、模拟填报、开放式咨询以及报考推荐报告,这正好对应考生和家长从查资料、懂规则到定方案、做决策的完整流程。结果令人印象深刻:通义千问在44道客观题上全部答对,准确率100%,而人类咨询师平均正确率仅89.3%。在模拟填报中,AI给出的方案包含6个可接受志愿,且无一出现明显偏好违规,最终目标达到最优结果;人类咨询师平均只给出5.3个可接受志愿。在开放式咨询环节,经100次匿名对比,专家更偏好AI版本的次数达到58次,AI方案“可直接展示”的比例为56.0%,远高于人类咨询师的33.0%。专家认为AI在专业路径拆解、风险预警和表述清晰度上更加稳定可靠。
不过,报告也明确指出,人类咨询师的价值依旧不可替代。尤其是在收入预期、就业判断等需要根据个体情况精细校准的话题上,咨询师能给出更贴合实际的建议。在亲子沟通、价值取舍等场景中,AI那种结构完整的解决方案反而无法取代人与人之间的交流与判断。基于此,报告建议AI更适合高效完成信息核对、数据整理和方案初筛,而咨询师则可以腾出精力专注家庭沟通、价值权衡和个性化决策,两者互补才能让志愿填报过程既提升精度,也真正符合学生和家庭的切实需求。
从行业视角看,这类AI评估基准的出现,实际上为整个教育科技赛道立下了一面照妖镜:它把AI在高考报考场景中的能力上限与短板同时暴露出来,避免了“全知全能”的过度宣传。未来随着更多厂商的产品接入类似评测,消费者或许能像看手机跑分一样,直观对比不同报考助手的实际水平。而真正值得关注的,不仅是AI答对了多少题,更是它究竟能在多大程度上减轻家长和考生的焦虑,这或许才是技术落地最该被量化的“指标”。