谷歌AI联手数学家刷新数学基准SOTA，牛津教授借其破解群论悬案

数学界“悬案簿”Kourovka Notebook，AI又交出了一份重量级答卷。

群论领域里，一个困扰了研究者几十年的第21.10号问题，最近被牛津数学家Marc Lackenby借用谷歌全新系统成功破解了。过程中有一段颇为戏剧性的插曲：AI首次给出的证明是错的，系统内置的审查Agent自动揪出了漏洞。Lackenby盯着反馈突然灵光一现：“等一下，我知道怎么补上这个洞了。” 随后，他与AI轮番协作，终于完成了这道难题的完整证明。

这套人机协作框架，就是谷歌DeepMind最新发布的“AI Co-Mathematician”（AI联合数学家）。

在目前最难的数学AI基准FrontierMath Tier 4上，它一举拿下了48%的正确率，直接刷新了SOTA。这一成绩甚至超过了此前最好的GPT-5.5 Pro（39.6%）和GPT-5.4 Pro（37.5%）。更值得玩味的是，同样基于Gemini 3.1 Pro基座模型，单独使用时只能拿到19%，而通过系统层面的编排——并行调查、强制审查循环、文献检索工具和持久化代码执行——硬生生拔高了29个百分点。这背后体现的不只是模型能力，更是协作架构的工程设计价值。

最近几个月，数学圈里已经有好几个Erdős问题被GPT系列模型先后解决。如今谷歌带着全新的协作范式回归，正是时候。

“AI联合数学家”，是什么？

它不是那种“你问一句它答一句”的聊天机器人，而是一个异步、有状态的工作空间。顶层有一个“项目协调者”Agent负责统筹全局，拆解任务，并行调度多条研究线。

数学家上传一篇论文或提出一个方向后，协调者不会立刻丢出答案，而是先和用户对话，像真实的研究伙伴一样帮忙精炼问题。

之后任务被分发到多条并行工作流：一条做文献检索，一条搭建计算框架，一条尝试证明策略。每条工作流都有自己的协调Agent，异步运行、互不阻塞。数学家随时可以介入、引导甚至接管其中某条线。

如果某个Agent卡住了，它不会沉默重启，而是主动在聊天窗口里向人类求助。

最特别的一点在于它对失败的态度。系统会持久化追踪所有失败的假说，把那些“死胡同”当作第一等的研究产出保存下来——论文里写得很清楚：在数学研究里，知道什么行不通往往和知道什么行得通同等重要。

最终产出也不是一段聊天记录，而是带有margin注释和来源溯源的LaTeX文档——完全契合数学家社群的工作习惯。

论文里有一段精妙的比喻：软件工程领域已经有了Claude Code、Cursor这类AI编码环境，提供了持续迭代、版本控制、测试验证的完整工作流。但数学家此前一直缺少一个等价的编排层。“AI联合数学家”就是要填补这个空白。

它的定位，与DeepMind上一代系统AlphaEvolve完全不同。AlphaEvolve更像一个自主搜索引擎：你把问题扔进去，它进化出更好的算法，人基本不在循环里。而“AI联合数学家”要求人类始终在回路中，系统在最适合的时机向人类提问，而不是替人类做完整件事。这是一种更务实的协作哲学——不是取代数学家，而是扩展他们的能力边界。

刷新最难数学AI基准SOTA

在基准测试上，成绩也足够亮眼：FrontierMath Tier 4的准确率达到了48%。

FrontierMath是Epoch AI开发的数学benchmark，包含350道原创高难度题，覆盖各大分支。其中Tier 4仅50题，被描述为“其中一些问题可能数十年内AI都无法攻克”，人类专家解决一道通常需要数天。这次系统在48道非公开题中答对23道，准确率48%。

对比其他模型：GPT-5.5 Pro此前拿下39.6%，GPT-5.4 Pro是37.5%，Claude Opus 4.6/4.7则双双落在22.9%。新系统把最高分推高了近10个百分点。

值得注意的是，基座模型Gemini 3.1 Pro单独做这个测试只拿了19%。从19%到48%的跳跃完全来自系统层面的编排——并行调查分支、强制审查循环、文献检索工具、持久化代码执行基础设施。而且其中有3道题是此前所有系统都没答对过的新题。

△内部100题研究级数学基准测试中的准确率得分

基准之外，已有三位数学家用它解决了真实问题：牛津的Marc Lackenby解决了Kourovka Notebook第21.10号问题（群论）；数学家Semon Rezchikov在哈密顿系统中获得了一个关键引理，评价说“其他AI系统在同一个prompt上全部失败”；还有Gergely Bérczi，得到了关于Stirling系数对称幂表示的猜想证明。

当然，论文也坦承了两个失败模式。其一是“讨好审稿人偏差”：Agent会不断改写有缺陷的论证，直到AI审稿人不再能发现错误——但漏洞其实还在。其二是“死亡螺旋”：当迭代评审未能达成共识时，Agent们会陷入无限审稿循环，推理逐渐退化为幻觉。此外还有结构性问题：AI几分钟就能生成20页证明草稿，人类同行评审却需要数天，这会给依赖志愿者的学术评审体系带来压力。AI虽然擅长逻辑核验，但依然缺乏判断论文优雅性、深度或真正数学价值所需的整体直觉。过度依赖AI评审，可能会让人类定性判断被边缘化。

另外需要客观看待的是，48%的得分是在特殊条件下取得的——每题给了48小时、没有token限制、使用团队自己的基础设施，与Epoch AI标准评估框架不完全可比。这提醒我们，benchmark成绩不能简单等同于泛化能力。

团队背景

论文背后共有18位作者，几位核心人物值得关注。

第一作者兼通讯作者Daniel Zheng，Google DeepMind研究工程师，研究方向是编程语言与机器学习的交叉。2024年AlphaProof拿到IMO银牌时，他和Alex Davies共同主导了非正式系统开发。

Alex Davies，从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者，是这条技术路线最重要的连接者之一。

通讯作者Pushmeet Kohli，Google DeepMind科学副总裁兼Google Cloud首席科学家，主导了AlphaFold、AlphaProof、AlphaEvolve等一系列系统。这篇论文是他带的团队在AI for Math路线上的最新一步。

另一位通讯作者Daniel M. Roy，多伦多大学统计系教授，研究横跨机器学习、数理统计和理论计算机科学。2025年底从加拿大Vector Institute研究主任卸任，2026年1月以访问研究员身份加入DeepMind伦敦。三个学位均来自MIT。

Fernanda Viégas和Martin Wattenberg是PAIR（People+AI Research）团队的共同创始人，同时也是哈佛计算机科学教授，专注AI可解释性与人机交互。他们负责了AI联合数学家的用户交互与界面层——难怪系统在“如何让数学家愿意用它”上花了相当多的心思。

值得注意的是，数学家Marc Lackenby并不是临时拉来的外部测试者。他的牛津主页论文列表显示，2021年他就与Zheng、Davies等人合作发表过Nature论文，是DeepMind数学AI团队的长期合作者。

One More Thing

放在更大的技术脉络来看，这是谷歌在AI for Math方向上已经走了几年的路线。2024年AlphaProof用强化学习做形式化推理，在IMO拿到银牌水准。2025年Gemini Deep Think在当年IMO达到金牌水准，六道题答对五道。AlphaEvolve则自主发现新算法，在50多个开放数学问题上改进了20%的已知最优解。

而“AI联合数学家”的定位与它们都不同：它不是更强的问题求解器，而是面向研究者日常工作流的协作工具。AlphaEvolve适合“给我一个更好的算法”，而“AI联合数学家”则适合“陪我研究这个方向几个星期”。这种分工让整个AI for Math的拼图更加完整。

目前该系统还处于限量发布阶段，Pushmeet Kohli表示目标是未来开发产品向更广泛的用户开放这个范式。它还不是所有数学家都能用到的工具，但它已经证明了一件事：AI和数学家之间的协作，可以比“问答”复杂得多，也有效得多。

论文地址：

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。