闻乐 发自 凹非寺
AI攻克数学难题的节奏,正在加速。
OpenAI前脚刚用内部模型突破埃尔德什的80年单位距离问题,谷歌DeepMind后脚就解决了一个同样卡了人类56年的埃尔德什难题——
最新发布的AlphaProof Nexus,这套由Gemini驱动的智能体框架,一出手就解开了9个埃尔德什开放问题。

除了这9道,它还顺手证明了OEIS整数序列百科里的44个猜想、搞定了一道搁置15年的代数几何难题、还改进了凸优化领域里一个沿用已久的理论边界。
推理成本呢?每道题几百美元,整套证明代码也全都开源放在了GitHub上。

这篇论文共有20位作者,其中的Aja Huang,也是2016年AlphaGo的核心研究员。
AlphaProof Nexus解决的这几道题,咱们挑三道最有意思的说说。
Erdős #12,1970年提出,悬置56年
这道题问的是:你能不能找出一个无限大的整数集合,满足两个条件:第一,任意从中挑三个不同的数字a、b、c,a永远不能整除b加c的和;第二,这组数不能太零散,在自然数里要保持一定的密度。
简单理解就是,这群数字之间,既不能有一个数整除另一个数,也不能有一个数整除另外两个数的和,同时数字还要分布得相对密集。从1970年提出,没人能给出完整构造。

AI的解法是用中国剩余定理把大问题拆成许多独立区块,每个区块内用三项等差数列的回避集来满足约束,然后拼回完整的无限集。

Erdős #125,1996年提出,30年没有定论
想象两个数字集合:第一个集合里全是“在三进制下只由数字0和1组成的整数”,第二个集合里全是“在四进制下只由数字0和1组成的整数”。把这两个集合里所有数字两两相加,得到一个新集合。问这个新集合在自然数中出现的频率(下密度)是不是正的?
直觉上可能觉得挺稀疏,但稀疏到密度归零还是保持一点正密度?1996年提出后一直没定论。AI的答案是:密度为零。

证明思路是利用log₄除以log₃是无理数,3的幂次和4的幂次可以任意精度彼此逼近。AI构造了一个归纳性稀疏化论证,让密度以0.99的比率一步步衰减,直到归零。
Erdős #846,1992年提出,卡了34年
这是一个平面几何题:存在一个无限扩展的平面点集,其中任意有限个点,大部分不共线,但无法把这个无限集拆分成有限个“绝对没有任何三点共线”的子集。AI利用完全图边到点的映射、二次多项式坐标编码,再结合无穷Ramsey定理完成证明。

除了这三道,还有六道分别在整除集构造、范德瓦尔登数间隙、西顿集孤立点、集合拆分密度等领域。同时,AlphaProof Nexus还在OEIS中证明了44个开放猜想,解决了一道代数几何中希尔伯特函数对数凹性的15年悬案,并改进了凸优化中锚定梯度下降法的理论边界。

菲尔兹奖得主陶哲轩曾提醒,AI目前解决埃尔德什问题的实际成功率大约在1-2%。这次谷歌系统挑战了353道题,解开9道,比例刚好对上。从客观角度看,这个成绩既有突破性,也反映了当前AI数学推理能力的上限——经典难题的解法仍依赖人类数学家的直觉框架,AI更像是在已知解法空间内高效搜索。
AlphaProof Nexus的架构核心一句话就能说清:Gemini 3.1 Pro生成Lean语言证明步骤→Lean编译器逐行检查→报错直接反馈给模型→模型根据报错修改→循环到全部通过。

这套框架内设计了四个Agent。
Agent A:同时启动多个独立子Agent,先靠Gemini 3.1 Pro梳理解题思路,编写证明代码,写完立即交给编译器核验,报错后让模型不断修改重试,直到通关。全程没有额外辅助工具。

Agent B:在Agent A基础上,多了AlphaProof——DeepMind之前为奥数级别题目训练过的强化学习证明工具。当A模式在某个小步骤反复卡住时,Agent B调用AlphaProof做树搜索,专门攻击局部难点。
Agent C:引入进化算法,所有子Agent共享一个证明草图种群,每个子模块产出不同草稿,由另一个模型从合理性、清晰度、新颖性三个维度打分,用Elo评分排名,高分草稿组合衍生新解法,低分淘汰。
Agent D:全功能完全体,将进化筛选、专项工具攻克难点、大模型逻辑推理三者协同,也是本次批量破解难题的主力。

令人意外的是,论文表明最简单的Agent A同样能解出全部9道题。没有进化算法,没有AlphaProof,仅仅是大模型循环加编译器反馈,只是在难题上更费钱一点。

研究团队将原因归结为两个:一是Gemini 3.1 Pro本身的能力足够强;二是Lean编译器提供的实打实纠错反馈,对AI的引导作用远超预期。这个结果或许预示着:未来随着大模型能力持续升级,复杂的多工具组合系统可能不再是刚需,大模型+专业校验工具的简单循环,就能搞定大多数数学难题。单题几百美元的成本,也让这种方案具备实际落地的可能性。
埃尔德什生前为这些难题设置了悬赏,只是他不会想到——解开这些谜题的可能不是人类智慧,而是算力。
论文地址:https://arxiv.org/abs/2605.22763v1
Github地址:https://github.com/google-deepmind/alphaproof-nexus-results
— 完 —