谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

闻乐 发自 凹非寺

AI攻克数学难题的节奏,正在加速。

OpenAI前脚刚用内部模型突破埃尔德什的80年单位距离问题,谷歌DeepMind后脚就解决了一个同样卡了人类56年的埃尔德什难题——

最新发布的AlphaProof Nexus,这套由Gemini驱动的智能体框架,一出手就解开了9个埃尔德什开放问题

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

除了这9道,它还顺手证明了OEIS整数序列百科里的44个猜想、搞定了一道搁置15年的代数几何难题、还改进了凸优化领域里一个沿用已久的理论边界。

推理成本呢?每道题几百美元,整套证明代码也全都开源放在了GitHub上。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

这篇论文共有20位作者,其中的Aja Huang,也是2016年AlphaGo的核心研究员。

AlphaProof Nexus解决的这几道题,咱们挑三道最有意思的说说。

Erdős #12,1970年提出,悬置56年

这道题问的是:你能不能找出一个无限大的整数集合,满足两个条件:第一,任意从中挑三个不同的数字a、b、c,a永远不能整除b加c的和;第二,这组数不能太零散,在自然数里要保持一定的密度。

简单理解就是,这群数字之间,既不能有一个数整除另一个数,也不能有一个数整除另外两个数的和,同时数字还要分布得相对密集。从1970年提出,没人能给出完整构造。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

AI的解法是用中国剩余定理把大问题拆成许多独立区块,每个区块内用三项等差数列的回避集来满足约束,然后拼回完整的无限集。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

Erdős #125,1996年提出,30年没有定论

想象两个数字集合:第一个集合里全是“在三进制下只由数字0和1组成的整数”,第二个集合里全是“在四进制下只由数字0和1组成的整数”。把这两个集合里所有数字两两相加,得到一个新集合。问这个新集合在自然数中出现的频率(下密度)是不是正的?

直觉上可能觉得挺稀疏,但稀疏到密度归零还是保持一点正密度?1996年提出后一直没定论。AI的答案是:密度为零。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

证明思路是利用log₄除以log₃是无理数,3的幂次和4的幂次可以任意精度彼此逼近。AI构造了一个归纳性稀疏化论证,让密度以0.99的比率一步步衰减,直到归零。

Erdős #846,1992年提出,卡了34年

这是一个平面几何题:存在一个无限扩展的平面点集,其中任意有限个点,大部分不共线,但无法把这个无限集拆分成有限个“绝对没有任何三点共线”的子集。AI利用完全图边到点的映射、二次多项式坐标编码,再结合无穷Ramsey定理完成证明。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

除了这三道,还有六道分别在整除集构造、范德瓦尔登数间隙、西顿集孤立点、集合拆分密度等领域。同时,AlphaProof Nexus还在OEIS中证明了44个开放猜想,解决了一道代数几何中希尔伯特函数对数凹性的15年悬案,并改进了凸优化中锚定梯度下降法的理论边界。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

菲尔兹奖得主陶哲轩曾提醒,AI目前解决埃尔德什问题的实际成功率大约在1-2%。这次谷歌系统挑战了353道题,解开9道,比例刚好对上。从客观角度看,这个成绩既有突破性,也反映了当前AI数学推理能力的上限——经典难题的解法仍依赖人类数学家的直觉框架,AI更像是在已知解法空间内高效搜索。

AlphaProof Nexus的架构核心一句话就能说清:Gemini 3.1 Pro生成Lean语言证明步骤→Lean编译器逐行检查→报错直接反馈给模型→模型根据报错修改→循环到全部通过。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

这套框架内设计了四个Agent

Agent A:同时启动多个独立子Agent,先靠Gemini 3.1 Pro梳理解题思路,编写证明代码,写完立即交给编译器核验,报错后让模型不断修改重试,直到通关。全程没有额外辅助工具。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

Agent B:在Agent A基础上,多了AlphaProof——DeepMind之前为奥数级别题目训练过的强化学习证明工具。当A模式在某个小步骤反复卡住时,Agent B调用AlphaProof做树搜索,专门攻击局部难点。

Agent C:引入进化算法,所有子Agent共享一个证明草图种群,每个子模块产出不同草稿,由另一个模型从合理性、清晰度、新颖性三个维度打分,用Elo评分排名,高分草稿组合衍生新解法,低分淘汰。

Agent D:全功能完全体,将进化筛选、专项工具攻克难点、大模型逻辑推理三者协同,也是本次批量破解难题的主力。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

令人意外的是,论文表明最简单的Agent A同样能解出全部9道题。没有进化算法,没有AlphaProof,仅仅是大模型循环加编译器反馈,只是在难题上更费钱一点。

谷歌DeepMind攻克9道埃尔德什难题,数学家悬赏告急

研究团队将原因归结为两个:一是Gemini 3.1 Pro本身的能力足够强;二是Lean编译器提供的实打实纠错反馈,对AI的引导作用远超预期。这个结果或许预示着:未来随着大模型能力持续升级,复杂的多工具组合系统可能不再是刚需,大模型+专业校验工具的简单循环,就能搞定大多数数学难题。单题几百美元的成本,也让这种方案具备实际落地的可能性。

埃尔德什生前为这些难题设置了悬赏,只是他不会想到——解开这些谜题的可能不是人类智慧,而是算力。

论文地址:https://arxiv.org/abs/2605.22763v1
Github地址:https://github.com/google-deepmind/alphaproof-nexus-results

— 完 —

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
Rain科技Rain科技
上一篇 11小时前
下一篇 10小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!