菲尔兹奖得主实测ChatGPT 5.5 Pro：17分钟出论文级成果，数学专业危险了

当数学最高荣誉菲尔兹奖得主也开始担忧自己的学生时，我们或许真的站在了一个转折点上。最近，剑桥大学数学家Timothy Gowers在体验了新版AI模型后，发出了一则直言不讳的警告：如果AI的数学水平继续按目前速度发展，数学研究领域，尤其是博士生们，可能很快会面临一场深刻的危机。

这场风波的起点很有意思。Gowers教授将几道加法数论的公开难题丢给了AI，更像是一个试探性的实验。但结果超出了所有人的预料：在不到两个小时内，AI独立完成了一项被他评价为“完全够格写进博士论文”的数学成果。整个过程中，Gowers几乎没有提供任何数学层面的指导，他的角色更像是一个项目推进者——提出需求，鼓励AI“展开试试”，然后要求它输出LaTeX格式的预印本。

当AI已经能独立攻克这种水平的难题，正在读博的年轻数学家们该何去何从？连这位数学大牛都给不出清晰的答案，只能催促教育体系尽快反思：在AGI真正来临之前，重新找到数学学习的真正价值，然后迅速转向。

如果AI的数学水平继续按目前速度发展，我们（数学研究者）很快会面临一场危机。

数学最高奖菲尔兹奖得主——Timothy Gowers，在最新体验到ChatGPT 5.5 Pro后，替学生们拉响了红色警报。

其对博士生的影响，尤为紧迫。

菲尔兹奖得主实测ChatGPT 5.5 Pro：17分钟出论文级成果，数学专业危险了

事情是这样的，这位剑桥大学的数学大牛，最近搞到了尊贵的 5.5 Pro「优速通」权限。

拿到新玩具后，Gowers随手把几道加法数论的公开难题丢给了AI，想瞅瞅怎么个事。

但接下来发生的事，完全超出了他的预料。

不到两个小时，小GPT独立完成了一项他认为「完全够格写进博士论文」的数学成果。

全程，Gowers教授没有提供任何数学层面的指导。

唯一需要他做的事就是：

嗯你这个想法不错，你展开试试？

可以啊，能不能帮我写成LaTeX预印本格式？

这一刻，Gowers 真切地感受到了当代年轻人那种窒息的焦虑——

当AI已经能独立攻克这种水平的难题，正在读博的年轻数学家们，该何去何从？

连他都给不出清晰的答案。

唯一能做的，就是尽可能快地为学生们找到新出路。

在AGI真的来临之前，重新找到数学学习的真正价值，然后迅速转向。

对学生负有责任的数学系，应该紧急为此做好准备。

但先别焦虑，因为另一位菲尔兹奖得主——陶哲轩，有很多想跟大家说的。

毕竟，他可谓是AI和数学交界线的先锋了，前段时间还联合创立了一个AI4S组织，就是想帮助年轻人寻找AI时代新出路。

无独有偶，陶哲轩刚刚也发出了自己的最新感悟：

数学证明的「消化」问题，才是AI时代人类数学家最不可替代的价值所在。

两位当世最顶尖的数学家，面对同一场风暴，给出了不同角度的思考。

不过，相比陶哲轩，Gowers这次的reaction或许更有看头。

毕竟陶哲轩已经是「AI老玩家」了hh，相对来说比较淡定。

Gowers这次是真有点「瘫软」了（bushi），直接怒发了一篇超级长文。

真的很长很长……

以下是整理好的，更方便大家阅读的版本。

Enjoy。

故事的起点，其实是一篇挺有意思的论文。

加法数论大佬Mel Nathanson写了篇论文，里面列了一堆关于整数集合求和性质的公开问题。

这类问题的特点是方向明确，难度适中，数量又多，本来是留给刚入门的博士生练手、冲第一篇顶刊的黄金素材。

结果被Gowers拿来为难ChatGPT 5.5 Pro了。

他丢给AI的问题大概是这样的：

给定一个整数集合A，已知它有k个元素（|A|=k），也知道它的二重求和集（简单说就是集合里所有元素两两相加得到的新集合，记为2A）有多少个元素，那A的直径最小能是多少？

Nathanson自己已经证明了一个指数级的上界（2^k-1），但一直怀疑还能优化。

ChatGPT 5.5 Pro思考了17分钟零5秒。

然后它给出了一个二次上界的构造，而且是理论上最优的。

它的核心思路是用Sidon集（一种求和集大小最大化的特殊集合）和等差数列做组合构造。

咱通俗点说，就像搭积木，AI选了两种特殊积木。

一种叫Sidon集，里面任意两个不同元素的和都不一样，能让求和集规模最大化。

另一种是咱们上学都学过的等差数列，把这两种积木巧妙组合起来，就搭出了满足条件的最小直径集合。

Nathanson原本的证明用了归纳法，本质上也在做类似组合积木的事，但用的是2的幂次这种效率较低的Sidon集。

但就像用大积木搭小房子，难免浪费空间，所以才得到了指数级的大直径。

ChatGPT 5.5 Pro则是直接换了一种已知的更高效Sidon集。

这种集合的直径是二次的（简单说就是k个元素的话，直径大概是k²级别），比指数级（2^k）小了不止一个数量级，相当于用精致的小积木精准搭房，空间利用率直接拉满。

可能有朋友会说，这不就是把已有的数学工具重新拼了一下吗？

还真没错。

但Gowers自己也承认，相当多的人类数学研究，本质上也是在组合已有的知识和证明技巧。

关键在于，Nathanson本人没有想到这一步，而ChatGPT想到了。

Gowers接着又问了一个相关的升级版问题——

把二重求和集换成限制求和集，也就是这个集合里的元素两两相加时，要求两个元素不能是同一个，其他条件不变，还能不能找到最小直径？

这个问题毫无悬念也被解决了。

然后他让ChatGPT把两个结果合并写成一篇学术笔记，47分钟后，一份标准的LaTeX预印本就出来了。

然后事情开始变得更有意思，Gowers又上了难度，问了一般情形下k重求和集的直径问题。

这个问题要难得多，因为对于一般的k，我们甚至不完全知道哪些求和集大小是可以被实现的，连基本的构造框架都缺。

不过好在麻省理工学院（MIT）的学生Isaac Rajagopal已经做了开创性工作，他证明了h重求和集直径的指数级依赖关系。

Gowers想看看GPT 5.5 Pro能不能在Isaac的基础上做改进，没想到，AI直接上演了两连跳操作，还独创了k-解离集合构造。

接下来发生的事，按时间线捋一下:

第一轮，ChatGPT思考了16分41秒，基于解离集合的创新思路把上界从指数级改进到了亚指数级。
第二轮，Gowers让它写成预印本，花了47分39秒。
第三轮，Isaac本人看了，认为论证看起来是对的，而且论证逻辑严谨，k-解离集合的运用很巧妙。
第四轮，Gowers贪心了，问ChatGPT能不能进一步推到多项式界。
第五轮，ChatGPT思考了13分33秒，提出微调k-解离集合可以做到，但有几个技术细节需要验证。
第六轮，Gowers让它自己验证，9分12秒后搞定核心卡点。
第七轮，写成预印本，31分40秒。
第八轮，Isaac再次审阅，判断结论基本成立。而且他特别指出，不只是逐行正确，在思路层面也是对的，也就是说ChatGPT确实贡献了新的想法。

而整个过程，Gowers的数学输入为零。

他做的全部工作就是当一个项目经理（数学版）——

提出需求，确认方向，要求交付。

数学本身，全是ChatGPT在做。

这件事如果只是一个酷炫的demo，倒也还好。

但Gowers看到的是两个正在逼近的危机。

首先，一个很现实的问题是，这个AI搞出来的结果该怎么处理？

如果是人类数学家做出来的，这完全够得上发表。

但现在主要工作是AI完成的——

arXiv已经明确拒绝AI生成内容，传统期刊显然也不会接受。

那它该放在哪？

Gowers自己提了一个设想，也许应该建一个专门的AI数学成果仓库，有一定的审核流程。

比如需要人类数学家确认正确性，或者经过形式化证明助手验证，但也不要让审核本身变成巨大的工作量。

成果归属问题之外，才是Gowers真正焦虑的地方——

数学培养体系被釜底抽薪。

训练博士生做研究，最经典的路径就是给新手一个难度适中的公开问题入门。

Nathanson论文里的那些问题，原本就是完美的素材。

但现在，ChatGPT 5.5 Pro两个小时就解决了。

这直接把入门门槛抬高了，因为以前你只需要证明一个没人证过的东西，现在你得证明一个AI也证不了的东西。

Gowers倒也没有完全悲观，他给出了两个缓冲空间。

一个是，博士生也可以用AI。

未来科研门槛可以不再是硬刚「AI解不出的题」，而是在人机协作下，做出AI单独做不到的成果。

Gowers自己最近也在大量做这种人机协作的数学研究，他说AI确实能提供有用的贡献，但还没到能独立产生game-changing想法的地步。

另一个是，AI最容易突破的其实是组合数学。

因为组合学本质上是从问题出发的反向推理，而其他数学分支更多是从想法出发的正向探索。

后者需要判断什么观察是有趣的、什么方向值得深入，这种审美判断对AI来说可能更难，目前仍是人类占优。

但他也特意强调以上都只适用于当下的AI，大模型迭代太快，现在的判断可能几个月就过时。

而且还扎心了一波：

如果一个人做数学的目的是把自己的名字永远刻在某个定理或定义上，追求「冠名永生」，那这种时代红利可能很快就会彻底消失，对所有人都一样。

Gowers用一个思想实验点透本质：

假设一个数学家通过和AI长时间对话解决了一个重大问题，数学家起了引导作用，但主要想法和全部技术工作都是AI完成的，我们会认为这是这位数学家的重大成就吗？

Gowers的答案是：不会。

既然如此，那AI时代学数学还有什么意义？

Gowers说，就像优秀的程序员比普通人更擅长Vibe coding，真正做过研究的数学家也会更擅长和AI协作。因为你对问题解决过程本身的理解越深，你用AI的能力就越强。

数学本身是一种高度可迁移的底层思维能力，未来数学研究者或许失去了独享定理冠名的学术荣誉，但沉淀的思维功底，会是AI时代最好的个人底气。

其实吧，关于AI对数学研究的冲击，陶哲轩看到的很早很早。

今天，他提出了一个「金字塔」，将数学问题的解决拆分为三个组成部分

证明生成：构造出一个完整的证明。
证明验证：确认证明是正确的。
证明消化：真正理解这个证明在说什么，为什么是对的，它揭示了什么更深的结构。

前两个，AI正在以惊人的速度实现自动化。

但第三个——消化——远远没有被解决。

这将引发一种前所未有的「认知过载」：

证明像不要钱一样被大量生成，甚至机器都能帮你验算完了，但没有人真正消化它们。

陶哲轩称其为「证明消化不良」（proof indigestion）。

对此，或许会有人提议：

那就把第三步也自动化掉嘛，训练AI用更好的数学写作风格来呈现证明，让它更容易被理解。

但陶哲轩的意思是，盲目优化「可读性」指标，可能反而让最终产物变得更差。

他用烹饪作类比。

我们咀嚼食物，是为了帮助消化。烹饪技术可以让食物更嫩，减少咀嚼的需要。

这在技术上确实解决了消化问题。但没人想这么吃饭，不管身体还是精神都会出大问题的。

吃饭的价值从来不只是摄入营养。

感官体验，还有社交场景，还有咀嚼本身带来的满足感……这些附加产物，才是人类最享受的东西。

优化掉所有摩擦，你得到的不是更好的饮食，而是一根饲料管。

数学也一样。

分清楚什么是数学学习中，「必须」经历的摩擦。

有些证明中的「难度」，是人为制造的。

措辞不清晰、结构混乱……这些「人工难度」，用AI读论文确实可以消除，就像把一块肉腌制一下再上桌。

但还有一种，属于「自然难度」。

它本来就应该是难的。

读者需要「咀嚼」它，才能获得真正的理解，并在这一过程中迸发新的灵感。

这就像陶哲轩之前在播客说的，他会故意在日程表中空出一段时间，用来「不期而遇」。

看到这里，有人可能还会说：让AI解决一切，继续优化评判标准，把「自然难度」也纳入考量不就好了？

但事实上，不是所有问题都能被当做一个「优化问题」——只要无限迭代，到最后得到的结果，就一定是我们想要的。

人类对待食物思路就不是这样。

米其林大厨手工制作的料理，至今仍然比机器加工的食品更受珍视，即使后者安全、好看、易消化、方便、口味也不差。

不是说加工食品没有用处。

只是，没有人会认真地提议，用它来完全取代人类的烹饪艺术。

这叫「烟火气」，是必须人类去赋予的。

两位菲尔兹奖得主，面对同一场风暴，看到的是不同的东西。

Gowers看到的是危机。

那些原本为年轻数学家准备的「入门赛道」，正在被AI碾平。培养体系的地基在动摇，学术发表的规则在失效。

新人的路在何方？

对此，陶哲轩其实也没有答案，他给出的，是边界。

AI能生成证明、能验证证明，但「消化」，至少目前，还是独属于人类。

不是AI做不到，而是……

我们不能交出去。

这不是单纯的知识型任务，「消化」这件事，触及到智能本身。

这真是个属于「意义」的时代。

AI正在一步步把我们逼到墙角，一次又一次无止境地追问：

到底什么才是独属于人类的、最珍贵的东西？

在数学领域，这个东西可能是陶哲轩所说的那种有益的「自然难度」。

那些必须靠自己咀嚼、煎熬地探索，才能真正变成你一部分的知识。

或许，其他领域同样如此。

搅拌机可以把一切打碎。

但有些东西，永远需要人亲自去做。

不要沦为黑客帝国里，被插着管子的生物电池。

从更宏观的视角看，这场争论实际上触及了人类智能的最深层问题。Gowers的焦虑提醒我们，技术变革的速度正在超越教育体系的适应性，而陶哲轩的“消化”理论则给出了一个可能的安慰：数学的本质不只是解题和证明，更是对深层结构的理解和欣赏。这种理解需要时间、需要困惑、需要人类独有的那种“慢思考”。AI可以生产出完美的证明，但很难替代那种在艰难探索中诞生的、能改变数学家思维方式的洞察。未来的数学教育，或许不应再执着于培养“解题机器”，而应更注重培养那些能提出深刻问题、能品味数学之美、能在与AI协作中保持独立思考的下一代研究者。这不仅是数学界的课题，也是所有知识领域面对AI浪潮时的共同命题。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

菲尔兹奖得主实测ChatGPT 5.5 Pro：17分钟出论文级成果，数学专业危险了

相关推荐

发表回复