人工智能革命降临数学领域

Konstantin Kakaes 2026-04-13

人工智能革命降临数学领域

摘要

2025年夏季成为数学界的关键转折点，多款人工智能模型在国际数学奥林匹克竞赛中取得突破性成绩，随后迅速渗透至前沿数学研究。以陶哲轩为代表的一批顶尖数学家开始系统性地将AI工具融入日常工作，从优化问题求解到抽象代数几何证明，AI展现出远超预期的辅助能力。这场变革既带来效率的飞跃，也引发关于数学本质、教育传承与学术公平的深层思考。

内容框架与概述

2025年7月，AI模型在IMO竞赛中解出五道题目，震惊数学界。这一事件促使原本持怀疑态度的数学家重新审视AI潜力。陶哲轩与布朗大学的戈麦斯-塞拉诺等人合作开发AlphaEvolve系统，利用Gemini生成Python代码并通过遗传算法优化，在67个数学问题中的23个上改进了已知最优解。与此同时，瑞士联邦理工学院的施密特发现大型语言模型已成为有价值的对话伙伴，尽管它们会犯奇怪的基础错误，却能提出精妙的新思路。

UCLA的优化理论专家柳恩斯特借助ChatGPT，在三天内证明了俄罗斯数学家涅斯捷罗夫1983年提出的收敛性猜想。他通过反复验证模型输出的部分正确结果、剔除错误并迭代反馈，最终完成证明。这一案例展示了人机协作的新模式：人类担任验证者，AI负责快速探索可能性空间。2026年2月的First Proof挑战赛进一步验证了这一趋势，AI模型在一周内解决了超过半数的研究级数学问题。

在更抽象的代数组合领域，来自智利、墨西哥、澳大利亚等地的数学家团队利用AlphaEvolve发现了排列群Bruhat区间中隐藏的超立方体结构，这一发现完全出乎研究者意料。斯坦福大学的瓦基尔等人则借助DeepThink和FullProof系统，证明了关于球面嵌入旗流形的多项式逼近定理。然而，AI生成的数学垃圾信息泛滥、学生依赖AI导致基础能力退化、以及工具获取的不平等问题，同样引发广泛忧虑。菲尔兹奖得主文卡特什强调，数学作为艺术与科学的结合，其文化价值需要被守护。

核心概念及解读

AlphaEvolve：谷歌DeepMind开发的进化计算系统，结合大型语言模型代码生成能力与遗传算法优化机制，通过迭代变异和选择来搜索数学问题的最优解。该系统在提示词中加入积极鼓励时表现更佳，这一特性反映了当前AI系统的某些不可解释行为。

Bruhat区间：排列群中基于Bruhat序定义的子结构，用于刻画置换之间的可达关系。该概念横跨组合数学、表示论与代数几何，其d-不变量衡量区间结构的复杂度。AI在该领域的意外发现表明，机器学习能够揭示人类长期忽视的隐藏模式。

形式化证明：将数学论证转换为计算机可验证的逻辑形式语言的过程。面对AI生成内容的可靠性危机，数学界正加速推进自动形式化技术，期望通过机器验证来确保AI辅助研究的严谨性，这被视为维护数学标准的关键基础设施。

梯度下降与收敛性：优化理论中的基础算法，通过沿函数梯度方向迭代更新来寻找最小值。涅斯捷罗夫提出的加速变体通过引入动量项改进收敛速度，但其全局收敛性的严格证明困扰学界42年，直至AI辅助下才得以解决。

自动形式化：利用AI模型将自然语言数学陈述翻译为形式化逻辑语言的技术。陶哲轩认为该技术首次展现出规模化处理数学知识的可能性，但同时也意味着数学教育和研究生态需要根本性调整。

文章基本信息

字段	内容
原标题	The AI Revolution in Math Has Arrived
作者	Konstantin Kakaes
发布日期	2026年4月13日

严谨性的飞跃：人工智能如何开始改写数学研究

转折点出现在 2025 年夏天。那年 7 月，多个大语言模型在国际数学奥林匹克（IMO）中解出了六道题目中的五道。虽然数学家们对此感到震惊——很少有人预料到这些程序能如此迅速地达到这种水平——但这些惊人的结果并不一定意味着 AI 会在研究数学领域取得重大进展。毕竟，奥数题是具有已知答案的挑战性谜题，而不是开放性问题。

尽管如此，这些结果还是引起了人们的关注。那些曾因 AI 模型过于容易出错而认为其毫无用处的数学家，开始尝试使用它们。这些早期采用者惊讶地发现，这些模型不仅擅长解谜，还能帮助在真正的新领域取得突破。很快，数学家们开始利用 AI 发现并证明新的结论，在一天内完成过去需要数周或数月才能完成的工作。加州大学洛杉矶分校的著名数学家陶哲轩说：“2025 年是 AI 真正开始在许多不同任务中发挥作用的一年。”

虽然目前还没有哪项单一的新成果堪称世界级的重大突破，但其中一些已足以与专业数学期刊上发表的发现相媲美。在某些情况下，算法能够制定猜想、进行证明，并在几乎没有人类干预的情况下验证证明。在另一些情况下，与 ChatGPT、Claude 或 Gemini 等大语言模型的广泛交流引出了新颖的证明策略。

“这个家伙有铲子，那个家伙有镐头。我们齐心协力就能钻出一个隧道，”陶哲轩说。现在有“很多通过‘投石问路’来看看什么样的方法能行得通的尝试。”

尽管陶哲轩或许是 AI 在数学领域实用性最杰出的倡导者，但其他人也对此表示认同。

多伦多大学的丹尼尔·利特（Daniel Litt）表示，即使只是解决一些简单的问题，AI 也“正在改变数学研究的方式”。

陶哲轩说，很快，“数学的面貌和感觉将与传统的数学研究方式完全不同。”以前数学家一次研究一个问题，而“有了这些工具，你可以一次解决数千个问题，并开始进行统计学研究。”虽然我采访的人中没有人认为 AI 会取代数学家，但陶哲轩补充道：“我们必须做出许多制度上的改变和文化上的改变。”

戴眼镜、穿黄衬衫的男子。

陶哲轩对 AI 模型为数学家带来的机遇感到兴奋。他说，很快，数学的“面貌和感觉将与传统的数学研究方式完全不同”。 Reed Hutchinson/UCLA

与其他正在应对 AI 冲击的学术领域一样，这些变化也将引发争议。普林斯顿高等研究院的阿克沙伊·文卡特什（Akshay Venkatesh）表示，随着 AI 模型成为强大的新工具，它们可能让数学家失去对数学理解的直接体验。与陶哲轩一样，文卡特什也是数学界最高奖项菲尔兹奖的获得者。两人都同意 AI 的影响将是巨大的，但文卡特什对此更为谨慎：“我们的文化中有些宝贵的东西是应该努力保留的，”他说。

一些数学家现在正离开学术界，去 OpenAI 和谷歌等大型科技公司工作，或加入 Harmonic、Logical Intelligence、Axiom Math 和 Math Inc. 等专注于数学的 AI 初创公司。卡内基梅隆大学计算机辅助数学推理研究所主任杰里米·阿维加德（Jeremy Avigad）表示：“企业界对数学 AI 如此感兴趣的一个原因是，人们认识到通用智能（AGI）的关键在于结合机器学习的洞见和数学的精确性。”

到了 2026 年初，对 AI 能力的震惊已转化为一种更接近于奇迹的感觉。二月的一项名为“First Proof”的挑战赛给参赛者一周时间，让他们利用 AI 模型解决各个数学领域的 10 个研究级问题。数学家们挑选的问题不太可能出现在算法的训练数据中。通过不同程度的自主运行，模型成功解决了超过一半的问题。如果说奥数结果代表了 AI 进入了雄心勃勃的大学数学课程，那么 First Proof 的结果可以说标志着它们研究生毕业的时刻。利特在一篇分析结果的博客文章中写道：“这项技术极有可能比‘计算机本身的影响’还要大。”

创造性进化

尽管 2025 年夏天标志着 AI 能力的拐点，但这并非凭空而来。Google DeepMind 科学副总裁普什米特·科利（Pushmeet Kohli）表示，DeepMind 自 2018 年以来一直尝试用 AI 解决数学问题。现就职于 Axiom 的 François Charton 早在 2019 年就开始尝试使用机器学习来解决数学问题。

但在早期，这还是一个冷门领域。起初，Charton 等少数人利用 AI 解决已知解的问题，仅仅是为了看看新技术是否可行。到了 2024 年，他们开始开疆拓土。他们寻找拥有丰富可分析数据的领域，然后利用 AI 构建具有可量化属性的数学对象——例如，如何在网格上排列点，使其不形成等腰三角形。

Mark Belan/Quanta Magazine; 来源: https://arxiv.org/abs/2411.00566

2025 年 1 月，陶哲轩和布朗大学的 Javier Gómez-Serrano 开始与 DeepMind 的两位数学家 Adam Wagner 和 Bogdan Georgiev 合作开发一个名为 AlphaEvolve 的 AI 系统。AlphaEvolve 的工作原理是利用 Gemini 编写可能长达数百行的 Python 程序。然后，它使用所谓的“遗传算法”（genetic algorithms）来“进化”这些程序，试图寻找数学问题的最优解。这四位数学家在几个月的时间里，每一两天就用 AlphaEvolve 处理一个新问题。

在此过程中，他们还学会了如何改进给 AlphaEvolve 的提示词（prompt）。一个关键的发现是：模型似乎受益于鼓励。Gómez-Serrano 说，当我们“在向大模型提供提示词时加入一些正向激励”时，它的工作效果更好。“比如对它说‘你可以做到的’——这似乎很有帮助。这很有趣，我们不知道为什么。”

到 5 月下旬，团队已经在几个数学领域的 67 个不同问题上尝试了 AlphaEvolve。在其中 23 个问题上，AlphaEvolve 在某种程度上改进了已知的最佳解。在 67 个问题中的 36 个上，它达到了已有的水平，而在剩下的少数问题上，它未能达到已知最佳结果。数学家们在 2025 年 11 月的一篇论文《大规模数学探索与发现》中分享了他们的发现。Gómez-Serrano 指出，这些结果中的任何一个都可能由某个领域的专家花费数月时间得出。但由于他们并非这些领域的专家，“我们却能够在短短一两天内获得同等水平的结果，”他说。

正如陶哲轩所说，目前的 AI 模型“非常擅长在庞大的问题列表中寻找‘垂手可得的果实’（low-hanging fruit）。这些工作单调乏味、吃力不讨好，是人类不想做的。”他提醒说，模型是在“未报告的大量失败案例中取得了一些零散的成功。”但这些成功是显著的。

Gómez-Serrano 估计他现在大约三分之二的时间都在使用 AI。他说，AI 正在“达到一种有用且好用的程度。这是我们未来研究数学的新方式的开始。”

错误中的洞见

在之前的几年里，AI 的额外力量似乎源于它能够重新发掘埋没在冷门文献中、早已被遗忘的证明。加州大学洛杉矶分校的帕克（Igor Pak）指出，ChatGPT 目前“在寻找正确的参考文献、正确的文献、寻找 Google Scholar（不具备语义功能）无法发现的联系方面表现极佳。”

到了 2025 年，苏黎世联邦理工学院的约翰内斯·施密特（Johannes Schmitt）表示，情况发生了转变。他说：“与大模型交流开始变得有用，并不是因为它们会直接给你完整答案，”而是因为“它们成了优秀的对话伙伴。”

男子在户外微笑。

约翰内斯·施密特最近注意到 AI 在数学中扮演着一个飞速发展的角色：作为对话伙伴。 Aitor Iribar-López

由于他交流的大模型不可避免地会犯很多错误，导致一些数学家断然拒绝使用它们。他说，许多研究人员认定，如果“它说的每句话都多少有点错，我就根本不理它。”但其他人——他自认属于这一阵营——对“与这个满口胡言的模型交流的痛苦”有更高的容忍度。“他们认为，我仍然能从这段对话中得到一些东西；即使不是每个想法都好，我可以忽略坏的，采纳好的。”施密特指出，这些错误很古怪：任何受过数学训练的人，都不可能在解出微妙、原创且正确的想法的同时，还犯下一大堆基础性错误。

加州大学洛杉矶分校的 Ernest Ryu 主要从事应用数学中名为“最优化理论”的分支研究，在奥数结果出炉后，他也开始更多地关注大模型。AlphaEvolve 是在尝试优化特定的量，而 Ryu 想证明的是优化算法在何种条件下能够奏效。

2025 年夏天，他注意到大模型的数学能力有了显著提升。他开始使用它们来帮助编写讲义，主要是为了填补记忆中关于某个特定证明细节的空白。他说，有时“它会发现我推理中的错误，有时是严重的，有时是微小的。有时它会发现比我的笔记中更简单的证明。”

他感觉到 AI 模型正“表现出生命力”。他记得自己当时感到怀疑但也乐观。为了亲自验证大模型能做和不能做的事，他决定做个实验。10 月的一个晚上，在他年幼的儿子入睡后，他开始尝试解决最优化理论中一个他过去曾尝试过几次的开放性问题。这一次他使用了 ChatGPT。他说：“这不是最重要的问题，但我知道有 10 个人会非常感激这个解决方案。”

Ryu 研究的问题最初由俄罗斯数学家尤里·内斯特罗夫（Yurii Nesterov）于 1983 年提出。内斯特罗夫试图找到那些接受多个变量输入、输出一个具有特定数学性质的单一值的函数的最小值。如果你把输出看作一张海拔图，你想要证明你最终会收敛到最低点，而不是在寻找它的过程中无止境地徘徊。

这类问题在应用数学中经常出现，特别是在机器学习领域，它是训练神经网络的核心。假设你从地图上的某处开始。一种名为“梯度下降”的广泛使用的技术利用微积分的基本工具，找出哪条路是下坡路，以及你所处位置的山坡有多陡。每次都向最陡的下坡方向走一步，最终你就会到达最底部。

虽然梯度下降能带你找到正确答案，但有时过程非常缓慢。因此，数学家们长期以来一直在寻找能更迅速收敛到正确答案的变体。内斯特罗夫开发了一种技术，其中每一步下坡的大小不仅取决于函数在给定点的陡峭程度，还取决于你之前走过的路径。如果你过去步子跨得大，你会继续保持。

直觉上，这样做会更快到达山底。但如果走太快冲过头了怎么办？你可能会面临在真正最小值周围无休止振荡而永远无法达到的风险。内斯特罗夫无法证明他的算法最终会收敛到最优值。而在 42 年的时间里，也没有其他人能证明。

当 Ryu 询问 ChatGPT 时，“它一直给我错误的证明，”他说。“但通往必然错误的引导过程中有一些有趣的步骤，有些正确的局部结果似乎很有用。”随着大模型取得渐进式进展，他会检查它的答案，保留正确的部分，并用新的提示词反馈回模型。“我必须扮演验证者的角色，”Ryu 说。“有了 ChatGPT，我觉得我能迅速覆盖大量领域，比我自己能做的快得多。这就是支撑我走下去的动力。”

在分摊到三天的约 12 小时工作中，他得出了该问题简化版的证明。又过了几天，他终于证明了内斯特罗夫的方法确实是收敛的。Ryu 说，这并非“最有创造性的工作，也不是最复杂的。但它肯定没那么容易。”他补充道，虽然这不是一个改变人生的结果，“但如果没有 AI 这个成分，它也是可以发表在顶级最优化期刊上的成果。这是一个很好的结果。”

“这是一个 ChatGPT 的使用真正加速了发现的典型案例，”他说。他认为大模型的能力只会继续提升。“如果你看看进步的速度，那是惊人的。一年后，再经过两三个模型的迭代，我们将获得真正令人印象深刻的、由 AI 辅助的实质性发现。它一定会到来。”

在分享了关于内斯特罗夫方法的论文几个月后，Ryu 从加州大学洛杉矶分校离职，加入了 OpenAI，目前他是那里的技术人员。

置换群中的新秩序

在 2025 年这一整年并延续到 2026 年初，AI 已被用于证明日益抽象的结果。

2025 年 9 月，来自世界各地的 100 多位数学家聚集在布朗大学，参加一个关于代数组合学的特别项目。来自智利的 Nicolás Libedinsky 和 David Plaza，来自墨西哥的 José Simental，来自澳大利亚的 Geordie Williamson，以及来自威斯康星大学的 Jordan Ellenberg 悉数到场。

出于不同的原因，他们都对计算一个名为 $d$ -不变量的量感兴趣，该不变量出现在数学的许多领域。要理解 $d$ -不变量是什么，首先需要了解其中一个领域中被广泛研究的对象：置换群（permutation group）。这个对象是描述洗牌（排列一组物品）的不同方式。

它从简单的情况开始。如果你有一副只有一张牌的牌组，你无法洗牌。所以置换群 $S_1$ 只有一个元素。 $S_2$ 有两个元素：如果你有两张牌，它们可能以两种顺序出现。 $S_3$ 变得复杂了一点；洗三张牌有六种不同的方式。

Mark Belan/Quanta Magazine

对卡片进行排序的不同方式可以排列成一个由顶点和边组成的网络，称为“图”。起始排列“123”位于底部。图的每条边（画成箭头）代表交换两张卡片：

随着牌数 $n$ 的增加， $S_n$ 增长得非常快——导致在 $S_4$ 之后，这些图几乎不可能画出来。（ $S_{60}$ 的元素数量大约相当于可观测宇宙中的原子总数。）

数学家想要理解这些图的结构，既把它们作为对象本身研究，也作为分析其他事物的工具。

再次考虑置换群 $S_3$ 的图，它有六个元素（即置换）。我们想要探索这些置换之间的关系。一种方法是查看通过遵循箭头从一个置换到达另一个置换的所有路径。如果可能从第一个置换沿着箭头旅行到第二个置换，则给定的置换比另一个更“小”（使用一种称为“布吕阿次序”的定义）。所以“213”比“321”小。

然后我们可以查看两个置换之间的“布吕阿区间”（Bruhat interval）——即当你遵循图的箭头时位于它们之间的所有不同置换的集合。例如，“213”和“321”之间的区间（下图中红色部分）包括“231”和“312”。（如果无法通过遵循箭头从一个置换到达另一个置换，例如从“213”到“132”，那么两者都没有大小关系，它们之间的区间没有定义。）

粗略地说，与两个置换相关的 $d$ -不变量是衡量其布吕阿区间底层结构复杂性的指标。同样的量出现在许多看似无关的数学问题中，因此引起了数学家的极大兴趣。

在更大的置换群中，很难以任何通用的方式描述两个给定置换之间的布吕阿区间是什么样的。Libedinsky 说：“区间是极其复杂的东西。”他与 Simental、Plaza、Williamson 和 Ellenberg 一起——出于不同的原因都希望能为给定的置换群找到最大的 $d$ -不变量——开始寻求 AI 的帮助。

结果，他们发现了完全不同的东西。

2025 年 10 月，Ellenberg 请求 DeepMind 的 Wagner 使用 AlphaEvolve（该系统未公开）来分析数十个置换群的布吕阿区间结构。程序运行了一夜。Williamson 说：“第二天早上，我们觉得这个程序真的在做一些有趣的事情。然后我记得那天邮件往来非常频繁。”

大模型在进行计算时一直在自言自语。“我准备提出一些真正古怪的想法，针对这个问题进行一次‘疯狂伊万’（Crazy Ivan）机动，”它沉思道。它指的是潜艇有时为了探测敌方而采取的一种急转弯动作，该术语因汤姆·克兰西的小说《猎杀红十月》而流行。

最终，AlphaEvolve 在尝试寻找具有大 $d$ -不变量的区间的过程中，生成了大约 50 行 Python 代码。当数学家们试图弄清楚这些代码在做什么时，Ellenberg 意识到，如果牌组中的牌数是 2 的幂（如 16，即 $2^4$ ），程序就会变得短得多——大约只有五行长。Williamson 说：“你可以非常明确地分析它，它正在做一些非常美妙的事情。”

正如他们在 2026 年 1 月 3 日的一篇预印本中所述，AlphaEvolve 发现这些特定置换群中的布吕阿区间具有出人意料的特殊结构。当研究人员研究这些区间时，他们发现它们形成了高维立方体，即“超正方体”（hypercubes）。Libedinsky 说：“看到 AlphaEvolve 的思考过程，我超级惊讶。如果它是一个人，那将是一个非常有创造力的人。”

AlphaEvolve 回答了一个他们并不知道自己拥有的问题。Ellenberg 说：“我们并没有要求 AlphaEvolve 去寻找大的超正方体。我们要求它寻找别的东西，然后我们思考后意识到那是一个巨大的超正方体，这是我们没想到的。”

正如 Williamson 所说：“这个结构已经在我们鼻子底下存在了 50 年，我们只是没注意到它。”

早期的机器学习方法以前也能实现这类偶然的数学发现——揭示无人想到去寻找的模式。但 Williamson 说，过去那是一项“真正的工程工作。……你需要知道如何编码，花大量时间研究神经网络训练的细节。对于一个没有深厚机器学习背景的数学家来说，这基本上是极难做到的。”

有了大模型，“我可以突然在 20 分钟内完成一个两年前需要两周时间才能完成的实验，”他说。虽然“大多数时候它都不起作用”，但 AI 现在可以前所未有地被用来“探索那个拥有超乎想象财富的世界”。

环绕球体

尽管布吕阿区间看起来是纯粹的组合学对象，但它们在代数几何这一极其抽象的数学领域也发挥着重要作用。斯坦福大学数学家、现任美国数学学会主席拉维·瓦基尔（Ravi Vakil）便专攻此领域。

代数几何是研究由多项式方程（如 $x^3 + 2x^2y + xz = 5$ ）定义的形状的学科，这些方程涉及变量的整数幂之和。方程的次数是多项式的最高指数，在本例中为 3。

柱子前戴眼镜的男子。

拉维·瓦基尔和他的同事最近在与定制版 Gemini 交流时产生了一个新颖的证明想法。他问道：“那个想法归功于谁？是归功于我们吗？还是归功于模型？” Rod Searcey

瓦基尔和他的同事，新南威尔士大学的 Balázs Elek 和英属哥伦比亚大学的 Jim Bryan，对研究球体如何嵌入特殊的空间（称为“旗流形”，flag varieties）感兴趣。（旗流形也出现在布吕阿团队的论文中。）每一种嵌入——将球体上的每个点与旗流形内的一个点关联起来的方式——都可以由一个多项式方程定义。

嵌入球体的方式有很多种。数学家将每种嵌入表示为另一个高维空间中的一个点。然后，他们通过分析这些嵌入形成的不同空间，来研究由不同次数的多项式定义的嵌入。

随着次数的增加，数学家想要理解这些空间是如何变化的。他们知道，当次数趋于无穷大时，该空间类似于所有连续嵌入的空间，而不只是由多项式定义的嵌入空间。但这种相似性何时会发生呢？

瓦基尔和他的同事发现了一些例子，令他们惊讶的是，这种相似性发生得非常快。他说：“出现了一些本该在达到无穷大之前不会出现的一致性，但它已经发生了。”

于是，他们与当时在 DeepMind 工作的 Freddie Manners 和 George Salafatinos 合作，试图利用构建在 Google Gemini 之上的两个专门模块来证明这一点：一个是公开可用的 DeepThink，另一个是 Salafatinos 开发的未公开系统 FullProof。他们从一个较简单的案例开始。瓦基尔说：“它给出的证明非常优雅、正确、写得很漂亮。我们可以逐行跟进。它阐明了一个当时并不明显的结构。由此，我们意识到整个论证和重大推广应该如何进行。”

瓦基尔和他的同事随后回到 AI 模型前，勾勒出一般情况的证明，并要求它填充细节。正如他们在 2026 年 1 月 12 日的预印本中所述，它成功了。瓦基尔说：“对我来说，真正重要的是第一件事”——DeepMind 对简单案例的证明。“论证的清晰度给了我们一个新的想法。”但他想知道：“那个想法归功于谁？是归功于我们吗？还是归功于模型？”

瓦基尔说，无论如何归功，“我相信只要给我足够的时间，我也能想出这个证明。”

但他随后犹豫了。“我想是这样。我不确定。不知道。也许我会以一种笨拙的方式完成。很有可能，没有辅助的话，这篇论文就不会诞生。”

最后：“我们需要反复交流。AI 模型将让我们有时间去做以前没时间做的事情，从而帮助我们研究数学。”

这或许是 AI 在今天发挥作用的一个典范：一组数学专家在大型科技公司的帮助下，比他们原本可能的速度更快地解决了一些问题——而且他们确信它是正确的，因为他们可以逐行检查。

你们所需要知道的一切

在探讨 AI 对数学研究的影响时，我们不应只看到成功的一面。利特警告说：“AI 生成的胡言乱语导致了‘公地污染’。”圣母大学的乔尔·大卫·哈姆金斯（Joel David Hamkins）表示，他对“淹没我们期刊系统的这片垃圾海洋感到绝望。”

数学家们正将希望寄托在形式化证明上，以此作为航行在这片垃圾海洋中的方式。他们正在将证明转化为计算机能理解的语言，然后使用计算机程序来验证证明中的所有逻辑是否成立。陶哲轩说：“没有验证的 AI 太不可靠，无法在任何严肃的应用中使用。”

目前，以这种方式对数学证明进行形式化是一个耗时且复杂的过程，这本身就需要深厚的数学知识，且带有一点手艺活的色彩。因此，数学家越来越多地转向“自动形式化”（autoformalization），即让 AI 模型将数学陈述翻译成正式的逻辑陈述，然后对其进行证明。陶哲轩说：“这是第一次，感觉我们可以通过 AI 将很大一部分数学形式化。”

许多数学家看到的另一个由 AI 日益增长的数学能力带来的重大挑战是：它将如何影响学生的学习方式。即使是最热衷 AI 的支持者也对此感到担忧。弗吉尼亚大学教授 Ken Ono（他最近离职成为 Axiom 的“首席数学家”）告诉我，他看到了“AI 如何帮助数学研究的一幅乐观图景，但我对 AI 在各级工作和培训未来中所扮演的角色深感担忧。”

陶哲轩说：“我们布置的许多问题，AI 都能瞬间解决。这会阻碍很多学生锻炼他们的‘思维肌肉’。”

哈姆金斯对此表示赞同。他说：“我以前布置相当多的家庭作业。我现在做不到了。”学生交上来的作业中有很大一部分是 AI 写的。“我不想读这些东西，我不想当 AI 警察。”虽然家庭作业在教学上非常有价值，但现在“所有事情都必须变成课堂测验和课堂练习。这是整个学术界的问题。”

正如另一位顶尖研究型大学的数学家告诉我：“存在一种严重的风险，即在加速资深数学研究人员进度的同时，AI 也在阻止我们培养更多的数学研究人员。”

尽管过去一年发生了飞速变化，但在我报道这篇文章所采访的数学家中，没有一个人担心这门学科会过时。陶哲轩打了一个比方：数学家们正试图攀登“一个拥有许多高峰和许多丘陵的庞大山脉。”人类只能一步一个脚印地爬，但他们可以规划通往珠穆朗玛峰之巅的路线。与此同时，陶哲轩说，目前的 AI 就像跳跃机器人。它们有时能“靠跑酷跳上一堵人类爬不上去的 6 英尺高的墙。”但它们无法进行长期的战略规划。陶哲轩设想，那 6 英尺可能会变成 10 英尺、100 英尺，但“这些小跳跃机器人离数学的珠穆朗玛峰还差得远。”

帕克认为，某些“珠穆朗玛峰”——比如数论中关于 $\pi + e$ 这类和是否能写成分数的大问题——在几个世纪内仍将悬而未决。他说：“我真的很怀疑 AI 是否能在那上面取得任何进展。这不是 AI 能做的事。但我很肯定，如果人类能生存下去，我们最终会解决它。”

当然，很大程度上取决于 AI 算法的能力在未来几年如何变化和提升。即使是最敏锐、最仔细的观察者也无法确定模型将如何发展。很少有人看到停滞的迹象。“事情发展得非常快。我没看到任何放缓的迹象，”利特说。2026 年的前几个月已经见证了来自谷歌和 OpenAI 等大公司，Axiom 等小公司，以及学术界甚至业余爱好者的一系列新成果。

利特说：“我的预期是，20 年内我们肯定会看到 AI 工具生成的数学在许多可衡量的方面优于所有人类数学家。如果不发生这种情况，我会感到震惊。”

但正如文卡特什告诉我的，“归根结底，表达任何一段数学都有无穷多种方式。”他说，我们做出的选择受人类价值观的支配，并受到数学不仅是一门科学也是一门艺术这一事实的影响。

科学与艺术之间的平衡在很大程度上赋予了数学美感——这是文卡特什想要保留的“文化中的宝贵财富”之一。如果 AI 将数学推离其艺术传承，即使每月证明更多的定理，这门学科也会被削弱。毕竟，没有诗人会认真谈论对十四行诗进行统计回归以寻找最优的一首。

对 AI 的最大希望是它能帮助数学家发现并证明那些否则仍将是谜团的东西。大多数数学家都同意，这就是计算机在过去 80 年里所做的事情。但目前正在发生的变革规模之大，让许多人感到不安。

世界上规模最大的年度数学会议在每年 1 月初举行。2026 年在华盛顿特区，关于被 AI 取代的焦虑玩笑随处可见，尽管在公开场合，每个人都坚称 AI 将成为人类数学家的帮手。威廉姆森——他多年来一直与 AI 合作并对此非常兴奋——被选中向全场会议发表关于 AI 与数学的著名讲座。他告诉听众，以无知和恐惧来应对 AI 的发展是错误的。

但他表示，他理解恐惧从何而来。他认为数学是“人们倾尽一生——奉献一生——去追求的手艺。在未来，它的价值极有可能被大大削弱。”

重要术语翻译对照表

英文术语	中文翻译	备注
Fields Medal	菲尔兹奖	数学界的最高荣誉。
International Mathematical Olympiad (IMO)	国际数学奥林匹克
Large Language Model (LLM)	大语言模型	如 GPT, Claude, Gemini 等。
AGI (Artificial General Intelligence)	通用人工智能
Genetic algorithms	遗传算法	一种模拟自然进化过程的搜索算法。
Optimization theory	最优化理论	研究如何寻找函数的最大值或最小值的学科。
Gradient descent	梯度下降	寻找函数最小值的基本算法。
Nesterov’s method	内斯特罗夫方法	一种加速收敛的优化技术。
Autoformalization	自动形式化	AI 将数学语言自动翻译为逻辑证明语言的过程。
Algebraic combinatorics	代数组合学	利用代数方法研究组合问题的分支。
Permutation group	置换群	描述一组元素所有排列方式的数学对象。
Bruhat order	布吕阿次序	置换群中的一种偏序结构。
Bruhat interval	布吕阿区间	两个置换在布吕阿次序下的包含集合。
$d$ -invariant	$d$ -不变量	描述组合或代数结构复杂性的量。
Algebraic geometry	代数几何	用多项式方程研究几何形状的领域。
Flag variety	旗流形	代数几何与表征理论中的重要几何空间。
Hypercube	超正方体	高维空间中的正方体概念。
Formal proof	形式化证明	经由计算机逻辑验证的证明。
Olympiad	奥林匹克 (竞赛)	特指奥数。