本篇内容为科技播客主 Dwarkesh Patel 对著名数学家、菲尔兹奖得主陶哲轩(Terence Tao)的深度访谈全文翻译。在人工智能(AI)以前所未有的速度重塑各行各业的当下,两人围绕“AI 如何改变数学研究与科学发现”这一核心命题展开了全面且深刻的探讨。

对话从天文学家开普勒通过海量试错发现行星运动定律的历史故事切入,陶哲轩将开普勒巧妙地比喻为一个“高温大语言模型”,生动揭示了科学发现中“猜想生成”与“数据验证”相互依存的紧密关系。他指出,当前的 AI 极大地拓展了数学研究的“广度”,能够快速进行海量的穷举与试错,但在深层逻辑演绎的“深度”上仍存在明显局限。

陶哲轩预测,在未来相当长的一段时期内,“人机混合”将主导数学研究领域。AI 不会轻易取代顶尖科学家的核心智力工作,而是将作为一种极为强大的辅助工具,推动形成全新的科研协作范式——由 AI 负责处理海量的常规推演、辅助生成代码并寻找知识盲区,而人类则聚焦于高维度的抽象理解与概念构建。

内容目录

  • 开普勒是一个高温大语言模型(LLM)
  • 在堆积如山的 AI 垃圾内容中,我们如何辨识出真正具有统一意义的新概念?
  • 演绎积压(The deductive overhang)
  • AI 发现报告中的选择偏差
  • AI 让论文更丰富、更宽泛,却未必更深刻
  • 若 AI 解决了某个问题,人类能从中获得真正的理解吗?
  • 我们需要一种半形式化语言(semi-formal language),来承载科学家彼此交流的真实方式
  • Terry 如何安排自己的时间
  • 在很长一段时间内,人机混合体将主导数学领域

访谈正文

开普勒是一个高温大语言模型

Dwarkesh Patel

今天,我与陶哲轩展开对话,他无需多加介绍。陶哲轩,我想先请你讲讲开普勒发现行星运动定律的故事,我觉得这将是探讨 AI 与数学的绝佳切入点。

Terence Tao

我一直对天文学抱有业余的兴趣,也热衷于早期天文学家探索宇宙本质的故事。开普勒是在哥白尼的工作基础上继续前行的,而哥白尼本人则承接了阿里斯塔克斯的成果。哥白尼以提出日心说模型(heliocentric model)而闻名于世——不是行星和太阳围绕地球运转,而是太阳居于太阳系中心,其他行星围绕太阳运行。

哥白尼认为行星的轨道是完美的圆形。他的理论与希腊人、阿拉伯人和印度人历经数个世纪积累的观测数据相吻合。开普勒在学习中了解到这些理论,并注意到哥白尼所预测的各轨道尺寸之比似乎具有某种几何意义。

他开始提出这样一个设想:若将地球轨道所在的球面嵌入一个正方体,那么包裹这个正方体的外接球面将几乎完美地吻合火星的轨道,依此类推。当时已知有六颗行星,行星之间存在五个间隔,而恰好有五种完美的柏拉图立体(Platonic solids):正方体、正四面体、正二十面体、正八面体和正十二面体。

于是他提出了这一理论——他认为美不胜收——即可以将这些柏拉图立体依次嵌套于各行星球壳之间。这一理论似乎与数据吻合,在他看来,上帝造物的设计正与柏拉图立体的数学完美性相契合。

他需要数据来验证这一理论。而彼时,世上只有一份真正高质量的数据集。第谷·布拉赫——这位富有而古怪的丹麦天文学家——说服丹麦政府资助建造了一座造价极为昂贵的天文台,实际上是一整座岛屿。他在此对火星、木星等所有行星进行了长达数十年的观测,只要天气晴朗,每夜必不间断,全程以肉眼观测。他是最后一位裸眼天文学家。

他手握这批数据,开普勒正可用来验证自己的理论。开普勒开始与第谷合作,但第谷对这批数据极为吝惜,每次只肯给他一点点。最终,开普勒干脆将数据偷了出来——他私下抄录了这批数据,事后还不得不与布拉赫的后人打了一场官司。

数据终于到手,然而令他失望的是,那套精妙的理论并不完全成立。数据与柏拉图立体理论的偏差大约有 10%。他尝试了各种修补方法,将圆形轨道挪来挪去,始终无法完全吻合。就这样,他在这个问题上苦苦钻研了数年,最终摸索出如何利用这批数据推算行星的真实轨道。

这是一项极为精妙的天才数据分析。他由此得出结论:行星轨道实际上是椭圆,而非圆形——这一发现令他大为震惊。他由此推导出两条行星运动定律:椭圆轨道定律,以及等面积定律(即行星在相等时间内扫过相等的面积)。

又过了十年,在积累了大量数据之后——土星、木星等外行星是最难推算的——他终于得出第三定律:行星完成一次公转所需的时间,与其到太阳距离的某次幂成正比。这便是著名的开普勒三大运动定律。他对这些定律毫无解释,一切皆由实验驱动;直到一个世纪后,牛顿才给出了能够统一解释这三条定律的理论。

Dwarkesh Patel

我想跟你探讨一个角度:开普勒其实是一个高温大语言模型(high-temperature LLM)。牛顿给出了行星运动三大定律为何必然成立的解释。诚然,正如你所言,开普勒发现这些定律、推算各行星相对轨道的过程堪称天才之作。但纵观他的整个职业生涯,他不过是在不断尝试各种随机的关联。

事实上,他写下行星运动第三定律的地方,不过是《世界的和谐》这本书中的一处旁注——那本书讲的是不同行星各自对应不同的和声,而地球之所以饥荒遍野、苦难丛生,是因为地球对应的音符是"mi-fa-mi"。书中充斥着各种随机的占星学推断,然而就在其中,藏着那条立方-平方定律(cube-square law),揭示了行星公转周期与其到太阳距离之间的关系。正如你所描述的,将这一定律与牛顿的 F=ma向心加速度方程结合起来,便能推导出平方反比定律(inverse-square law)。牛顿正是这样推演出来的。

我之所以觉得这个故事颇具启示意义,是因为我认为大语言模型完全可以做到开普勒那样的事——在二十年间不断尝试各种随机的关联,其中不乏毫无意义的尝试,只要存在一个可供验证的数据库,就像布拉赫的观测数据集那样。“好,我来试试音乐音符、柏拉图立体或各种几何形状……我有一种直觉,这些轨道的几何形状中隐藏着某种重要规律。”

某一条最终奏效了。只要能够加以验证,这些经验性的规律便能推动真正深刻的科学进步。

Terence Tao

传统上,当我们谈论科学史时,创意生成(idea generation)历来是科学中最受推崇的部分。一个科学问题的解决往往涉及许多步骤:你需要识别问题,进而找到一个有价值、富有成效的问题来深入研究;然后收集数据,制定数据分析策略,提出假设;在这一阶段,你需要构建一个好的假设,然后加以验证;最后还要整理成文、加以阐释。这其中涉及十几个不同的环节。

我们所颂扬的,正是那些灵光乍现的天才时刻——创意生成的顿悟瞬间。开普勒当然也经历了无数次在各种想法间的反复辗转,其中有几个根本行不通。我敢说,还有许多他根本没有发表,因为它们就是与数据不符。而这——尝试各种随机的可能性,看看哪条路走得通——恰恰是整个过程中不可或缺的一环。

但正如你所言,这必须有等量的验证与之相配,否则不过是一堆垃圾。我们推崇开普勒,但同样应该向布拉赫致敬,感谢他孜孜不倦地收集数据——其精度是此前任何观测记录的十倍。那多出来的一位小数点精度,对于开普勒得出最终结论至关重要。他运用了欧几里得几何(Euclidean geometry)以及当时所能调用的最先进数学工具,将模型与数据一一对照印证。所有要素缺一不可:数据、理论与假设生成,三者必须协同运作。

我如今并不确定,假设生成是否仍是科学的瓶颈所在。一个世纪以来,科学本身已发生了深刻变化。传统意义上,科学有两大范式:理论与实验。进入20世纪,数值模拟(numerical simulation)应运而生,科学家得以借助计算机模拟来检验理论。到了20世纪末,大数据(big data)时代来临,数据分析(data analysis)的时代就此开启。

如今,许多新的科学进展实际上是由海量数据集的分析所驱动的。你先收集大规模数据集,再从中提炼规律、推导洞见。这与过去科学的运作方式略有不同——过去是先做几次观测,或灵光一闪冒出一个想法,再去收集数据加以检验。这是经典的科学方法。而现在,这一过程几乎颠倒了过来:先收集大数据,再尝试从中提炼假设。

开普勒或许是最早的数据科学家之一,但即便是他,也并非一开始就拿着第谷的数据集进行分析——他先有了若干预设的理论。而如今,这种方式似乎越来越不是推动进步的主流路径,原因正在于数据变得愈发海量、愈发有价值。

Dwarkesh Patel

哦,有意思。我觉得你所描述的20世纪科学方式,其实与开普勒的经历颇为相似。他确实有过那些想法——1595、1596年,他提出了多边形理论,继而是柏拉图立体(Platonic solids)理论——但它们都是错的。几年后,他获得了布拉赫的数据,此后又经历了二十年的反复尝试,才终于发现了那条经验规律。

这让我感觉,布拉赫的数据其实更像是某个庞大模拟数据库的类比——有了这些数据,你才能不断尝试各种可能性。若非如此,开普勒恐怕只会一直写关于和声与柏拉图立体的书,手中根本没有任何东西可供真正的验证。

Terence Tao

数据的重要性毋庸置疑。我想强调的区别在于:传统上,你先提出假设,再用数据加以检验。但如今,借助机器学习、数据分析与统计学,你可以从数据出发,通过统计方法推导出以往未曾揭示的规律。

开普勒第三定律在某种程度上有些类似于此,只不过他手中只有六个数据点,而非布拉赫所积累的上千个。对于每颗行星,他已知轨道周期与到太阳的距离。他仅凭五六个数据点,做了我们今天所称的回归分析(regression)——将一条曲线拟合到这六个数据点上,得出了立方-平方定律(cube-square law),堪称惊人之举。但他相当幸运,这六个数据点恰好引导他得出了正确的结论——这样的数据量,其实并不足以保证结论的真正可靠。

后来有一位天文学家,Johann Bode,以同样的数据——各行星到太阳的距离——为基础,受开普勒启发,提出了一个预言:行星距离构成一个平移等比数列(shifted geometric progression)。他同样拟合了一条曲线,只是有一个数据点缺失——火星与木星之间存在一段巨大的空缺。他的定律预言那里应有一颗缺失的行星。这起初不过是一种被视为异想天开的理论,然而当 Herschel 发现天王星时,天王星到太阳的距离与这一规律完全吻合。随后,谷神星(Ceres)小行星带被发现,同样符合这一规律。人们对 Bode 发现了这一神奇的自然定律兴奋不已。

然而,当海王星被发现时,它的距离与这一规律相差甚远。归根结底,这不过是一次数字上的偶然巧合。手中只有六个数据点。开普勒之所以没有像强调前两条定律那样着力强调第三定律,或许正是因为他在直觉上有所感知——尽管没有现代统计学的工具,他大概也知道,凭借六个数据点,对结论必须保持相当程度的审慎。

如何在海量 AI 垃圾内容中辨识真正的新统一概念?

Dwarkesh Patel

让我把这个类比的问题问得更直接一些:如果未来的 AI 越来越智能,这个类比还成立吗?届时我们将拥有数以百万计的 AI,它们可以四处搜寻所有这些经验规律。但听起来,你并不认为科学的瓶颈在于为每个特定领域发现更多类似行星运动第三定律的东西——以便日后有人能够说:“哦,我们需要一种方法来解释这个现象。让我们推导出数学,这就是万有引力平方反比定律(inverse-square law of gravity)。”

Terence Tao

我认为,AI 将创意生成(idea generation)的成本降低到了近乎于零——这与互联网将通信成本降低到近乎于零的方式高度相似。这是一件了不起的事,但它本身并不能凭空创造丰盛。现在,瓶颈已然转移。我们如今面临的局面是:人们突然能够针对某一科学问题生成数以千计的理论。我们必须对这些理论进行验证(verification)和评估。这需要我们改变科学的运作结构,才能真正应对这一挑战。

传统上,我们依靠的是"筑墙"。在 AI 垃圾内容(AI slop)出现之前,业余科学家们就已经有各自的宇宙理论,其中许多几乎毫无价值。我们建立了同行评审(peer review)发表体系,用以过滤筛选,将高信噪比的想法独立出来加以检验。

但现在,我们能够以大规模的方式生成这些可能的解释,其中有些是好的,更多则是糟糕的,人类审稿人已经应接不暇。许多期刊都在反映,AI 生成的投稿正在淹没他们的稿件系统

AI 能够生成各种各样的内容,这固然令人振奋,但这也意味着科学的其他环节必须跟上步伐:验证(verification)、确认(validation),以及判断哪些想法真正推动了领域发展、哪些不过是死胡同或误导性线索。这些工作,我们目前尚不知道如何大规模推进。对于每一篇具体的论文,科学家们可以通过讨论,在数年内达成共识。但当每天都在产出数以千计的论文时,这套机制便不再适用了。

Dwarkesh Patel

这里有一个极其有趣的问题。如果你拥有数十亿 AI 科学家,不仅要判断哪些是真正的进步,你还得……其实这是人类科学曾经面临、并以某种方式解决了的问题,只是我并不确定我们究竟是如何解决的。

比如说,假设你在1940年代身处贝尔实验室(Bell Labs),彼时大量新技术层出不穷:脉冲编码调制(Pulse-code modulation)——信号如何传输?如何将信号数字化?如何通过模拟线缆传输?——所有这些关于工程约束与技术细节的论文铺天盖地,然后其中有一篇提出了比特(bit)的概念,其影响跨越了众多不同领域。你需要一套系统,能够发现这篇论文,并说:“好,我们需要把这个应用到概率论,需要把这个应用到计算机科学”,等等。

在未来,AI 们会提出下一个版本的统一概念。在数以百万计的论文中——这些论文或许确实构成了某种进步,但其中宏观的统一意义却微乎其微——你将如何辨识出这样的概念?

Terence Tao

很大程度上,这需要经过时间的检验。许多伟大的想法在最初提出时并未获得良好的反响,往往是在其他科学家意识到可以在此基础上更进一步、将其应用于自身研究之后,才真正得到认可……深度学习(Deep Learning)本身在很长一段时间内都只是人工智能领域的一个小众方向。“完全通过对数据的训练来获取答案,而非通过第一性原理推理"这一理念曾极具争议,直到很久之后才开始结出硕果。

你提到了比特。除了如今通行的零一二进制之外,历史上也有过其他计算机架构的提案——我记得有三进制(trits),即三值逻辑。在某个平行宇宙里,或许是截然不同的范式占据了主导。再以 Transformer 为例,它是所有现代大语言模型的基础,也是第一个真正足够成熟、能够捕捉语言特征的深度学习架构。但这并非命中注定——本可以有某种其他架构率先做到这一点,而一旦被采纳,它便会成为标准。

之所以难以判断某个想法是否富有成效,原因之一在于这取决于未来的走向,也取决于文化与社会环境——哪些被采纳,哪些被淘汰。以数学中的十进制为例,它极为实用,远胜于罗马数字系统。但话说回来,十这个数字本身并无特别之处。这套系统之所以对我们有用,是因为所有人都在使用它——我们将其标准化,围绕它构建了所有的计算机和数字表示系统,所以如今我们已无从摆脱它。偶尔有人主张采用十进制以外的其他系统,但惰性实在太大,难以撼动。

评价任何一项科学成就,都无法脱离其历史语境——无论是过去的还是未来的——仅靠孤立地审视本身就给出客观评分。因此,这或许永远无法像那些更加局部化的问题一样,通过强化学习加以实现。

Dwarkesh Patel

纵观科学史,每当一种新理论出现,而我们事后发现它是正确的,它往往会带来一些在当时看起来要么毫无道理——因为是错的,我们后来才明白错在哪里——要么虽然正确却显得极其荒诞不经的推论。

正如你所说,Aristarchus 在公元前三世纪就提出了日心说。古代雅典人的反应是:“这不可能——如果地球绕着太阳运转,我们应该能观察到恒星的相对位置随地球公转而改变;唯一的例外是这些恒星距离极其遥远,以至于根本察觉不到任何视差。"——而这恰恰正是正确的推论。

但有时候,推论本身是错的,我们只需要跃升到更高层次的理解。Leibniz 曾批评 Newton,反对牛顿的万有引力理论,理由是它意味着超距作用,而彼时没有人知道其背后的机制;Newton 本人也对惯性质量与引力质量竟是同一物理量感到困惑不已。这些问题后来都由 Einstein 给出了解答。但这仍然是进步。

那么,对于一套面向 AI 的同行评审体系来说,问题就在于:即便你能证伪某个理论,你又如何判断它相较于之前的理论依然构成进步?

Terence Tao

通常,最终被证明正确的理论,在最初往往在许多方面都显得更逊色。哥白尼的行星理论就不如托勒密的理论精确。地心说模型彼时已被发展了逾千年,经历了无数次修正和日益复杂的临时补丁,精度不断提升。哥白尼的理论简洁得多,却远不够精确。直到 Kepler 出现,日心说才在精确度上超越了托勒密的理论。

科学永远是一项未竟的事业。当你只找到了部分答案时,它看起来反而不如一个本质上错误、却已被完善到能够回答所有问题的理论。正如你所说,牛顿理论中存在巨大的谜团——质量的等效性与超距作用——最终是通过一种概念上截然不同的进路,在数个世纪之后才得以解决。

进步往往不是通过叠加更多理论来实现的,而是通过删除脑海中某些根深蒂固的假设。地心说之所以能延续如此之久,一个重要原因在于我们持有"物体天然趋于静止"这一观念,这正是亚里士多德的物理学观念——因此"地球在运动"这个想法才显得如此荒谬:我们为什么没有统统摔倒?一旦你拥有了牛顿运动定律——运动的物体将保持运动,如此等等——这一切就顺理成章了。

从概念上说,意识到地球正在运动是一次巨大的飞跃。地球并不让人感觉在运动。最伟大的进步,如达尔文进化论,其核心是"物种并非静止不变"这一观念。这并不显而易见,因为在一个人的有生之年根本看不到进化的发生——当然,现在我们确实可以观察到了,但它看起来依然是恒久而静态的。

我们正在经历一场认知领域的哥白尼革命(Copernican revolution)——过去我们以为人类智能是宇宙的中心,而如今我们看到,世界上存在着各种截然不同的智能形态,各有其优长与短板。我们对于哪些任务需要智能、哪些不需要的判断,必须经历相当程度的重新排序。

试图将 AI 纳入我们关于科学进步的理论框架、评判何为难、何为易,我们正处于相当大的挣扎之中。我们不得不提出一些从未真正需要回答的问题——或许哲学家们曾经思考过,但现在,我们所有人都必须直面它。

Dwarkesh Patel

这引出了一个我一直很感兴趣的话题。你提到了达尔文进化论。有一本书,Edward Dolnick 所著的《发条宇宙》(The Clockwork Universe),涵盖了我们正在谈论的这段历史时期的诸多内容。书中有一个很有意思的观察:《物种起源》(The Origin of Species)出版于 1859 年,《自然哲学的数学原理》(Principia Mathematica)出版于 1687 年。

也就是说,《物种起源》比《原理》整整晚了两个世纪。然而从概念上看,达尔文的理论似乎更为简单。与达尔文同时代的生物学家 Thomas Huxley 在读完《物种起源》后说道:“真蠢,怎么早没想到这个。”

然而,从来没有人对《原理》说过类似的话,没有人因为没能抢在 Newton 之前发现万有引力而自责。那么问题来了:为什么后者需要更长的时间?

这背后有一个很大的原因,正是你所说的那个。支持自然选择(natural selection)的证据,在某种意义上是压倒性的,但它是累积性的、回溯性的;而 Newton 可以直接说:“这是我的方程式。给我月球的轨道周期和距离,如果吻合,我们就取得了进展。”

Lucretius 实际上早在公元前一世纪就提出过物种适应环境的观念,但没有人真正谈及它,直到达尔文的出现——因为 Lucretius 无法做实验来迫使人们关注。我不禁想:回望历史,我们或许会发现,在那些拥有这种紧密数据循环、可以轻松加以验证的领域,人类取得的进展其实远比想象中多,尽管这些领域在概念上可能难得多。

Terence Tao

我认为科学有一个层面,不只是创立新理论并加以验证,还要把它传达给他人。达尔文是一位卓越的科学传播者。他用英文写作,用自然语言表达。我说话时就像——

Dwarkesh Patel

不用 Lean(形式化证明语言)。

Terence Tao

我得跳出技术思维。他用朴素的英文表达,不用方程式,还将大量零散的事实综合在一起。进化论的种种片段,过去已经有人零星研究过,但他提出了这个极具说服力的整体愿景。当然,他仍有疏漏之处:他不知道遗传(heredity)的机制,手边没有 DNA。但他的写作风格极具说服力,这帮了很大的忙。

Newton 用拉丁文写作。为了解释自己的研究,他甚至发明了全新的数学领域。他所处的时代,科学家也更为保守、竞争更为激烈。学术界至今仍充满竞争,但在 Newton 那个年代情况更为严峻。他藏下了自己的一些最佳洞见,不想让对手获得任何优势。据我所知,他这个人也不好相处。直到 Newton 时代数十年后,才有其他科学家用简洁得多的语言重新诠释了他的工作,他的理论才得以广泛传播。

阐述的艺术——如何论证、如何构建叙事——也是科学极为重要的一部分。有数据固然有帮助,但你需要说服别人;否则他们不会进一步推动,也不会投入精力去学习你的理论并真正深入探索。这也是强化学习循环(RL loop)极难处理的另一件事。你怎么给说服力打分?营销部门们正在尝试做这件事。或许 AI 尚未被优化得极具说服力,这倒是一件好事。

科学有其社会层面。尽管我们以客观自居——有数据、有实验、有验证——但我们仍然要讲故事、说服同行科学家。这是柔性的、模糊的东西;是数据与叙事的结合,是一种关于空白的叙事。

就连达尔文,正如我所说,他的理论中有些部分他自己也无法解释。但他仍能提出这样的论点:未来人们会发现过渡型化石,会找到遗传的机制——而事实确实如此。我不知道如何能以足够精确的方式量化这一点,从而开展强化学习。或许,这将永远是科学中属于人类的那一面。

演绎积压

Dwarkesh Patel

我在阅读和观看你关于宇宙距离阶梯(cosmic distance ladder)的内容时,有一个收获……顺便说一句,强烈推荐大家观看你与3Blue1Brown 合作的宇宙距离阶梯系列视频。我的一个体会是:许多领域的演绎积压可能远比人们意识到的要大。只要对研究某个问题的方式拥有正确的洞见,你可能会惊讶于我们能从世界中学到多少东西。

我想问你,这是否只是你所研究的那些特定历史时期中天文学的特点?还是说,仅凭地球上现有的入射数据,我们其实能推断出比我们已知多得多的东西?

Terence Tao

天文学是最早真正拥抱数据分析(data analysis)、竭力从已有信息中榨取每一滴有用信息的科学之一,因为数据是瓶颈所在。如今依然如此。收集天文数据实在太难了。

天文学家擅长从微量数据中提取各种结论,几乎像夏洛克一样。我听说,许多量化对冲基金(quant hedge funds)实际上最青睐招募天文学博士。他们出于其他原因,也对从各种随机数据片段中提取信号极感兴趣。

我们对如何从各种信号中提取额外信息的探索是不足的。随便举一项研究为例,我记得曾读到过,研究者试图衡量科学家实际阅读所引用论文的频率。如何衡量?可以直接调查科学家,但他们用了一个聪明的技巧。

许多引用中存在小错误,比如某个数字有误,或标点略有差池。他们测量了一个错误从一篇文献被抄到下一篇文献的频率,由此推断作者是否只是在复制粘贴参考文献而根本没有核实。从这一点出发,他们能够推断出人们在引用时究竟投入了多少注意力。所以确实存在一些巧妙的技巧来提取……

你之前提出的那些问题——如何评估一项科学进展是否富有成效、是否有趣、是否代表真正的进步——也许在数据中真的存在有用的指标或这一现象的"痕迹”。我们可以审视引用关系,以及某项成果在会议上被提及的频率。或许有大量科学社会学的研究工作可以做,能够真正探测到这些现象。也许我们真应该让一些天文学家来研究这个问题。

AI 发现报道中的选择偏差

Dwarkesh Patel

这自然引出了一个话题——从外部来看,AI 在数学领域似乎正在取得进展。你最近发了一篇文章,指出在过去几个月里,AI 程序解决了约 1100 道Erdős 问题中的五十道。我不知道现在是否仍然如此,但一个月前你说,进展出现了停滞,因为低垂的果实已经摘完了。

首先,我想问,现在是否仍是这种情况——我们已经摘完了低垂的果实,目前正处于平台期?

Terence Tao

看起来确实如此。在 AI 的协助下,约五十道问题已经得到解决,这很好,但还剩大约六百道。现在人们仍在一点一点地啃这些问题。

我们看到纯 AI 解法越来越少了——那种 AI 直接一击即中、一次解决问题的情况。曾经有一个月里频繁出现这种情况,但现在已经停止了,并非没有人尝试。我知道有三个独立的项目尝试让前沿 AI 模型(frontier model AIs)同时攻克每一道题。它们会提出一些细微的观察,或者发现某道题已经在文献中被解决了,但至今没有出现任何进一步的纯 AI 解法。

目前人们大量借助 AI。有人可能用 AI 生成一个可能的证明策略,然后另一个人使用另一款 AI 工具对其进行批评、改写、生成数值数据,或做文献综述。一些问题是在众多人类与众多 AI 工具的持续对话中解决的。但这看起来像是一次性的爆发。

或许可以用这样一个比喻来描述这些问题:你置身于某种山脉之中,四周遍布各式各样的峭壁与山墙。也许有一堵只有三英尺高的矮墙,有一堵六英尺高的,还有十五英尺高的,再往上便是那些高达数英里的绝壁。你试图攀登尽可能多的峭壁,但一切都在黑暗中进行。我们不知道哪些高、哪些矮。于是我们尝试点燃蜡烛、绘制地图,慢慢摸索出哪些是可以攀登的。其中一些,我们能辨认出墙面上的部分路径,可以先行攀至。

这些 AI 工具,就像能跳两米高的弹跳机器,比任何人类都跳得高。有时它们跳错了方向,有时会直接摔下来,但有时它们能触及那些我们此前无法企及的最矮山墙顶端。我们把它们放进这片山脉,任其四处跳跃。曾经有一段令人振奋的时期,它们确实能够找到所有低矮的墙并攀上去。也许下一次模型出现重大突破时,它们会再次尝试,又有几面墙会被攻克。

但这是一种不同的数学研究方式。通常,我们会采用爬山法(hill climbing)策略,设立小标记,尝试识别局部进展。而这些工具要么成功,要么失败。它们在创造阶段性进展、或识别应当优先关注的中间步骤方面,表现相当糟糕。回到之前的讨论——我们没有办法像评估一次性解题成败那样去评估阶段性进展。

Dwarkesh Patel

对于你刚才所说的,有两种不同的解读方式:一种对 AI 进展更加悲观,另一种则更加乐观。悲观的一面是:“哦,它们只能达到一定高度的墙,还远不如人类所能企及的高度。”

第二种解读则是:它们具备一种强大的特性——一旦达到某个水位线,便能解决该水位线以内的每一道题,这是人类根本无法做到的。我们无法复制出一百万个你,给每一个你分配价值百万美元的推理算力,让你们同时在一百万个不同问题上各自进行相当于一百年主观时间的研究。

但一旦 AI 达到 Terence Tao 的水平,它们就能做到这一点。一旦达到中等水平,便能完成对应层级的版本。我们现在应当悲观的理由,恰恰也是我们应当格外乐观的理由——甚至不必等到它们超越人类智能,仅当它们达到人类级别的智能时便已如此。因为它们的人类级智能,在广度和能力上,在质上已远超我们的人类级智能。

Terence Tao

我同意。它们擅长广度,而人类——至少是人类专家——擅长深度。我认为两者极为互补。但我们目前从事数学和科学的方式聚焦于深度,因为那是人类专业能力所在,因为人类无法覆盖广度。我们必须重新设计科学研究的方式,以充分利用我们现在所拥有的这种广度能力。

我们应当投入更多精力去构建范围极广的问题集,而非仅仅聚焦于一两个极为深刻、重要的问题。深刻、重要的问题仍然应当存在,人类也应当继续攻克它们。但现在我们有了另一种科研方式。我们可以探索全新的科学领域,方法是先让这些覆盖广泛、能力中等的 AI 绘制地图、完成所有简单的观察,再识别出某些"难题孤岛”,由人类专家前来攻克。

我非常清晰地看到一个高度互补的科学未来。最终,你会希望同时拥有广度与深度,以某种方式兼得两者之长。但我们需要在广度这一侧多加磨砺——这太新了,我们甚至还没有真正充分利用它所需的范式。但我们终将拥有,届时科学将面目全非,我想。

Dwarkesh Patel

谈到互补性,程序员们已经注意到,借助这些 AI 工具,他们的生产力大幅提升。我不知道你作为数学家是否有同感,但"氛围编程"(vibe coding)与"氛围研究"(vibe researching)之间似乎有一个重大区别:软件的核心目的是通过工作对世界产生某种影响。如果这能让你更好地理解一个问题,或想出某种简洁的抽象并体现在代码中,那都是服务于最终目标的手段。

而在研究领域,我们之所以在乎解决千禧年大奖难题(Millennium Prize Problems),是因为据我们推测,在求解过程中,我们会发现新的数学对象或新技术,从而推进人类文明对数学的理解。因此,证明本身是推动中间工作的手段。我不知道你是否认同这种二分法,也不知道它是否能在某种程度上解释我们在软件与研究领域所看到的相对提升差异。

Terence Tao

在数学领域,过程往往比问题本身更为重要,这一点确实如此。问题某种程度上是衡量进展的代理指标。即便在软件领域,我认为也存在不同类型的任务。如果你只是创建一个与另外一千个网页功能相同的网页,那没有太多技能可言——当然,单个程序员或许仍能从中习得一些东西。但对于样板式代码(boilerplate-type code),你绝对应该将其交给 AI 来处理。

有时代码写完之后,你还需要维护它,升级和兼容性问题也会随之而来。我听程序员们反映,即便 AI 能够创建工具的初始原型,让它与其他一切融合、并以预期方式与现实世界交互,仍然是一个持续的过程。如果你没有通过亲手编写代码所积累的技能,这可能会影响你日后维护它的能力。

所以是的,在数学界,我们确实借助问题来培养直觉,训练人们对何为真、何可期、何可证、何为难形成良好的判断力。仅仅立刻得到答案,实际上可能会阻碍这一过程。

我之前区分了理论与实验。在大多数科学中,理论侧与实验侧大致平分秋色。数学的独特之处在于它几乎完全是理论性的。我们极为重视构建连贯、简洁的理论,以解释事物为何真、为何假。我们在实验方面做得很少——比如,若有两种解题方法,哪种更有效,我们并没有系统研究过。我们有一些直觉,但从未做过那种取一千道题直接测试的大规模研究。

但现在我们可以做到了。我认为 AI 类工具将真正颠覆数学的实验侧——在那里,你不再那么关心个别问题及其求解过程,而是希望大规模收集哪些方法有效、哪些无效的数据。就像一家软件公司想要推出一千款软件,你不会想要手工打造每一款并从中逐一汲取教训,而只是想找到能让你规模化扩展的工作流程。

大规模开展数学研究的理念尚处于萌芽阶段。但正是在这里,AI 将真正颠覆这一学科。

Dwarkesh Patel

我觉得,在关于 AI 对科学究竟有多大助益的讨论中,有一个核心症结——我想你也提到过——那就是它们是在使用现有技术并加以改造。仅仅依靠现有技术究竟能取得多大进展,这是一个值得深入探究的问题。

如果翻阅顶级数学期刊,有多少论文是在提出全新的技术(无论这意味着什么),又有多少是将现有技术运用于新问题?演绎积压究竟有多大?如果把所有已知技术逐一应用于每一个悬而未决的问题,这究竟会给人类文明的知识体系带来巨大提升,还是说其实并没有那么令人印象深刻、那么实用?

Terence Tao

这是个好问题,但我们目前还没有足够的数据来给出完整的回答。当然,数学家的大量工作……当你面对一个新问题时,首先会做的事情之一,就是回顾过去在类似问题上行之有效的所有标准方法,然后逐一尝试。有时候这样就奏效了,而且依然值得发表,因为问题本身足够重要。

有时候这些方法差一点就成功了,你只需要再添一点小变通,这也颇具意思。但能登上顶级期刊的论文,通常是这样一种情形:现有方法大致能解决问题的 80%,但剩余 20% 顽固难克,必须发明新技术才能填补空缺。

如今,一个问题完全不依赖已有文献、所有思路凭空而来便得以解决的情况,已经极为罕见。这在过去更为常见,但数学发展至今已如此成熟,不先查阅文献几乎是一种自我设限。

AI 工具在第一个环节上越来越出色——对一个问题逐一尝试所有标准技术,而且在应用这些技术时犯的错误往往比人类更少。它们依然会出错,但我用自己能完成的小任务测试了这些工具:有时它们能发现我犯的错误,有时我也能发现它们的错误。目前来看,大致是平分秋色。

但我还没有见过它们迈出下一步。当论证出现空洞、所有方法都行不通时,该怎么办?它们可以随机抛出一些建议,但我常常发现,花时间去追究这些建议、试图让它们奏效,最终却发现行不通——这浪费的时间比节省的更多。

我认为,我们目前认为困难的问题中,会有一部分通过这种方法得以攻克,尤其是那些尚未获得足够关注的问题。就 Erdős 问题而言,AI 解决的那约 50 道题中,几乎全都是基本没有相关文献的问题。Erdős 只提出过这些问题一两次,或许有些人随手试了试,没做出来,便也从未写下任何东西。

但事实证明这些问题是有解的,只需将某个鲜为人知的冷门技术与文献中的另一个结果结合起来即可。这大致代表了 AI 当前能力的中位水平,而且确实令人振奋——一举清除了 50 道这样的难题。所以我认为,你会看到一些零星的成功案例。

但我们发现……有人对这些 Erdős 问题进行了大规模的系统性扫描。如果只关注成功案例——那些在社交媒体上广泛传播的——看起来确实令人叹为观止:那些几十年来悬而未决的问题,如今接连告破。但每当我们进行系统性研究,AI 工具对任意给定问题的成功率大约只有 1% 到 2%。只不过它们可以以量取胜,你只需挑出赢家——看起来自然漂亮。

我认为,在那数以百计真正声名显赫、真正困难的数学难题上,类似的情况也会上演。某个 AI 可能碰巧真的解决了其中一些,找到一条其他人都错过的旁门捷径。这会引发大量关注。但随后,人们把这些炫目的工具用于自己最钟爱的问题,便会再次体验那 1% 到 2% 的成功率。

在它们奏效与不奏效之间,信号将湮没在噪声之中。收集真正标准化的数据集将变得越来越重要。目前已有人致力于为 AI 创建一套标准的挑战题集,而不仅仅依赖 AI 公司只公布胜利、对负面结果秘而不宣。这或许能更清晰地呈现我们实际所处的位置。

Dwarkesh Patel

不过我认为,这本身已经代表了 AI 多么重大的进步——能够将某种从未有人明确写下"可用于这个特定问题"的技术加以应用。

Terence Tao

这种进步同时令人惊叹,又令人失望——看着这些工具运转,是一种非常奇特的感受。但人们的适应速度也极快。

我记得 Google 网络搜索大约 20 年前推出时,直接将所有其他搜索引擎远远甩在身后。首页呈现的结果恰恰就是你想要的,令人叹为观止。但几年之后,你就习以为常,觉得能 Google 到任何东西都是理所当然的了。

2026 年水平的 AI,放在 2021 年会令人震惊。它的很多能力——人脸识别、自然语音、解答大学水平的数学题——如今我们都已视为理所当然。

AI 让论文更丰富、更宽广,却未必更深刻

Dwarkesh Patel

说到 2026 年的 AI,你曾在 2023 年做出预测,到 2026 年它会像数学领域的同事一样?

Terence Tao

如果使用得当,会是一位值得信赖的合著者。

Dwarkesh Patel

回头来看,这个预测相当准确。

Terence Tao

是的,我相当满意。

Dwarkesh Patel

那我们来看看你能否延续这个势头。你个人因为 AI 的助力,生产效率提升了 2 倍——你认为这会是哪一年?

Terence Tao

生产效率,我认为,并不完全是一个一维的量。我确实注意到,我做数学研究的方式正在发生相当大的变化,所做事情的类型也在改变。比如,我的论文现在有更多代码、更多图片,因为生成这些东西如今实在太容易了。某张过去可能需要我花几个小时才能完成的图表,现在几分钟就能搞定。但在过去,我根本就不会把那张图放进论文,只会用文字来描述。所以"2 倍"究竟意味着什么,很难衡量。

一方面,我认为我今天写的这类论文,如果必须在没有 AI 辅助的情况下完成,肯定要花费五倍的时间。但我不会那样写论文。

Dwarkesh Patel

五倍?

Terence Tao

是的,但这些都是辅助性的工作,比如进行更深入的文献检索,或提供更多的数值计算结果。它们丰富了论文的内容。我工作的核心——真正解决数学问题最困难的那部分——并没有太大改变。我依然用纸笔来完成这部分工作。

但有很多琐碎的事情。我现在用 AI 智能体(AI agent)来重新排版。有时如果括号大小不太对,我过去需要手动一个个修改,现在可以让 AI 智能体在后台替我把这些都处理得妥妥当当。

AI 确实大大加快了许多次要任务的速度,但尚未提速我工作的核心部分,不过它让我得以在论文中增添更多内容。同理,如果我要重写一篇 2020 年的论文——不添加那些额外内容,只是保持同等水准的功能——说实话,其实并没有节省多少时间。它让论文更丰富、更宽广,但不一定更深刻。

Dwarkesh Patel

你曾区分了"人工聪明与人工智能"(artificial cleverness and artificial intelligence)。我想更好地理解这两个概念。有什么例子能说明,智能并不仅仅是聪明?

Terence Tao

智能(Intelligence)是一个出了名难以定义的概念。它是那种"一见便知"的东西。但当我与别人交谈、试图合作解决一道数学题时,对话往往是这样展开的:起初我们谁都不知道如何解题。其中一人有了某个想法,看起来有些苗头,于是我们形成了一套原型策略。我们加以检验,发现行不通,便对其进行修改。整个过程中,思路在不断适应、持续演进。最终,我们系统性地摸清了哪些路径走不通、哪些可行,前进的方向逐渐清晰——而这一切都是在讨论中动态生成的。

这和 AI 的做法并不完全一样。AI 能在一定程度上模仿这个过程。回到那个跳跃机器人的比喻:它们可以跳跃、失败,再跳跃、再失败。但它们做不到的是:稍稍跳起,抓住一个落脚点,停在那里,把其他人也拉上来,再从那里尝试继续跳。没有这种在互动中逐步积累的过程。它们更多依赖的是反复试错与单纯重复——也就是蛮力搜索。这种方式可以扩展,在某些场景下效果惊人。但"从局部进展中累积构建"这一能力,目前仍尚未实现。

Dwarkesh Patel

有意思。您的意思是说,如果 Gemini 3 或 Claude 4.5,或者随便什么模型,解决了某个问题,它自身对数学的理解并没有因此提升?

Terence Tao

对。

Dwarkesh Patel

甚至哪怕它在某个问题上花了功夫却没有解出来,它自身的数学理解也没有进步?

Terence Tao

是的。开启一个新会话,它就忘掉了之前做的一切。它不会积累任何新技能用于处理相关问题。也许你刚才做的事情会成为下一代训练数据的 0.001%,或许最终有一部分会被吸收进去。

如果 AI 解决了一个问题,人类能从中获得理解吗?

Dwarkesh Patel

我有一个重要的疑问:如果我们只是持续训练 AI——让它们越来越擅长在 Lean(形式化证明语言)中解决问题——它们是否会不断攻克越来越令人瞩目的难题,而我们最终会惊觉,从某个 Lean 给出的黎曼猜想(Riemann hypothesis)证明之类的结果中,我们所获得的洞见少得可怜?

还是说,您认为解决黎曼猜想的一个必要条件——即便是由 AI 完全在 Lean 中完成的——是:Lean 程序中所创造的构造和定义必须推进我们对数学的理解?或者它可能只是一堆汇编代码般的乱码?

Terence Tao

我们目前还不知道。有些问题基本上就是靠纯蛮力解决的。四色定理(four color theorem)就是一个著名的例子。我们至今未能找到这个定理在概念上优雅的证明,也许永远也找不到。有些问题或许只能通过将其拆分成海量情形,再对每种情形逐一进行蛮力、缺乏洞见的计算机分析来解决。

我们之所以珍视黎曼猜想这类问题,部分原因在于:我们相当确信,要解决它,要么需要创造出一种新型数学,要么需要发现两个此前毫不相关的数学领域之间的某种新联系。我们甚至不知道解法大致是什么形态,但凭感觉,这道题不像是能靠穷举情形解决的那类问题。

当然,它也可能是假的。好吧,存在一种小概率情形:猜想为假,某台大型计算机算出了一个不在临界线上的零点,从而加以验证。那将令人大失所望。我确实认为,对于这类问题,纯粹自主的一次性解法并非正确路径。人类与这些工具的协作配合,才能产生更大的价值。

我能想象某个这样的问题最终由聪慧的人类借助极为强大的 AI 工具共同解决。但实际的协作动态,可能与我们现在所设想的大相径庭。它或许是一种目前尚不存在的全新合作形态。

也许可以生成一百万个黎曼ζ函数(Riemann zeta function)的变体,借助 AI 辅助的数据分析(data analysis)发现此前未知的某种规律,从而将这个问题转化到另一个数学领域。各种可能性都存在。

Dwarkesh Patel

假设 AI 找到了解法,而 Lean 代码中潜藏着某个全新的构造——如果我们意识到它的意义,就能将其应用到各种不同的情形中。问题是,我们怎么能认出它呢?

这又是一个很朴素的问题,但如果 Lean 代码中出现了类似笛卡尔发现坐标系、统一了代数与几何这样的思想,在代码层面它可能就写着 R→R,看起来毫不起眼。我相信还有其他构造也具有这种性质。

Terence Tao

把证明形式化到 Lean 这类语言中,一大妙处在于:你可以把其中任何一个片段单独拿出来研究。当我阅读一篇解决某个困难问题的论文时,通常会看到一长串引理(lemma)和定理。理想情况下,作者会在行文中告诉读者哪些步骤重要、哪些不重要。但有时他们并不会点明哪些步骤是关键,哪些只是样板式的常规操作。

你可以单独研究每一条引理。有些一眼就能看出相当标准,与我熟悉的内容很相似,我相当确定其中没有什么新奇之处。但另一些引理,我之前从未见过,而我能看出为什么有了这个结果会对证明主定理大有裨益。你可以判断某个步骤对论证是否真正关键,而 Lean 极大地促进了这一点——它将每个独立步骤都非常精确地呈现出来。

我认为在不久的将来,将会涌现出一类专门的数学家职业:他们专门拿一个庞大的 Lean 生成的证明来做消融实验(ablation),尝试删去其中的某些部分,寻找更优雅的替代方式。他们可能会让其他 AI 进行强化学习来使证明更加优雅,再让另一些 AI 来评判这个证明是否更好。

不久的将来,有一件事将发生相当大的变化,那就是我们撰写论文的方式。在不久之前,撰写论文还是整个工作中最耗时、代价最高的部分。因此人们很少动笔,只有当论证的其他所有环节都已核实之后,才会着手写作——因为改写和重构实在太痛苦了。而有了现代 AI 工具,这一切变得容易多了。你不必只有一个版本的论文;有了一个版本之后,其他人可以生成数百个不同的版本。

一个庞大而凌乱的 Lean 证明,单独拿出来可能毫无意义、难以理解,但其他人可以对其进行重构,并做各种各样的事情。我们已经在 Erdős 问题网站上见证了这一幕:AI 生成一个证明,输出 3000 行验证代码;然后人们又让其他 AI 来总结这个证明,人们也自己撰写各自的证明。

事实上存在后处理这个环节。一旦你拥有了一个证明,我们现在有很多工具可以对其进行解构和诠释。这还是数学领域一个非常新兴的方向,但我对此并不太担忧。有些人忧虑:如果黎曼猜想被一个完全无法理解的证明所证明,会怎样?我认为,一旦你拥有证明这一产物,我们就能对它进行大量分析。

我们需要一种半形式化语言,契合科学家彼此交流的真实方式

Dwarkesh Patel

最近发帖提到,若能有一种专门针对数学策略的形式化或半形式化语言,将会很有价值——这与 Lean(形式化证明语言)所专注的数学证明有所不同。我很想进一步了解,这样的语言会涉及哪些内容,或者会呈现出怎样的形态。

Terence Tao

这个问题我们目前还没有答案。数学在这一点上非常幸运——我们已经梳理清楚了逻辑与数学的基本规律,但这其实是相当晚近的成就。这一进程从两千年前 Euclid 时代就已开启,却直到20世纪初,我们才最终整理出数学的公理体系——即我们所称的 ZFC(策梅洛-弗兰克尔集合论公理体系,Zermelo-Fraenkel set theory)、一阶逻辑(first-order logic)的公理,以及证明的严格定义。这些内容我们已经实现了自动化,并为之建立了形式化语言。

或许存在某种方式来评估可信度。你提出一个猜想,认为某件事为真,然后检验几个例子,结果都成立——这在多大程度上增加了你对该猜想的信心?我们有一些数学方法来建模这一过程,比如贝叶斯概率(Bayesian probability)。但你往往需要先设定一些基础假设,而这些任务中仍然包含大量主观判断。

这更像是一种愿景,而非开发这类语言的具体计划——但看到 Lean(形式化证明语言)这样的形式化框架所取得的巨大成功,使演绎证明变得如此容易被自动化并用于训练 AI……目前,将 AI 用于制定策略和提出猜想的瓶颈,在于我们不得不依赖人类专家和时间的检验,来判断某件事是否具有合理的可信度。

如果存在某种半形式化框架,能够以半自动化的方式完成这项判断,同时又不容易被人钻空子……正式证明辅助工具有一点极为关键:不能存在任何后门或漏洞,让人在没有真正完成证明的情况下获得经认证的证明——因为强化学习循环(RL loop)实在太擅长发现这些后门了。

如果有某种框架,能够模拟科学家彼此之间以半形式化方式交流的过程——使用数据与论证,同时也构建叙事……科学中存在一些主观面向,我们不知道如何将其捕捉成某种形式,进而将 AI 有效地嵌入其中。这是一个有待未来解决的问题。目前已有一些研究尝试创建自动化猜想,或许也有办法对这些猜想进行基准测试和模拟,但这一切都还属于非常新兴的科学,正处于探索阶段。

Dwarkesh Patel

能帮我建立一些直觉吗?我有两个子问题。其一,如果能有一个具体的例子,展示这种语言会是什么样的——那种科学家之间目前还无法形式化的交流方式——将会很有帮助。

其二,说"构建某种叙事或自然语言解释"同时又"能够将其形式化",这两件事在定义上似乎本身就是矛盾的。我相信在两者的重叠之处一定存在某种直觉,我很想更好地理解这一点。

Terence Tao

让我举一个猜想的例子:Gauss 对素数(prime number)很感兴趣,并创建了最早的数学数据集之一。他计算了约前十万个素数,希望从中发现规律。他确实找到了规律,但也许不是他所预期的那种。他发现了素数中的一个统计规律:如果你统计不超过100、1000、一百万等各个范围内的素数个数,会发现素数越来越稀疏,而密度的下降速度与数字范围的自然对数(natural logarithm)成反比。

于是他提出了我们今天称之为素数定理(prime number theorem)的猜想:不超过 X 的素数个数约等于 X 除以 ln X。他当时无法证明这一点,这纯粹是数据驱动的猜想。这个猜想在当时具有革命性意义——它或许是数学史上第一个真正重要的统计性猜想。通常,人们谈论的是某种确定性规律,比如素数间距可能具有某种规律性。但这个猜想并不能告诉你任意给定范围内确切有多少个素数,只是给出了一个近似值,且随着范围越来越大,近似程度越来越高。

这开创了我们称之为解析数论(analytic number theory)的数学领域。它是许多此类猜想中的第一个,其中许多后来得到了证明,由此逐步巩固了一个观念:素数并没有真正固定的规律,其行为更像是具有特定密度的随机数集合。素数确实有一些规律,比如它们几乎全是奇数;但它们也并非真正随机,而是所谓的伪随机(pseudo-random)——生成素数的过程中并不涉及任何随机数生成机制。然而随着时间推移,将素数想象成某位神灵不断掷骰子、随机生成的数集,这一思路被证明越来越富有成效。

这使我们得以做出一系列其他预测。数论中有一个至今悬而未决的猜想,叫做孪生素数猜想(twin prime conjecture):应当存在无穷多对相差为2的素数,即所谓的"孪生素数",比如11和13。我们无法证明这一点,而且有充分的理由说明为何目前仍无法证明。但基于这套素数统计随机模型,我们坚信它是真的。我们知道,如果素数真的是通过抛硬币生成的,那么就像打字机前无穷无尽的猴子一样,孪生素数将会一次次随机出现。

随着时间的推移,我们基于统计与概率,建立了一套关于素数行为方式的精确概念模型。这套模型大多是启发式的、非严格的,但极为准确。每当我们真正能够证明关于素数的某些结论时,所得结果总是与我们所谓的素数随机模型(random model of the primes)的预测相吻合。我们拥有这样一个猜想性的概念框架来理解素数,而这是所有人都深信不疑的。这也是我们相信黎曼猜想(Riemann hypothesis)为真的原因,也是我们相信基于素数的密码学在数学上是安全的原因。这一切都建立在这种信念之上。

事实上,我们之所以如此重视黎曼猜想,原因之一在于:如果黎曼猜想被推翻,如果我们确知它是假的,将会对这套模型造成严重打击——这意味着素数中存在某种我们未曾察觉的隐秘规律。我认为,我们会非常迅速地放弃任何基于素数的密码学,因为如果存在一种我们不知道的规律,很可能还有更多,而这些规律可能成为密码系统的安全漏洞。那将是一场巨大的冲击。所以我们真心希望这种情况永远不会发生。

我们对黎曼猜想之类命题的坚信,是随着时间一点点积累起来的。其中一部分来自实验证据,另一部分则来自:每当我们能够从理论上得出某些结论时,它们总是与模型的预测相吻合。当然,也存在这样一种可能:主流共识是错的,我们都遗漏了某个非常基本的东西。科学史上确实发生过范式转变(paradigm shifts)。但我们目前没有办法衡量这种可能性,部分原因是我们关于数学或科学发展的数据远远不够。我们只有一条历史时间线,其中大约有100个历史转折点的故事。

如果我们能接触到一百万个外星文明,每个文明都有着不同的历史发展轨迹和科学演进顺序,那么我们或许真的能对"如何衡量进步"“什么是好的策略"这类问题形成相当扎实的认识。我们或许可以开始将其形式化,真正建立起一套框架。也许我们现在需要做的,是创建大量微型宇宙或模拟环境,让AI去解决算术等极基础的问题,让它们自己摸索出解题策略,并通过这些小型实验室加以检验。确实有研究者在探索:能够完成十位数乘法的最小神经网络是什么规模,诸如此类。我认为,仅仅通过在简单问题上演化小型AI,我们就能学到很多东西。

Terry 如何分配时间

Dwarkesh Patel

您不仅需要以极快的速度学习新领域,还要学得足够深入,以便在前沿做出贡献。从某种意义上说,您也是世界上最厉害的自学者(autodidact)之一。您学习数学新子领域的过程是怎样的?具体是什么样的体验?

Terence Tao

我们之前聊过深度与广度的问题。这并非人类与AI之间的纯粹区别。就人类而言,我记得是 Berlin 把人分成了刺猬与狐狸两类:刺猬对一件事了解得极为深透,狐狸则对万事万物都略知一二。我确实把自己看作一只狐狸。我常与刺猬型的人合作,必要时我自己也能化身刺猬。

我一直有点执念。如果读到某样东西,我觉得自己有能力理解,却不明白它为何成立,其中有某种神奇之处……有人用了一种我不熟悉的数学方法,得出了一个我也想证明的结论。我自己做不到,但他们用自己的方法做到了,我想弄清楚他们的诀窍究竟是什么。别人能做到我以为自己也能做到的事,这让我如鲠在喉。我一直有这种执念、这种凡事追求完结的劲头。我不得不强迫自己戒掉电子游戏,因为一旦开始玩,我就要打通关,把所有关卡都过完。这是我学习新领域的方式之一。

我与很多人合作,他们教会了我其他类型的数学。我会和某个研究另一数学领域的数学家成为朋友。我觉得他们的问题很有趣,但他们得先教我一些基本技巧——已知什么,未知什么。我从中学到了很多。

我发现,把所学的东西写下来很有帮助。我有一个博客,有时会把学到的东西记录在上面。年轻时,我会学到某样东西,掌握一个巧妙的技巧,然后心想:“好,我会记住这个的。“结果六个月后就忘了。我记得曾经记住过它,却无法重建自己当时的论证思路。头几次,明明理解了某件事,后来却失去了它,这种感觉实在令人沮丧。我下定决心,凡是学到的好东西都要写下来。这也是这个博客诞生的部分原因。

Dwarkesh Patel

您写一篇博文需要多长时间?

Terence Tao

这通常是我不想做其他工作时做的事。有时有审稿报告(referee report)之类的事情,当时做起来让我有些抵触。写博客感觉充满创意,很有趣,是我为自己做的事。

视主题而定,可能半小时就能搞定,也可能要花好几个小时。因为这是我自愿做的事,写起来时光飞逝——跟那些出于行政原因不得不做、纯粹是例行公事的事情完全不同。顺便说一句,那类任务正是AI如今真正帮上大忙的地方。

Dwarkesh Patel

如果文明可以从第一性原理出发,决定如何分配 Terry Tao 这一有限资源,最大的区别会在哪里?如果让无知之幕(veil of ignorance)来决定如何使用 Terry Tao 的时间,而不是现状如此,这场播客大概就不会发生了。

Terence Tao

尽管我会抱怨某些我不想做却不得不做的事情……随着在学术界资历渐深,你会承担越来越多的责任、加入越来越多的委员会,诸如此类。但我也发现,很多我因某种义务而勉强出席的活动……恰恰因为超出了我的舒适区,往往带来了与平常不会交流的人的互动——比如你。我会学到有趣的东西,拥有有趣的体验,也会获得与以往素不相识的人建立联系的机会。

所以我非常相信机缘(serendipity)的力量。我会精心安排一天中某些部分的日程,但我也愿意把一些时间留给非常规之事。也许会浪费时间,但也许我会有所收获。往往是后者——我会得到一段意想不到的积极体验,那是任何计划都无法预设的。

所以我非常相信机缘。现代社会或许存在一种危险,不仅仅与AI有关:我们已经非常善于优化一切,却没有去优化我们的优化方式本身。就拿新冠疫情来说,我们大量转向远程会议,所有事情都被纳入日程。在学术界,我们一直保持忙碌,见到的人数几乎与线下时一样多,但一切都需要提前计划。我们失去的,是随手敲响走廊那扇门、在喝咖啡时偶遇某人的那种随机性。那些看似不够高效的偶然互动,其实至关重要。

我读研究生时,会去图书馆查找期刊文章。你必须亲自借出期刊,翻看内容。翻着翻着,下一篇文章有时也很有趣,有时则不然,但你可能会偶然发现有价值的东西。这种体验现在基本上已经消失了。如果你想查阅一篇文章,只需在搜索引擎或AI里输入关键词,瞬间就能得到你想要的内容。但那些在低效检索过程中可能偶然发现的东西,你却再也得不到了。

我曾在高等研究院(Institute for Advanced Study)度过一年,那是一个绝佳的去处,没有任何干扰,你就是在那里做研究的。刚到那里的头几周感觉很棒——你把那些想了很久却一直没时间写的论文一篇篇整理出来,可以成块地连续思考问题,一次专注好几个小时。但我发现,如果待的时间超过几个月,灵感就会枯竭,我会感到无聊,开始大量刷网页。

人生中确实需要一定程度的干扰。它增加了足够的随机性和"高温”。我不知道安排自己生活的最优方式是什么,但目前这样似乎行得通。

人机混合体(human-AI hybrids)将在更长时间内主导数学领域

Dwarkesh Patel

我很好奇,您预计AI什么时候能真正在前沿数学上做到至少与最优秀的人类数学家比肩?

Terence Tao

从某种角度看,它们已经在做某种超越人类能力的前沿数学了,只是与我们习以为常的前沿不是同一种。你可以说,计算器已经在做人类无法完成的前沿数学,但那只是数值运算而已。

Dwarkesh Patel

但我说的是完全取代 Terry Tao。

Terence Tao

那你要我干什么用?

Dwarkesh Patel

您只要在所有播客上露面就行了。

Terence Tao

(笑)

这或许并非一个恰当的问题。我认为,在十年之内,数学学生目前所做的许多事情——我们花费大量时间从事的工作,以及我们今天写进论文的大量内容——都将可以由 AI 来完成。但我们会发现,那其实并非我们工作中最重要的部分。

一百年前,许多数学家的工作就是求解微分方程(differential equation)。物理学家需要某个方程组的精确解,便会雇用数学家费力地推演微积分,算出流体方程的解,诸如此类。19 世纪数学家所做的大量工作,如今只需调用 Mathematica、Wolfram Alpha、某个计算机代数软件,或者近来的 AI,几分钟内便可迎刃而解。但我们向前走了,此后我们转向了不同类型的问题。

自从计算机出现——“计算机"曾经是人。人们曾经费力地编制对数表,像 Gauss 那样手工推算素数,这一切如今都外包给了计算机。但我们向前走了。

在遗传学领域,对单个生物体进行基因组测序,曾经是一位遗传学家整个博士生涯的工作,要小心翼翼地分离所有染色体等等。如今只需花上 1,000 美元送去测序仪便可完成。但遗传学作为一门学科并没有消亡。你转向了不同的尺度——也许你研究整个生态系统,而非个体。

Dwarkesh Patel

我理解你的意思,但究竟何时数学领域的大多数进展,乃至几乎所有进展,将由 AI 来实现?如果你今年得知某道千禧年大奖难题被解决了,你会有 95% 的把握认为这是 AI 自主完成的。这样的年份必定会到来。

Terence Tao

我想,我确实相信,人机混合体将在相当长的时间内主导数学领域。这取决于多种因素。这需要在现有基础上取得一些额外的突破,所以进程将充满不确定性。我认为,AI 目前在某些方面非常出色,但在另一些方面则相当糟糕。虽然可以在顶层叠加越来越多的框架来降低错误率、让它们更好地协同工作,但感觉我们目前还不具备所有条件,不足以真正令人满意地替代一切智识性任务。

目前,AI 是互补的,而非替代性的。当前水平的 AI 将从多个层面加速科学发展,希望新的发现和突破能够更快到来。不过也有一种可能——正是因为扼杀了机缘(serendipity),我们反而阻碍了某些类型的进步。在这个时间节点上,一切皆有可能。我认为,当下的世界是极其、极其难以预测的。

Dwarkesh Patel

对于那些正在考虑从事数学职业、或者数学生涯尚处于早期阶段的人,尤其考虑到 AI 的进展,你有什么建议?他们是否应当因为 AI 的进展而以不同的方式思考自己的职业规划——如果有必要的话?

Terence Tao

我们生活在一个变革的时代。正如我所说,我们生活在一个格外难以预测的时代。数百年来被视为理所当然的事情,或许已不再成立。我们做一切事情的方式——不仅仅是数学——都将改变。在许多方面,我更向往那个无聊而平静得多的时代,那时候一切与 10 年前、20 年前大体相同。但我认为,人们只能接受这样一个现实:变化将会大量涌现。你所研究的东西,有些可能会变得过时或被彻底颠覆,但有些将会保留下来。

你必须时刻留意那些以前无法实现的事情所带来的机遇。在数学领域,以前你必须接受多年的教育、拿到数学博士学位,才能为数学研究前沿做出贡献。但如今,在高中阶段或其他任何阶段,你都很有可能参与一个数学项目并做出真实贡献,这一切都得益于各种 AI 工具、Lean 以及其他一切。

将会有大量非传统的学习机会,因此你需要具备极强的适应性心态。将会有空间去纯粹出于好奇心探索事物、尽情玩索。你仍然需要获得相应的资质证书。在相当一段时间内,接受传统教育、以传统方式学习数学和科学仍然是重要的。但你也应当对截然不同的科研方式保持开放,其中一些方式甚至尚不存在。这是一个令人不安的时代,但也令人无比兴奋。

Dwarkesh Patel

这是结束访谈的绝佳之语。Terence,非常感谢。

Terence Tao

荣幸之至。

此文章由 AI 翻译