2026年3月,世界顶级数学家陶哲轩与OpenAI研究负责人Mark Chen在UCLA的IPAM研讨会上展开了一场坦率而深刻的对话。一年前,陶哲轩曾将AI比作"效率极低的研究生",而这次对话揭示了这一判断在短短一年内已被大幅修正。
对话的核心,是AI工具在数学研究中从辅助到协作的微妙跃迁。陶哲轩分享了他用AI验证不等式、外包繁琐推导的实际经验,也坦言AI在最前沿的创造性思维层面尚未达到真正的对话水平。Mark Chen则从工程视角描述了模型自主工作时程从"分钟级"到更长周期的演进,以及AI在国际数学奥林匹克中从铜牌到金牌的跨越。
尤为值得关注的是,AI已在数十个此前长期被忽视的埃尔德什问题上取得突破,这预示着数学研究的组织方式或将发生深层变革——从少数精英独占难题,走向更开放、社区驱动的协作模式。这场对话不只是关于AI有多强,更是关于数学家该如何重新定义自己的工作。
录制于2026年3月4日。OpenAI 的 James Donovan 邀请加州大学洛杉矶分校的陶哲轩与 OpenAI 的 Mark Chen,在 IPAM"AI 加速数学与理论物理研讨会"上进行炉边对话(Fireside Chat)。
更多信息请访问:https://www.ipam.ucla.edu/programs/special-events-and-conferences/accelerating-math-and-theoretical-physics-with-ai/?tab=schedule
转录文本
James Donovan: 非常感谢。在我们开始之前,首先要衷心感谢研究所今天的接待,这里的空间真的很美。也感谢大家的到来。我知道你们不是专程来听我讲话的,所以我也不会多说。在此,我要向你们两位的到来表示深深的谢意——能把两位如此杰出的人聚在同一个地方,实属难得,我们非常珍视这次机会。
陶哲轩: 这已经是第三次了。
James Donovan: 是的,已经有点形成规律了。说起这个,也许这正是开启今天对话的好切入点。大约一年前,你们两位进行过一次对话,几乎就是在同一天。那时,Terry,我记得你对 GPT 在数学领域的评价大概是"一个效率极低的研究生"——这句话一直留在我脑海里,因为作为一个人类,我自己也曾收到过类似的反馈。所以那确实是一个很清晰的基准。不妨就从这里开始——你认为自那以后事情发生了哪些变化?然后再听听 Mark 那边的故事。
AI 工具在数学中的实际应用
陶哲轩: 好的。过去这一年发生了很多事情,不只是在 AI 领域。这些工具确实变得强大得多了,有些能力现在已经完全常态化,成了日常使用的东西。比如深度研究工具——文献检索已经变得非常出色,已经超越了传统的搜索方式。代码生成当然是最重要的进展,但作为一个纯粹的数学家,我并不是代码的重度用户。不过它确实改变了我处理数学问题的方式:我会画图,如果我认为某个不等式成立,我会让 AI 去尝试证明或否证它。
如果有某个引理,我认为我知道怎么证,但就是不想费心做纸笔计算,我会直接把它外包出去。不过,我还没有发现它在最深层次上真正有用——就是当我真正在攻克一个问题、与同事一起用纸笔推演的时候,它还无法达到我所需要的那种对话水平。也许将来会有所改变。
从社会层面来说,数学家群体作为一个整体,也开始意识到这些工具已经是不可逆的存在,我们必须真正开始调整做研究的方式。以前那些非常繁琐、也许我们会强迫研究生去做的工作,现在可以外包给 AI,这就打开了很多做数学的新可能,尤其是那些规模化的研究项目——以前我们根本不敢想。所以,虽然我们可以用 AI 辅助现有的工作流,尽管现在还有些别扭,但我认为更大的价值在于创造专门针对 AI 优化的全新工作流。这就像汽车发明之后,我们开始改变城市建设的方式——当然,也许不是所有的改变都是好的,但我们现在就处于这样一个中间阶段:道路还是为骑马的人建的,但我们已经有了汽车。
James Donovan: 那么,可以说我们已经到了"偶尔能有效协作"的程度了吗?也许更有意思的是那些更广阔的空间——随着这些工具的到来,你将如何改变做数学的方式。
从"分钟级"到"更长时程"的自主工作
Mark,你所看到的和你们正在构建的,是否也印证了这一点?
Mark Chen: 说实话,我不怪 Terry 一年前那样说。我认为那基本上就是我们当时所处的状态。我真的把 AI 进步的背景看作是在爬一座山——我们内部把这叫做"meter plot"(进度图):模型能自主工作的时间越来越长。去年,我们还处于"分钟级"的阶段,你也看到了,模型会产生幻觉,一旦给它大块的工作,它就会崩溃。
但我确实认为,过去这一年对我们很多人来说是一个转变——我们看到错误在减少,因此你可以信任模型来完成更长周期的工作。这让我们得以摆脱以前可能需要的大量脚手架,真正开始攻克更大的问题,与模型进行真正的协作编排。回想一年前,我们在 IMO(国际数学奥林匹克竞赛,IMO)上大概只能达到铜牌水平;今年夏天,在所有高中数学和编程竞赛中,我们已经达到了金牌水平。我们基本上已经把这些人类编写的基准测试做完了,这也是为什么你会看到大家开始转向数学研究领域。
从根本上说,这一直都是我们的目标。OpenAI 并不以解决 IMO 问题为荣,真正的雄心是推动科学前沿。现在,任务的时程终于赶上来了,我们实际上可以去做那些工作了。当然,还没有完全到位,但趋势和轨迹是强劲的。很多人现在确实从中找到了实用价值。
埃尔德什问题作为能力基准
James Donovan: 我想先谈谈第一个证明,然后再过渡到更前沿的数学。不过先留在当下的能力话题上——埃尔德什(Erdős)问题集常被视为衡量模型能力的试金石。这也许是一个有代表性的集合,其中一些问题也许并不像其他问题那么复杂,本来也是有意如此设计的;你也可以说,模型的成功在于快速解决了大量较简单的问题,而不一定是在向那些最顶尖的难题推进。这样描述今天的状况,公平吗?
陶哲轩: 是的,我一直深度参与追踪埃尔德什问题的进展。你说的基本上是对的——这些问题的难度差异很大。有些是我们迫切希望解决的,已经被研究了数十年,我自己也有论文在某些问题上只取得了微小的进展。到目前为止,AI 在那些我们已经投入了大量关注的问题上并没有真正提供帮助。
但埃尔德什一共提出了整整一千个问题,并不是每一个都是精品——他明白,重要的是激发讨论、引发兴趣,而那些真正重要的问题自然会有自己的生命力。其中有大量长期未被探索的问题,几乎没有后续文献跟进,而 AI 工具正是在这些地方取得了非常亮眼的进展。大约有二三十个这样的问题,在几乎没有人工监督的情况下被 AI 工具解决了,我们也往往能够通过其他 AI 工具——以形式化验证的方式——来核实这些结果。我们也已经摸索出一套工作流程,避免被 AI 糟粕(AI slop)——那些错误的解——所淹没。
所以,这是一种以前没有的新能力:我们现在可以攻克那些受限于注意力瓶颈的问题了。这让我认识到,我们需要开始为 AI 工具乃至公众创建越来越广泛的挑战题库。事实上,同一时期,许多早期的这类问题也被业余数学家解决了——有时借助 AI 工具,有时没有。让 AI 能够成功的那些工作机制,同样也让业余数学家能够成功。
我预见到我们的文化将会发生一种转变:不再只是少数人专注于一小批极难的问题、而不对外公开其他感兴趣的事情;而是所有数学家都开始发布自己想要得到解答的问题清单——100 个问题,也许 AI 能解决其中 10%,也许某位高中生能再解决 5%——从而实现一种更加社区驱动的数学研究方式。埃尔德什问题或许只是这种转变的早期预兆。
数学研究的协作化与工具赋能
James Donovan: 这也许值得和其他科学领域的情况做个对比——至少在我自己所在的生物学领域,任何一篇论文的合著者数量呈指数级增长,科学越来越是一项团队运动。数学,以及在某种程度上的物理学,在这一趋势中也许是个例外。
Mark,在你思考这个问题的时候——这究竟只是一个"如何让模型更聪明、让它们能回答越来越难的问题"的问题,还是同样也是一个"如何赋能人类在这些问题上协作"的问题?
Mark Chen: 是的,目前我们确实在与相关社区保持深度合作,这是推动所有这些科学领域取得进展不可或缺的一环。Kevin 在这里——他负责我们的"OpenAI for Science"项目——正如你所说,像"First Proof"这样的实验,本质上就是与社区共同探讨哪些问题真正值得攻克。我们在物理学领域也做过类似的事,邀请了一批物理学专家,共同规划出一套方案——哪些是最重要的问题,哪些问题最适合借助 AI 来处理——这反过来也帮助我们塑造 AI 本身。这样做让我们得以发现不足之处:我们可以看到模型在哪些地方失效,然后有针对性地加以弥补。我们希望打造的是一个平台,让全球的科学家和数学家都能借助它加速自身的研究,赋能整个社群。今天我们已经看到这样的人——二十岁、二十一岁的年轻人正在用模型解决这些问题,也许还算不上什么深刻而重大的飞跃,但他们能够独立完成大量自主性工作。您问这个问题的时候,我想到一件事——陶哲轩,您之前在数学领域组织过很多大型社群项目,不知道您怎么看AI对那个世界的改变,它会在多大程度上进入那个世界?
数学中的分工与 AI 协作
陶哲轩: 我觉得两者其实可以非常好地结合。AI 将会实现的,是终于让数学这个领域也能引入分工——自工业革命以来,几乎每个行业都通过分工提升了效率,唯独数学没能做到。传统上,做数学涉及几个不同的任务:提出问题、生成策略、在所有策略中筛选、执行策略、验证策略,以及最终传达结果。我们培养数学家的方式,就是让他们在这几项任务上都具备一定能力。我们会在某个领域专攻,但也需要对问题从哪里来、什么是好问题、什么是好策略有所了解,还要有技术能力、能够验证、能够解释。当然,不同的数学家各有所长,因此我们已经能够从合作中受益——但我们还是无法像理工科那样真正实现专业化,比如有专职的技术人员、有项目经理之类的角色。然而,随着 AI、现代协作工具和形式化验证(formal verification)的出现,现在已经有可能运营这样的数学项目——每个参与者只专注于其中某一个环节。合作中也许存在空白,没有人懂某项具体技术,但 AI 可以填补这些空缺。不过你还是需要人类,因为 AI 的表现极为参差不齐。也许某些环节现在可以自动化,但如果自动化得过头——比如策略生成可以自动化,验证却跟不上——那就会涌现出数百个 AI 生成的可能策略,让人完全无从应对。但如果验证也能同步跟上,那突然之间就会出现一种全新的数学方式,可能极为有效。
AI 能力的参差与人机协作
Mark Chen: 对。顺便补充一点:我完全同意 AI 能力今天极为参差不齐,所以才能看到与人类如此富有成效的合作。不过,探讨这枚硬币的另一面也很有意思——有些 AI 系统其实比你想象的更像人类,你必须用正确的方式注入大量强化学习,才能避免模型像人类一样选择放弃。你知道,如果给它一道太难的题,模型往往会先在自己的思维链里跑几个测试,然后得出"这道题太难了,我觉得我做不到,那就假装我认真尝试过了"的结论。我们发现,让 AI 去尝试解某道题,它的第一反应就是去题目网站查一查,发现是开放性问题,然后说:太难了,我不打算尝试。所以你得明确告诉它:不要上网,自己去解。
陶哲轩: 其实这挺容易解决的。
James Donovan: 听到这话真是让人宽慰——原来前沿研究不过就是哄模型按你想要的方式行事。
人机协作:赋能工具还是未来主导?
这种愿景,对于在场的各位乃至更广泛的人来说,目前可能都相当有感召力——我们在说的是,这项技术从根本上让更多人能够在这些问题上协作。
但陶哲轩,这是否只是一个过渡阶段,通向一个你只与众多 AI 智能体协作、而它们逐渐主导这一领域的世界?
陶哲轩: 我觉得……是也不是。我的意思是,我们今天所做的数学,也许会慢慢朝那个方向演进。但也可能出现我们现在根本无法想象的全新数学形态。数学是无穷无尽的,问题的难度没有上限,甚至有些问题已知是不可解的——好吧,这里有个星号,但我不想展开——总之,即便是最强大的 AI,也有触及不到的边界。就算是现在,也存在某些密码学挑战是 AI 同样无能为力的,比如挖尽所有比特币之类的事。所以我认为前沿永远存在。而且,正是因为人类与当前这一代大语言模型在能力上高度互补,我相当确信,最佳组合始终会是人类与 AI 的复杂结合——只是这种结合的形态可能会随时间演变。
通往前沿:算法还是算力?
James Donovan: 那我们就假设——哪怕只是在哲学层面——存在这样一条前沿,现有的 AI 范式无法跨越,某种半人马式(centaur)的人机协作是不可或缺的。Mark,在你看来,抵达那条前沿,是一个更聪明的强化学习训练的问题,还是纯粹算力的问题?换句话说,如果今天给你无限算力,你能靠这个加速抵达那条前沿吗?
Mark Chen: 是的,我在思考 OpenAI 整体研究方向的时候,核心始终是:如何改进算法,使其能够扩展到我们明年、后年所拥有的算力水平。
所以这是扎根于现实的——我们实际拥有多少算力。我认为我们所知的所有算法,都是简洁的、可扩展的,但需要大量工程工作和精细调整,才能确保它们真正扩展到下一个数量级乃至更高。一个非常好的消息是,这是一个高度多维的问题。今天我们有很多不同的维度可以用来提升模型智能:可以扩大模型规模,打造这些储存了更多核心知识的"更大的大脑"——这符合一个直觉,就像你对数学了解得越广博、越能深入内化,就越容易建立联系、实现跨越式思维;此外还有推理维度,这是我们正在扩展的另一个轴。
推理维度关乎的是,如何将所有基础知识串联起来,创造出新的洞见。在场有几位同事正在参与我们在 GPT-5 发布直播中提到的一件事,就是将这些维度连接起来,让模型自主生成新知识,真正放大自身在特定领域的知识储备。所以,通往下一个前沿,将会涉及很多不同的维度。但总体而言,所有这些都落脚于进度图(meter plot)——我们正在积极地向着更高自主性、更长时间跨度任务的方向爬坡,而且我们预计这一趋势将持续下去。
“First Proof”:传统数学的终极形态还是新数学的起点?
James Donovan: “爬坡"这个说法——如果说我从研究团队那里学到了什么,那就是:我们必须找到并定义一座要爬的山。也许这正是两个世界的交汇点:定义正确的那座山。
那我们接下来就聚焦于此。“First Proof"看起来是一个很典型的例子,说明我们如何尝试明确地定义一座山来攀登。陶哲轩,在您看来,这是否代表了您所设想的、那种可能涌现的新数学形态——还是说,这是 AI 一直在处理的那种更传统数学的终极形态?
陶哲轩:
这将会是一个连续的谱系。First Proof 是一个非常有趣的实验,各路参与者借助 AI 工具生成的证明质量相当不错。不过,我们也发现了一个明显的验证瓶颈:我们收到了大量证明,有些很糟糕,有些相当好,有些与文献中的已有结果相似,有些则与作者自己的证明相近,还有几个确实与官方证明不同——这是令人感兴趣的地方。但要仔细评估每个证明究竟有多新颖、有多大价值,目前还没有有效的手段。因此,我认为 First Proof 团队之后会组织一场更有结构的竞赛,并设立某种验证机制。
要充分利用 AI 的新能力,我们就需要设计易于验证的挑战。某种程度上,在自动化沦为 AI 糟粕之前,你能有效投入的自动化程度和 AI 算力,大致与你的验证严格程度成正比。我认为最初会在以下几类领域见到大量进展:一是足够初等、相对容易形式化的领域,比如组合数学,早期的问题肯定属于这一类;二是某些数值类挑战,你需要找到满足特定性质的数学对象,而一旦找到了,验证非常简单。
验证瓶颈与目标规范
我们在这次活动的物理学部分也看到了类似的例子,我认为那些领域将会取得长足进步。但数学中还有另一些部分,目标不是找到满足某个性质的对象,而是寻找一个好的统摄性理论来解释某件事,或者提出一个好的定义——这些就难以验证得多。比如你想提出一个新猜想,或者解决问题的新策略,AI 或许能生成一百个这样的策略,但只有人类专家才能甄别或给出有见地的评价,这就成了瓶颈。
即便 AI 把生成解决方案的成本降至零,也仍存在其他巨大的瓶颈——而这些此前并不在我们的关注焦点之内。此外,我认为我们还需要更善于精确地陈述目标。AI 几乎太擅长"按字面意思"完成任务了:你说"我想解决这道题,我想证明这个定理”,也许未来的 AI 跑一阵子就把证明交给你。但你真正想要的,是让人们努力尝试、在寻找反例中遭遇失败、与其他文献建立联系,并把所有部分结果都传达出来——这才是解决某个特定问题的真正价值所在。如果你把目标定得过于狭窄,就会错失大部分收益。我们必须更加审慎地进行目标规范。
“离线版 First Proof"思维实验
Mark Chen:
我想再补充两点。我一直在想 First Proof 的"离线版本”,我们其实也稍微讨论过这个:可以设想训练一个模型,其知识截止到某个非常具体的时间节点——某天某时,然后想象在那个时间点上"第一个证明"会是什么,而你现在拥有了事后回顾的优势。
你大概知道所寻找的技巧是什么,知道模型中的"创造力"可能是什么样子。我认为这些都是非常有趣的思维实验。选择哪个日期作为截止点才能从中获得最大信号——这本身也是个值得深思的问题。
我还在想,数学的过程不仅仅是证明一个定理,它包含所有你在某处汇总起来的部分性进展。在 OpenAI,我们有一些 AI 系统,本质上就像信息的中央存储库——你可以设想这类系统在数学中也发挥类似的作用,就像某种全球性的知识库。我记得 Daniel Lit 之前在网上发布过类似的东西:一个数学家可以与之交互的智能体,它能填补数学结果的凸空白,随时作为"人们正在探索什么"的信息真相来源,帮你把很多点连接起来,成为一个存储我们已知内容的知识库。
陶哲轩:
不过,有时候把这个功能关掉或许也有用。我有时在处理某个问题时,会掌握太多技巧。我知道有一个强大的技巧可以解决问题,但它需要相当高的技术功底,于是我就用了它,解决了问题,发表之后,有人告诉我其实有一个简单得多的工具,有一个简单得多的证明。
我有点担心,有时候能获取文献中所有已知技巧,未必就是最好的前进方式。当然,拥有多样化的工具——多种 AI 工具——也是好事。我想还是会有人乐于用老方法做事,乐于找到更"人味儿"的解题方式,并从中获得满足感和自豪感。
范式转变与验证的哲学困境
James Donovan:
Mark,我想知道,你给出的那个案例研究里是否也存在类似的规律——如果我们真的能回到某个科学领域范式转变发生之前,看看模型能否预测到它,这也许可以作为一种验证工具。但库恩式的范式转变观也意味着,未来可能还会有新的范式转变,足以推翻上一次的范式转变——所以你其实并不希望模型猜出上一个范式转变,因为那可能会把它引上一条错误的路径,而无法通往下一个范式转变。这也让"验证与确认"这个问题更加凸显——它既是哲学问题,也是实践问题。在所有领域中,数学(这里我要声明一下,我曾稍微参与过 Lean 的工作,向那个团队致敬)具有实现自动化验证的真正能力,而其他绝大多数领域并不具备——当然也不是完美的,本身也有其局限性。
验证工具能否推广至其他领域?
在您看来,其他所有我们希望深入研究的知识领域,是否都需要出现某种类似的独立验证工具——就像数学中发生的那样——还是需要某种完全不同的范式?
陶哲轩:
我确实坚信,在工作流中注入 AI 是有上限的,超过这个上限就会成为净损失——引入的错误和问题会多于它解决的。验证能力是这个上限最重要的决定因素之一。因此,在数学中,我认为我们最有可能实现极高程度的自动化,能够有效地利用高度自动化,而这在可验证性较低的领域是无法做到的——因为数学至少在"证明我们已明确指定要证明的命题"这一具体任务上,拥有极高的验证标准;而这并不是我们唯一关心的事情。
当然,形式化验证本身也有弱点:语言本身可能被恶意智能体所利用。AI 可能会"好心办坏事”——为了尽可能多地证明命题,偷偷向形式系统中添加公理。你可以尝试堵住这些漏洞,但如果 AI 足够强大,你在某个节点实际上必须限制它的能力,或者定期让人类介入。在其他科学领域,也可以做一些类似的事情……
验证系统的局限与 AI 作弊问题
陶哲轩: 比如,数值模拟在某些情况下可以用作验证工具,但同样不能完全依赖它。假设你想建模天气,有一台预测天气的超级计算机,然后你训练一个 AI 来模拟这套数值仿真——在某个节点,AI 可能会利用数值仿真中某个并不属于真实规律的特征。所以它在一定程度内有效,之后便会失效。我们确实需要更清楚地了解验证工具的边界。很多验证系统在非对抗性使用时运行良好,但如果你专门训练 AI 去最大化基于该验证工具的输出,它就会找到漏洞。AI 在这方面极其擅长——它是一个无情的作弊者。我们必须意识到这一点:通过了所有人类测试的验证系统,未必适合用于 AI。
AI 能力的评估困境
James Donovan: 非常有道理。直觉上,让 AI 最难作弊的方法,就是从第一步、第一天起就把可测量性设计进去。Mark,你在让模型变得越来越聪明的时候,是否会这样思考——从第一性原理出发,去问"要被衡量为更聪明,需要满足哪些条件"?还是纯粹依靠泛化来追求更强的模型?
Mark Chen: 是的。我觉得归根结底,为什么要在这样的场合去攻克数学和物理难题?原因在于:我们已经用完了好的评估基准——那些由人类精心设计的评估集——而"做科学"本身现在就是评估。数学尤其令人兴奋,因为你可以去攻克某个定理,在很多情况下可以验证它,并且对自己真正推进了前沿有足够的信心。物理方面我知道也有一些类似举措。
在物理领域,确实存在一些含糊之处,比如"这个常数太小"之类的说法,但你仍然可以建立相当严谨的形式系统,从而真正推动数学和物理的前沿。不过从根本上说,我们如此重视非正式语言中的推理,是因为我们关心泛化——我们希望在生物学等领域也能进行深度推理并取得突破,即便"突破"在那些领域意味着什么还相当模糊。数学里就清晰得多:你解决了纳维-斯托克斯方程(Navier-Stokes),那无疑是重大突破。但如果模型说"这是机器学习的下一个突破",我真的不知道如何验证这是否为真——很多事情极度依赖实验,最终还是要靠时间来检验。
所以我认为,我们真正关心的是这个可泛化的基础推理层。自然语言感觉是表达这一点的好方式,它不那么容易落入"手里有一套技术工具箱、只会围绕已知技术打转"的陷阱。我觉得在自然语言中,我们确实能够表达这些新技术——至少目前为止是这样的。我们非常深切地关注泛化能力,而这些形式化领域也为我们提供了一种严格的方式,来验证我们是否真的超越了数学本身的结构性边界向前推进——也因此能够进行形式化验证。
数学作为 AI 实验的安全沙箱
James Donovan: 除了形式化验证这一特性之外,在数学领域持续追求更强能力,还有没有其他实际意义?还是说在你看来,它更像是一块等价的测试地?
陶哲轩: 我认为,将数学作为其他用例测试平台的一个积极特质是:正如今天早些时候弗拉基米尔·阿诺德(Vladimir Arnold)那句话所说——“数学是实验代价最低廉的地方。”
失败的代价同样低廉,这二者是相关的。如果你是工程师,被委托建一座桥,桥塌了,那是代价高昂的错误;如果你是外科医生,切错了地方,那也是代价高昂的错误。但在数学里,如果你尝试证明一个定理而证明策略失败了,那不是代价高昂的错误。所以我们拥有"自由地失败"的空间——这比其他学科都宽裕得多。正因如此,我们形成了比其他学科更善于从错误中学习的文化。相对而言,数学是一个比造桥或心脏手术更安全的 AI 实验场所。
Mark Chen: 我非常认同这一点,这也正是我们在 OpenAI 的思考方式。我认为,我们发展 AI 最核心的目标,是用 AI 来发展更强的 AI——我们希望设计出更好的实验来构建更强大、更智能的模型,这些模型反过来又能在数学上做得更好,同时也能构建更强的模型,由此形成飞轮效应。但这是一件代价高昂的事情:如果在任何环节搞砸了系统,算力就会白白损耗——跑错一个实验,就会烧掉大量金钱和计算资源。所以我确实把数学和物理视为推进前沿的安全领域。
James Donovan: 非常有道理。我甚至想进一步追问——Kevin,你的工作也触及这一点:假设未来模型发现的东西真的超越了人类知识的前沿,甚至超出了人类在概念层面能够真正跟上的范围,那么这些发现就必须以某种方式重新表示为一条逻辑链,让我们至少能够跟随步骤,即便无法理解其中每个组成部分。数学比任何其他领域都更像是发明了一套能够容纳这一点的工作流程——相较于生物或化学,后者并没有那么多可供依托的形式化公理体系。因此,要实现真正的前沿科学突破,这种能力或许是必要的先决条件。不过无论如何——正如你所说,Terry——我们未来做数学的方式将会改变,也许我们会更加强调创造力、协作,以及与过去百年不同的技能。这是否也会影响到数学的教学方式?
AI 时代的数学教育变革
陶哲轩: 是的。开放性问题仍然存在,但短期内确实有一些事情不得不改变。比如,每周的书面作业已经成了第一个"牺牲品"。不过我认为,我们现在可以推动学生去做更有抱负的事情。我已经大幅转向基于项目的考核方式;在小班教学中也可以进行一些口头考核。我们需要教授的技能将会不同——独立验证 AI 生成内容的能力将变得不可或缺。
软技能也一样——比如如何与人合作。数学家在这方面过去并不总是表现出色,但今后必须有所提升。变化的速度之快,使得教育体系难以同步跟上,但我认为我们将被迫做出改变。
以新冠疫情为例,我们当时对课程做了一些应急调整,总体上也起了作用,尽管体验并不理想。希望这一次能有更多时间规划——但变化的量级恐怕不会小于那一次。
Mark Chen: 是的,类比到我们这边——面试流程也很快就"崩溃"了。如果应聘者有时间做带回家的题目或书面形式的考核,就很难真正考察能力了。我确实觉得,迈向一个让模型与应聘者互动、教授知识、并评判其学习吸收程度的世界,方向上是对的。我曾想过以这样的形式重新设计面试:让应聘者说服模型,证明自己具备在 OpenAI 工作所需的技能——当然你还需要防止作弊和越狱,但我确实认为,教育从根本上需要以某种方式改变。
我很想听听 Terry 的看法。我从其他一些教授那里听说,出现了一种明显的分化:史上最优秀的作业,与史上最差的现场考试成绩同时并存。不知道这是否也是你观察到的趋势?第二点是:你是否真的看到这样一批学生——他们非常有学习动力,借助工具变得越来越强,形成一种明显的加速效应?
陶哲轩: 确实,我注意到作业分数在上升,而现场考试成绩在下滑,不过还没有到崩溃的程度。我没有硬数据,但我有一种感觉:最弱的学生在用 AI 把自己拉到中等水平;而最优秀的学生通常反而倾向于回避 AI,因为他们意识到,过度使用会让自己的能力退化。最弱的学生则觉得自己没什么可失去的。从这个角度来看,AI 在某种程度上发挥了一种"拉平"的作用。当然,一旦你在某个领域积累了足够的专业素养,这些工具就会非常有用。或许真正的均衡点在于——有针对性地限制某些使用方式,或者引导学生在特定场景下有节制地使用。我完全可以想象未来的作业形式:答案本身不再是考核重点,因为谁都能把题目输进去;但"你用了什么提示词来得出这个答案",反而可能成为更有价值的评估工具。所以,我们必须想清楚这件事。就像 AI 会优化我们给它的任何奖励函数一样,我们为学生设定的激励机制也会产生深远影响,这需要我们认真对待。
认知代价与"直升机直达目的地"的隐喻
James Donovan: 在某种程度上,极端情况是容易理解的——完全认知外包,学习自然就不会发生。但更微妙的情形,也许是那种算得上有效使用 AI 的时候。你在最近一次采访中用过一个比喻,我觉得很贴切:被直升机直接送到目的地,而不是沿着风景路线自己走过去。这种工作流程的转变,对应着人类认知层面的某种变化——我们还不清楚这样做会失去什么,但我们需要保持清醒,时刻警觉。你对我们可能失去什么,有没有自己的判断?
陶哲轩: 我想我们很快就能从经验中得到答案。我认为,我们需要对研究——或者任何其他任务——的各个不同面向保持更充分的认识。AI 带来的一个效果,是让许多此前耦合在一起的事情可以解耦,这对于分工协作而言是有益的,效率更高。
但这也意味着,过去那些"设定模糊目标"没什么问题的场景,如今变了。以前,任何人类为了实现某个目标所付出的努力,自然也会顺带触及周边一系列目标。就像你想去山里看一个漂亮的瀑布,于是去徒步,途中也许会遇见有趣的野生动物,偶然瞥见一处更美的地方,心想哪天一定要再来;也许还会遇到几个同行的徒步者,和他们聊上几句。这一切都是自然而然发生的惊喜与偶遇。过去,我们只会说"去看那个瀑布是个好主意",却从来没有仔细追问过:我们为什么要去?那次经历真正的价值是什么?真正的收获又是什么?
而现在,我们有了另一种方式抵达那个瀑布——叫一架 AI 直升机把你直接送到那里。你当然能拍到那张 Instagram 照片,但也许那并不是你当初真正想要的全部。所以,我认为我们不得不靠亲身经历来学这一课。你可以把"旅途本身"讲得很浪漫,但我认为,只有当我们真正失去那段旅途,才会明白自己究竟错过了什么。
AI 的协作性与交互式智能体
James Donovan: 是的。其实就在今天,我们发布了学习成果评估套件(learning outcomes measurement suite)——一套用模型来衡量用户在使用过程中是否真正在学习的系统。所以这确实是一个仍在进行中的研究课题。不过,Mark,我想请教你:模型给出"不精确的答案"、从而为探索留出空间——这种"意外性",是你在模型能力上希望探索的方向吗?这是模型行为的问题,还是模型个性的问题?你们怎么看?
Mark Chen: 是的,实际上今年我们最重要的一项举措,就是构建一种新的基础交互范式——我们成立了一个交互式智能体(interactive agents)团队。我认为,仅仅让用户向 AI 提问、然后 AI 过一段时间(哪怕是一天后)给出最佳答案,是远远不够的。人类天生是协作的,我们在各种协作结构中工作。举个完全与数学无关的例子:假设你想做一份 PPT,你不会对着 AI 说"给我做一份完美的 PPT,把这些内容都涵盖进去"——你会希望它不断回来和你确认,由你来把握方向,经过多轮互动共同完成。这才是真正与一个高度智能的智能体协同工作的样子。我们希望把这种能力深度植入模型本身——让它高度可引导,让人感觉像在与一个思维伙伴共事。我希望在接下来几个月内,至少在一年之内,AI 就是这个样子的。
当然,在协作这件事上做强化学习要难得多——你怎么给"和搭档配合得有多默契"打分呢?
James Donovan: 我的判断是:这是可以做到的。我同意,也许没有你想象的那么难。在现实世界中,“默契"很可能有相当清晰的生物性信号,完全可以被引入机器世界。
Mark Chen: 好,那就让你的 AI 展现它的"肢体语言"吧。
对未来一年的展望
James Donovan: 这话说得妙,我很高兴留下了一句值得引用的话。接下来我将开放提问环节,就在这之后。我再问最后一个问题,给大家一点思考时间——也许我们一年后还会相聚,我很想听听你们对届时局势的预测。
陶哲轩: 我真心希望能看到大量新型数学项目涌现——那种以挑战为核心的形式,类似 First Proof 那样的尝试:一群数学家共同创设一批问题,期望其中一定比例能被解决,难度梯度设计精良,验证机制完善,然后向整个社区开放。这不仅是在充分利用 AI,也是在充分发挥互联网与梅特卡夫定律(Metcalfe’s law)的力量——如果有 n 个人能够出题,有 n 个人能够解题,那么潜在的连接就有 n² 种。数学家们一直不善于充分利用这种大规模网络。所以我期待看到一种截然不同的数学研究方式,几乎像是一个数学"市场”。AI 将在其中大放异彩。这是我希望看到的,也许一年后我们就能看到它初现端倪。
James Donovan: 太精彩了。
Mark Chen: 是的。我觉得机器学习在某种程度上预示着数学的未来——看看今天顶尖实验室的研究科学家是怎么工作的:他们正在进入一个新世界,最强的研究科学家能够并行推进大量想法,真正充当编排者(orchestrators)的角色——构思一个想法,设计出一系列变体实验,然后让模型去执行和实现。
我希望数学领域也能出现类似的范式——让 Terry 这样的人以及各位,都能有足够的能力去探索相当广泛的想法和策略,而无需太多辅助。我也确实认为,“无需太多辅助"这一点会越来越成为现实。任务的时间跨度会持续延长——就像一年前我们还在谈论几分钟的时间跨度,我想一年后我们将进入以天为单位的阶段,届时你真的可以信任模型去完成耗时数天的任务。再往后,关键就是确保交互足够流畅——这些系统与人类群体以及你们各自所在的学术社区之间,应该感觉非常自然。最后,我真心希望我们能迎来某个重大突破,无论是在数学、物理还是生物领域。我们今天所证明的东西固然都很好,但我相信,这一切真的有潜力为人类带来切实的价值。
集市与大教堂:AI 时代的数学协作
James Donovan: 精彩。软件开发领域有一个关于"集市”(bazaar)与"大教堂"(cathedral)的比喻——集市是自发涌现、充满多样性的自组织体;大教堂则由一位伟大的设计师精心构建,因而极具优雅。也许在数学领域,两种现象将同时发生,并共同繁荣。我们现在开放提问——有没有哪位有特别想问的问题?
世界模型与幻觉问题
观众: 我想请各位聊聊世界模型(world model)——它不预测下一个 token,而是预测下一个状态。我读到关于 V-JEPA 的内容,说它能够自我纠正、避免幻觉,这是真的吗?我在 Mac 上能运行的只是最基础的 hello world 示例,所以了解有限。
James Donovan: 为方便观看直播的朋友,这个问题是关于我们如何看待世界模型——它是否是一种范式转变?对数学研究和解决幻觉问题是否尤其有帮助?
Mark Chen: 我认为这是一个很有潜力的替代方向。LLM 非常强大,某种程度上甚至太强大了——我们已经把整个 AI 基础设施都围绕着提升 LLM 能力这一目标来构建,这可能会挤压掉一些极具互补价值的其他 AI 路径,而那些路径的能力边界与 LLM 完全不同。所以我绝对支持对世界模型的研究。不过我认为,在相当长的时间内,世界模型的表现会落后于 LLM——正是因为 LLM 积累了太多的惯性和基础设施。这就像我们的城市是围绕汽车和石油建造的,形成了完整的基础设施体系,这反而使得其他交通方式很难突破。当然,确实有人在推动世界模型的发展,我衷心祝他们成功。
陶哲轩: 当我想到纯粹的视频生成式世界模型时,我觉得我们距离那个目标还相当遥远。现有的视频模型作为物理模拟器表现不错,但稍加施压,它们也会崩溃。我相信随着时间推移会越来越稳健,但目前还没到位——我们在这方面正在大力推进。
Mark Chen: 世界模型的形态有很多种,LLM 本身也可以被视为一种世界模型。不过,我认为数字世界模型——直接与计算机交互、遵循计算机规则和反馈的那种——是一个非常重要且有趣的系统,我相信我们很快就能攻克它并从中获取大量价值。
观众: 在这个问题上,是否存在某种中间地带——比如构建基于物理定律的强化学习(RL)环境,在某种程度上可以把世界模型的优势赋予 LLM 或其他系统?也许这是两条路径的交汇点,而非两个截然不同的方向。
AI 辅助数学证明的边界与验证
观众: AI 在很多科学领域的有效性体现在预测上——比如蛋白质折叠、精确的天气预报。但在数学和理论物理中,我们追求的是不同的东西:我们想要理解,想要公式,想要证明。您是否认为这样的要求有些过于局限?会不会更容易实现的反而是:一个 AI 告诉你"我有一个假设的证明,但你的大脑太局限,无法理解它——我可以把它教给其他 AI,让它们继续推进"?
陶哲轩: 坦白说,那已经是我与 AI 的日常关系了。我们中的一些人已经触及了这条边界。
James Donovan: 为方便观看的朋友,这个问题的核心是:在某些科学领域,纯粹的模拟就足够了——只要它能做到,我们便认为问题已经解决,即便不知道原理;比如天气预报,即使我们不理解它如何运作,我们也很满意。但在数学和物理中,我们要求更高——结果必须是可验证的,正如我们之前讨论的那样。这是否是一种不必要的限制,甚至是一个错误?
陶哲轩: 我认为,未来会出现一些我们今天还不做的数学任务类型,我们将把它们委托给 AI,而这些任务可以与正式证明的工作非常互补。打个比方:现在所有象棋棋手都用引擎训练。引擎会实时给出局面评分——比如"白方领先三分"。这是训练人类棋手的极佳信号,能给你即时反馈:“这步棋很糟,换个思路。“我能想象有这样一种 AI:当你尝试证明某个命题,每次你说"我打算用反证法”,你的分数就大幅下落——好,这个思路很差,退回去,换个方向。某种程度上,就像一下轻微的电击。这就是一种"证明辅导"模型。一个好的数学辅导老师可以做到这一点,但也许我们需要发挥创造力,去思考 AI 今天还没有参与的那些任务类型。
Mark Chen: 我确实认为验证很重要,但不一定非得是形式化验证。我们内心深处想知道某件事为什么是真的。这实际上也是更深层对齐问题的一部分——当 AI 处理真实世界的高影响任务时,你希望知道它为什么做出某个决策。比如它告诉你"这是发展业务的最佳策略”,你不希望它在没有充分理由的情况下就这么做。我们有很多对齐技术,比如"辩论"(debate)——即便得不到滴水不漏的形式化论证,也能大致理解思路、与证明互动、质疑它。所以我认为,对辩论和对齐技术的投入,在未来会真正帮助我们。
可解释性与潜在空间
观众: 在这个问题上,能否从模型的中间状态中获取什么信息?
Mark Chen: 这确实是我们大量研究的方向。最基本的层面是监控推理过程或思维链,从中可以获得大量洞察——甚至对同一问题进行多次尝试,就能感受到模型倾向于哪些策略,从而对模型"大脑"的运作方式有更深的了解。再深一层,可以查看激活值(activations),尝试找到机制性回路(mechanistic circuits)等。这是一个非常深入的研究领域。
观众: 这两个问题可能相互关联——在可解释性方面,我们对潜在空间的压缩方式会限制模型能够产生的关联类型。在什么时候应该保留潜在空间的完整性(以支持理论上的新连接),即便代价是牺牲可解释性?还是说,我们需要一种全新的可解释性范式,不依赖这种压缩?
Mark Chen: 我认为我们今天在文本空间中工作,正是因为可解释性带来了巨大的价值——你可以通过直接观察"模型在这里的推理明显出了问题"来调试大量错误。一旦转入纯粹不可解释的潜在空间,就会失去这一点。我不认为我们会在近期切换到那种方式。理想情况下,应该有多样化的模型:某些场景下你只关心答案、不在乎可解释性,就把旋钮拧到那一边;另一些场景你真正想看到过程、看到人类可读的思维链,就拧到另一边。
直觉上确实感觉,被迫将一切压缩进语言是有代价的。所以,在多元化模型的基础之上,也许还需要多元化的表达方式或验证方法,这样才不会把它强行塞进一个不合适的形态。不好意思,请先说。
归因与激励:谁真正推动了科学进步?
观众: 我想问一个关于归因与激励的问题,着眼于科学未来的走向。以 AlphaFold 为例,全世界的普遍印象是:AI 来了,解决了这个问题。
当然,从某种意义上说 AI 确实做到了,但它是建立在蛋白质数据库(Protein Data Bank)和数十年积累之上的。然后你会看到,蛋白质数据库在 AlphaFold 成功之后立刻失去了资助,诸如此类。想到我们将要面对的大规模数学难题,以及为此需要投入的人力——整理问题集、进行验证等等——无论是数学还是理论物理,我觉得许多情况下都存在一个危险:AI 或许只是让某件事得以发生的关键推手,但它不是独立完成的,真正起作用的是整个生态系统。一方面,我们如何掌控这种叙事?另一方面,对于 OpenAI 和各大公司而言,它们在如何应对这些问题上负有相当大的责任。我很想听听你们的看法——我们怎样才能避免事情走向不好的方向?
陶哲轩: 嗯,这是一个很重要的问题。有一个部分解法——正如我之前所说,我预见到"挑战性问题"的兴起:人们会创建任务数据集,征集解答。这在某种意义上是双赢的:创建数据集的人可以有一部分问题得到解决,这正是他们想要的;而这些数据集对校准 AI 系统也极具价值。所以在某些情况下确实可以实现双赢。但话说回来,也确实存在这样的情况:有人耗费大量资源建立了某个数据集,目的并非如此,结果却被各种 AI 吸收利用——这种情况我们也不太清楚该如何追踪。这就牵扯到知识产权法,是个非常棘手的问题——我把它甩给你来处理吧。
Mark Chen: 我觉得就目前而言,AI 并不在意谁拿到功劳。关于 OpenAI for Science 的愿景,我们真的不是要在这里争功。我们当然有推动科学进步的雄心,但 Kevin 在这里,他想建立一个平台,让全世界的数学家都能加速推进整个领域的发展。我们不知道该问哪些正确的问题,我们也不是 OpenAI 内部的编排者。我认为功劳理应归于你们这些研究者。
陶哲轩: 我知道这不完全是你问的那个问题。我的意思是,不是 AI 在抢功劳,但公众的感知是"AI 解决了这个问题",仿佛人类的实验和所有的努力都无足轻重了。就埃尔德什问题而言,我们已经观察到:有时会出现一个无人问津、悬而未决的埃尔德什问题,然后某个 AI 给出了解答,消息传到社交媒体上——“AI 解决了一个未解难题”。但在很多很多情况下,大约 24 小时之后,有人——通常借助某个深度研究工具——发现这个结论早已被人用非常相似的方法在文献中证明过了。我们无法确定 AI 是否利用了那个已有的解答,或者间接知晓了它。但这种情况发生得实在太频繁了——我们有一整张贡献清单,这是一整节专门讲这个问题的内容。从某种意义上说,我们至少有能力发现其中的一部分,因为我们也有这些研究工具,有时可以找回归因信息。虽然不完美,但也许,同样的技术——用文献来解决问题——也可以用来追溯解答的来源。
数据归因与公关叙事
Mark Chen: 总体而言,数据归因本身就是一个非常困难的问题——当你生成某个东西时,它究竟从哪些数据点获得了多少启发?这里有一个有趣的想法:模型的新颖性与贡献程度,或许在某种程度上与模型在某件事上所花费的思考时间相关。当然未必总是如此。至于模型重新发现文献中已有内容的问题——
观众: 还有一个公关层面的因素:比如 DeepMind 本可以主动更多地提及蛋白质数据库,在叙事上做得更到位。有些事情与 AI 模型和数据本身无关,纯粹是我们如何在公关和公告中谈论这件事。
Mark Chen: 这话说得非常公允。我理解其中的激励逻辑。我希望——在座任何 OpenAI 的人都可以印证这一点——我们非常重视诚信。至少我本人,会非常坚决地为正确的叙事去争取。
James Donovan: 也许可以从我以前的经历出发补充一点视角:也许需要的是一种范式转变——公众往往低估了科学进步在多大程度上依赖于工具的根本性改进。你需要更好的显微镜,诸如此类。这些都是不起眼的工作,通常不是理论科学家愿意投入精力的方向。我们应该传递的叙事是:通过不断打造更好的科学工具,才能让人类加速整个领域的发展——往往正是如此,才会迎来真正的重大突破。AlphaFold 本质上是一个工具。
它本身并不是科学研究,尽管其中也有若干研究性的成分。如果我们能坚持强调它是一种工具,或许也能呼应你刚才关于社会投资流向的那个观点——投资应该流向围绕工具、使其发挥效用所需的一切,而最终是服务于使用工具解决问题的人类研究者和科学家。时间差不多了,如果可以的话,我再接受最后一个问题。
AI 与科学加速的跨领域协同
观众: 这次大会有一个非常有趣的地方——用 AI 加速数学与物理的研究,而且从中能产生一种协同效应:能够解决数学或 AI 问题,反过来又能帮助解决其他物理问题。我很想听听你们的看法:你们预见到哪些额外的协同效应?OpenAI 在攻克数学和物理之后,还能从这里延伸出哪些方向?
Mark Chen: 关于这个问题,Kevin 可能最有发言权,但我们确实关注数学和物理以外的领域。我们已经探索的方向之一是生物学——我们让 AI 致力于提升湿实验室中生物学操作流程的效率。以我们的合作伙伴 Ginkgo Bioworks 为例,我们对他们的许多核心流程进行了迭代,将蛋白质合成的成本降低了约 40%。这只是一个底层的基础能力,将推动更多进展。在材料科学等其他领域,可以想象的应用还有很多。
James Donovan: 还要说一点:IPAM 这个研究所,我们整个核心使命说白了就是寻找这些协同效应。“纯粹与应用数学研究所”——光看名字就知道了。我们会举办像今天这样的活动,让不同领域的人聚在一起交流。很多时候靠的是偶然的碰撞——我们会挑选那些我们相信能产生大量意外而富有成果的合作的组合,并不是随意把领域硬砸在一起。我很高兴你们把随机碰撞粒子的事留给了物理学家——这是一个完美的收尾时刻。同时也顺便宣传一下:Kevin 接下来将要做一场讲座,正好涵盖了很多这类问题——要加速科学各个领域的发展需要哪些条件,以及应当为此构建哪些工具。希望大家都能来。非常感谢各位。
术语表
| 原文 | 中文 |
|---|---|
| AI slop | AI 糟粕(指 AI 生成的错误或低质量内容) |
| AlphaFold | AlphaFold(DeepMind 开发的蛋白质结构预测 AI 系统,文中有时缩称"Alpha") |
| centaur | 半人马式(比喻人机协作的混合模式) |
| Daniel Lit | Daniel Lit(数学家,曾发布数学智能体相关内容,保留原文) |
| debate (alignment technique) | 辩论(OpenAI 提出的 AI 对齐技术,通过模型间辩论来提升可信度) |
| Erdős | 埃尔德什(匈牙利数学家保罗·埃尔德什) |
| Fireside Chat | 炉边对话 |
| First Proof | First Proof(数学与 AI 结合的实验性项目名称) |
| formal verification | 形式化验证 |
| Ginkgo Bioworks | Ginkgo Bioworks(合成生物学公司,原文转录有误,作"skinko bioworks") |
| IMO | 国际数学奥林匹克竞赛(IMO) |
| interactive agents team | 交互式智能体团队(OpenAI 内部团队) |
| IPAM | IPAM(Institute for Pure and Applied Mathematics,纯粹与应用数学研究所) |
| James Donovan | James Donovan(保留原文) |
| Kevin | Kevin(OpenAI for Science 项目负责人,仅提及名字) |
| Kuhnian(原文转录为 “coinian”,系笔误) | 库恩式(托马斯·库恩,Thomas Kuhn,科学哲学家,“范式转变"理论提出者) |
| Lean | Lean(形式化证明辅助工具) |
| learning outcomes measurement suite | 学习成果评估套件(OpenAI 发布的评估工具) |
| Mark Chen | Mark Chen(保留原文) |
| mechanistic circuits | 机制性回路(可解释性研究中用于分析模型内部结构的概念) |
| Metcalfe’s law | 梅特卡夫定律(网络效应定律,由 Robert Metcalfe 提出) |
| meter plot | 进度图(meter plot,OpenAI 内部术语,指模型自主工作时长的衡量指标) |
| Navier-Stokes | 纳维-斯托克斯方程(千禧年数学难题之一) |
| OpenAI for Science | OpenAI for Science(OpenAI 科学应用项目) |
| orchestrators | 编排者(指统筹调度多个 AI 智能体的研究者角色) |
| Protein Data Bank | 蛋白质数据库(Protein Data Bank,国际蛋白质三维结构数据库) |
| Terence Tao | 陶哲轩 |
| The Cathedral and the Bazaar | 集市与大教堂(Eric S. Raymond 关于软件开发模式的经典比喻) |
| V-JEPA | V-JEPA(Meta AI 提出的视频联合嵌入预测架构,Video Joint Embedding Predictive Architecture) |
| Vladimir Arnold | 弗拉基米尔·阿诺德(苏联/俄罗斯数学家) |
此文章由 AI 翻译