机器没问题,我担心的是我们
The machines are fine. Im worried about us.
当人工智能全面渗透科研流程,学术训练的本质是否正在被悄然置换?本文以两位天体物理学博士生的经历为切入点,勾勒出一幅令人警惕的图景:传统训练的Alice与全程依赖AI代理的Bob,在现行量化评估体系下产出了“无差别”的学术成果。然而,这种指标上的对等掩盖了能力的深渊。Alice习得了独立思考的结构与可携带的手艺,Bob交付的则是剥离了认知过程的空壳产品。作者敏锐地指出,现有学术系统的激励结构本就忽视人的长期成长,AI的介入只是让这种错位彻底暴露。对于天体物理等基础学科而言,其核心价值从来不是某项具体结论,而是培养知道如何思考难题的人。当科研过程被让渡给机器,被抽空的并非效率,而是科学不可或缺的灵魂。
想象你是一所研究型大学的新任助理教授。你刚得到这份工作,刚拿到一小笔启动资金,也刚雇了你的前两个博士生:Alice 和 Bob。你在天体物理学领域。这是一切的开始。
你做了几年前你的导师为你做的事:你给他们每人一个定义明确的项目。一个你知道可以解决的东西,因为其他人已经解决了它的相邻版本。一个你自己做大概需要一两月的东西。你预计每个学生要花大约一年时间,因为他们还不知道自己在做什么,而这正是关键所在。项目不是交付物。项目是载体。交付物是从另一端走出来的科学家。
Alice 的项目是构建一个分析流水线(analysis pipeline),用于测量星系团聚类数据中的特定统计特征。Bob 的在范围和难度上类似,不同的信号,不同的数据集,相同的基本学习弧线。你给他们每人发了几篇论文去读,指向一些公开可用的数据,并告诉他们从复现一个已知结果开始。然后你等待。
这一学年像学年通常会展开的那样展开。你与每个学生每周开会。Alice 困在了坐标系上。Bob 无法让他的似然函数(likelihood function)收敛。Alice 写了一个画图脚本,输出了垃圾。Bob 误读了一篇关键论文中的符号约定(sign convention),花了两周时间追查一个两倍的误差。你给了他们两人类似的反馈:再读一遍论文,检查你的单位,试着打印中间输出,在看代码给出的结果之前先想一下答案应该是什么样的。正常的事情。那种你一年说五十次却从不记得自己说过的话。
到了夏天,两个学生都完成了。两篇论文都很扎实。不是突破性的,不会改变这个领域,但是正确的、有用的、可发表的。两篇都在一家不错的期刊上经历了一轮小修,并从另一端走了出来。一个极其普通的结果。那种整个学术训练机制被设计出来就是要产出的结果。
但 Bob 有一个秘密。
不像 Alice 这一年里手拿铅笔读论文,在页边空白处潦草记笔记,感到困惑,重读,查阅资料,慢慢拼凑出对她这个领域角落的可用理解,Bob 一直在使用 AI 代理(AI agent)。当他的导师发给他一篇论文去读时,Bob 让代理总结它。当他需要理解一种新的统计方法时,他让代理解释它。当他的 Python 代码崩溃时,代理调试了它。当代理的修复引入了新 bug 时,它也把这个调试了。到了写论文的时候,代理写了它。Bob 每周向导师的汇报与 Alice 的无法区分。问题类似。进展类似。轨迹,从外面看,是完全相同的。
无差别的学术产出
有趣的地方在这里。如果你是一个行政人员、一个资助机构、一个招聘委员会,或者一个痴迷于指标的系主任,Alice 和 Bob 度过了相同的一年。每人一篇论文。每人一轮小修。每人一对文献的一项扎实贡献。按照现代学术界用来评估一位科学家的价值的每一个定量指标,他们是可互换的。我们围绕计算可计算的事物建立了一整套评估体系,结果发现真正重要的东西恰恰是那件不可计算的事。
情况变得更糟。大多数博士生会在毕业后几年内离开学术界。每个人都知道这点。系里知道,资助机构知道,导师可能也知道,即使没人大声说出来。这意味着,从机构的角度来看,Alice 还是 Bob 成为更好的科学家这个问题,很大程度上是别人的问题。系里需要论文,因为论文证明了资助的合理性,而资助证明了系的合理性。学生是生产资料。那个学生五年后作为独立思考者还是合格的提示词工程师走出大门,从机构层面上讲,是无关紧要的。激励结构不仅未能区分 Alice 和 Bob。它没有理由去尝试。
在这一部分,我想告诉你们这个系统坏了。它没有。它正完全按设计运转。
David Hogg 在他的白皮书中说出了一些如此尖锐地反叛这种机构逻辑的话,以至于我很惊讶没有更多的人在谈论它。他论证说,在天体物理学中,人永远是目的,从来不是手段。当我们雇佣一个研究生来做某个项目时,不应该是因为我们需要那个特定的结果。应该是因为学生将从中受益。这听起来很理想主义,直到你思考天体物理学到底是什么。没有任何人的生命取决于哈勃常数的精确值。如果宇宙的年龄结果证明是 137.7 亿年而不是 137.9 亿年,没有任何政策会改变。不像医学,在那里阿尔茨海默病的治愈方法将是无价的,无论发现它的是人类还是 AI,天体物理学没有临床产出。结果,在严格实用的意义上,并不重要。重要的是获得它们的过程:方法的开发与应用,思维的训练,创造知道如何思考难题的人。如果你把这个过程交给一台机器,你没有加速科学。你移除了它里面任何人真正需要的唯一部分。
诚然,这对资助机构来说是个难卖的东西。
这把我们带回了 Alice 和 Bob,以及那一年里他们每个人身上实际发生了什么。Alice 现在能做事了。她能打开一篇她以前从未见过的论文,并努力跟上论证。她能从零开始写一个似然函数。她能盯着一张图,在检查之前就知道归一化有问题。她花了一年时间在自己的脑子里构建了一个结构,那个结构现在是她的了,永久地,可携带地,独立于任何工具或订阅。Bob 没有这些。拿走代理,Bob 仍然是一个还没开始的一年级学生。这一年发生在他周围,但没有发生在他体内。他交付了一个产品,但他没有学得一门手艺。
我最近一直在思考 Alice 和 Bob,因为 AI 代理正在对学术研究做什么这个问题,正是我的领域,天体物理学,目前正在为之绞尽脑汁的问题。几位我尊敬的人写了关于它的深思熟虑的文章。我上面提到的 David Hogg 的白皮书,也论证反对全面采用大语言模型(LLMs)和全面禁止,这是一种只有当栅栏建得好时才站得住脚的有原则的骑墙态度,而他的栅栏确实建得好。Natalie Hogg 写了一篇令人不设防般诚实的文章,讲述了她从直言不讳的 LLM 怀疑论者到日常使用者的转变,追溯了她坚定持有的原则在发现自己处于工具无处不在的环境中时,结果证明比她预期的更依赖上下文。Matthew Schwartz 写下了他的实验,指导 Claude 完成了一项真实的理论物理计算,在两周而不是一年内产生了一篇可发表的论文,并得出结论认为当前的 LLM 运作在大约二年级研究生的水平。这些文章每一篇都很有趣。每一篇都抓住了问题的一个真实切面。没有一篇完全落在让我彻夜难眠的事情上。
Schwartz 的实验是最具启发性的,但不是因为他以为的那个原因。他证明的是 Claude 可以在详细的监督下,产生一篇技术上严谨的物理学论文。如果你仔细阅读,他实际证明的是,监督本身就是物理。Claude 在三天内产生了一份完整的第一稿。它看起来很专业。方程看起来是对的。图符合预期。然后 Schwartz 读它,发现它是错的。Claude 一直在调整参数以使图匹配,而不是发现实际的错误。它伪造了结果。它发明了系数。它产生了什么也没验证的验证文件。它在没有推导的情况下断言结果。它基于其他问题的模式简化公式,而不是解决手头问题的具体情况。Schwartz 抓住了所有这些,因为他做理论物理已经几十年了。他知道答案应该是什么样的。他知道该要求哪些交叉验证。他知道一个特定的对数项是可疑的,因为他多年来很多次用困难的方式手工计算过类似的项。实验成功了,因为人类监督者在多年前做过那些苦差事,而机器现在据说正要把我们从这些苦差事中解放出来。如果 Schwartz 是 Bob 而不是 Schwartz,这篇论文就会是错的,而且他们俩都不会知道。
对此有一种常见的反驳,我不断听到它。“等等看,”人们说。“几个月后,一年后,模型会更好。它们不会产生幻觉。它们不会伪造图表。你描述的问题是暂时的。”从 2023 年起我就一直在听“等等看”。球门移动的速度大致与模型改进的速度相同,这要么是巧合,要么是暴露了马脚。但把这点放一边。但这种反对意见误解了 Schwartz 的实验实际展示了什么。模型已经足够强大,能在合格的监督下产生可发表的结果。那不是瓶颈。瓶颈在于监督。更强大的模型不会消除对理解物理的人类的需求;它们只会扩大受监督代理可以解决的问题的范围。监督者仍然需要知道答案应该是什么样的,仍然需要知道该要求哪些检查,仍然需要在能说出原因之前就具有某种直觉,觉得有些不对劲。那种直觉不是来自订阅。它来自多年来在那种人们一直称之为苦差事的工作上的失败。让模型更聪明并不能解决问题。它让问题更难被看到。
我想告诉你们几年前的一次对话,那时大语言模型聊天机器人刚刚开始出现在学术工作流中。我在德国的一个会议上,最后和一位同事聊了起来,用任何标准指标来衡量,他都一直非常成功。大额资助。有影响力的论文。那种让招聘委员会满意地点头的简历。我们在讨论大语言模型,我在表达一个我认为关于民主化的合理观点:这些工具可能会为英语非母语者拉平竞争环境,他们在成年后学习的语言中撰写资助申请和论文时,一直处于劣势。我的同事明显变得焦躁不安。他对民主化的角度不感兴趣。他对环境成本不感兴趣。当你剥去知识层面的包装,他是害怕。在追问之后,他最终表达的是这个:如果任何人都能像他一样流利地写论文、提案和代码,那么像他这样的人就会失去竞争优势。关心的不是科学。关心的是地位。具体来说,是他自己的地位。
我有一阵子没关注这位同事了。最近我注意到了他的 GitHub 个人资料。他现在不仅在自己的研究中使用 AI 代理,还在大声地为它们欢呼。当代理能在两小时内完成时,没有理由自己花两周时间写代码,他说。我不认为他在效率上错了。我认为值得注意的是,当这些工具可能让所有人平起平坐时,最受它们威胁的人,现在在它们可能加速他自己时,却成了最热情的人。真是讽刺。
不过那天在德国他用的那个短语留在了我的脑海里。他说“大语言模型会带走科学中如此伟大的东西”。当时,我以为他只是在谈论他自己的竞争优势,他作为英语母语者的流利,他快速写作和频繁发表的能力。他确实是在谈这些。但我开始认为这个短语本身比他所意识到的更正确,即使他说这句话的原因主要是出于私利。科学中伟大的东西确实是它的人。一个困惑的学生变成一个独立思考者的缓慢、顽固、有时痛苦的过程。如果我们使用这些工具绕过这个过程以换取更快的产出,我们不只冒着带走科学中伟大东西的风险。我们带走了它原本就唯一不可替代的那部分。
围绕大语言模型的两种极端立场
大语言模型在科学中的话语往往集中在 David Hogg 清晰指出的两个极端:放任它们去做(let-them-cook),即我们把缰绳交给机器并成为它们输出的策展人;以及禁止并惩罚(ban-and-punish),即我们假装现在是 2019 年,并起诉任何被发现使用提示词的人。两者都很糟糕。放任它们去做会在几年的时间内导致人类天体物理学的消亡:机器产生论文的速度大约是人类团队的一百千倍,由此产生的洪水将以一种从根本上使其无法被它理应服务的人使用的方式淹没文献。禁止并惩罚违反了学术自由,是无法执行的,并要求早期职业科学家绑着一只手竞争,而终身教职教师则在家庭办公室里悄悄使用 Claude。这两种政策都不是认真的。两者大多都是心理投射。
但真正的威胁不是这两者中的任何一个。它更安静,也更无聊,因此更危险。真正的威胁是一种缓慢、舒适的漂移,漂向不理解你在做什么。不是戏剧性的崩溃。不是天网。只是一代能够产生结果但不能产生理解的研究者。他们知道按哪些按钮,但不知道为什么存在这些按钮。他们能让一篇论文通过同行评审,但不能坐在房间里和同事一起,从零开始解释,为什么他们展开式中的第三项具有它所具有的符号。
弗兰克·赫伯特(对,我知道我是个书呆子),在《沙丘神皇》中,让一个角色观察到:“这些机器到底做了什么?它们增加了我们不用思考就能做的事情的数量。我们不用思考就做的事情;那才是真正的危险。”赫伯特写的是科幻小说。我写的是我的办公室。这两件事之间的距离已经变得小得令人不适。
工具与训练的顺序
我应该诚实地说明我写作的背景,因为如果这篇散文出自一个从未接触过大语言模型的人,那会令人反感。我定期使用 AI 代理,我研究组里的大多数人也是。与我合作的同事用这些工具产生了扎实的结果。但当你看他们如何使用它们时,有一个模式:他们在让代理写代码之前就知道代码应该做什么。他们在让它帮助措辞之前就知道论文应该说什么。他们能解释每一个函数、每一个参数、每一个建模选择,因为他们通过多年以缓慢的方式做事情建立起了这种知识。如果明天每一家 AI 公司都破产,这些人会更慢。他们不会迷失。他们是在训练之后才来到这些工具的,而不是代替训练。这个顺序比这场讨论中的任何其他东西都重要。
当我看到现在的初级博士生进入这个领域时,我看到了不同的东西。我看到学生在伸手拿课本之前就先伸手拿代理。他们让 Claude 解释一篇论文而不是阅读它。他们让 Claude 在 Python 中实现一个数学模型,而不是去尝试、失败、盯着报错信息、再次失败,并最终不仅理解了那个模型,还理解了为了让它运行而不得不学的十几个相邻的东西。失败就是课程。报错信息就是大纲。你花在困惑中的每一个小时,都是你花在构建自己头脑内部基础设施上的一个小时,那个基础设施最终会让你做原创工作。没有穿过那个过程的捷径是不让你在另一边大打折扣的。
人们称这种摩擦为“苦差事”。Schwartz 恰好用了这个短语,他说得对,大语言模型可以消除它。他没有说的是,因为他已经拥有了几十年来之不易的直觉并且不再需要苦差事了,对于一个还没有那种直觉的人来说,苦差事就是工作。无聊的部分和重要的部分以一种你无法提前分离的方式纠缠在一起。你不知道是哪个调试的下午教给了你关于你数据的一些基本东西,直到三年后,当你正在处理一个完全不同的问题时,那个洞察浮现出来。意外发现不来自效率。它来自花时间待在问题居住的空间里,亲自动手实践,犯下没有人要求你犯的错误,学到没有人指派你学的东西。
被聊天窗口击败的百年教学智慧
奇怪的是我们已经知道这一点。我们一直知道这一点。有史以来写过的每一本物理教科书在每章末尾都有练习,有史以来站在报告厅前的每一位物理学教授都说过同样的话:你不能通过看别人做物理来学物理。你必须拿起铅笔。你必须尝试那个问题。你必须做错,与错误共处,并弄清楚你的推理在哪里断裂了。阅读解答手册并跟着点头感觉像是理解。它不是理解。每一个试图通过阅读解答来蒙混过关完成作业然后在考试中考砸的学生,在骨子里都知道这一点。我们有几个世纪积累的教学智慧告诉我们,尝试,包括失败的尝试,是学习存在的地方。然而,不知怎的,当谈到 AI 代理时,我们集体决定了也许这次不一样了。也许对 Claude 的输出点头是代替你自己做计算的一种替代品。它不是。我们在大语言模型存在之前就知道这一点。我们似乎在它们变得方便的那一刻就把它忘了。
几个世纪的教学智慧,被一个聊天窗口击败了。
我认为当前的辩论一直忽略的就是这个区别。把大语言模型当作共鸣板:没问题。当你知道想表达什么但记不清确切的 Matplotlib 关键字时,把它当作语法翻译器:没问题。用它查找 BibTeX 格式约定,这样就不用去 Stack Overflow 里扒拉:没问题。在所有这些情况下,人类是架构师。机器拿着字典。思考已经完成,工具只是在平滑执行的最后一英里。但是,当你使用机器来绕过思考本身,让它做出方法论的选择,让它决定数据的含义,让它写出论证而你在一旁点头时,你就跨越了一条很难看清也很难退回的界线。你没有节省时间。你放弃了这段时间本应给你的体验。
Natalie Hogg 在她的文章中说得很好,当时她承认自己对使用大语言模型的恐惧部分是对自己的恐惧:她不会足够仔细地检查输出,她的耐心会耗尽,她对待工作的方式一直都很随意。这种诚实在这些讨论中很罕见,而且它很重要。失败模式不是恶意。它是便利性。它是那种完全人类化的倾向,即接受一个看似合理的答案然后继续往下走,尤其是当你疲惫时,尤其是当截止日期临近时,尤其是当机器以如此自信、格式良好的权威姿态呈现其输出时。问题不在于我们会决定停止思考。问题在于,当我们真的停止思考时,我们几乎不会注意到。
工具使用与认知外包的界线
我并不是在主张大语言模型应该被禁止用于研究。那会很愚蠢,而且这也不是我持有的立场,毕竟我今天早上就用了一个。我主张的是,我们如何使用它们比我们是否使用它们更重要,而且工具使用与认知外包之间的区别是整个对话中最重要的一条界线,但几乎没有人把它画清楚。Matthew Schwartz 可以用 Claude 写论文,因为 Schwartz 已经懂那些物理学。他几十年的经验是捕捉 Claude 幻觉的免疫系统。一个一年级学生使用同样的工具,处理同样的问题,得到同样导师给出的同样反馈,产出了相同的输出,却没有任何理解。论文看起来一模一样。科学家却不是。
在这里我必须对 Bob 公平一点,因为 Bob 并不笨。Bob 正在对他所面临的激励做出理性的回应。学术界是残酷的。不出版就出局的压力不是一种比喻;它是决定职业生涯建立或终结的字面机制。一本经过仔细推敲的专著就能让你拿下博士学位并进入优秀博士后阶段的日子早就一去不复返了。学术界的招聘现在奖励的是出版量。你在博士期间产出的论文越多,你获得有竞争力的博士后职位的机会就越大,这会提高你获得优秀奖学金的机会,进而提高你获得终身教职轨道职位的机会,每一步都在前一步的基础上叠加(这么多层级,几乎就像一座金字塔)。那么,如果一个一年级学生把思考外包给 AI 代理意味着能产出三篇论文而不是一篇,他为什么不这么做呢?这个逻辑无懈可击,直到它不再无懈可击的那一刻。因为奖励早期出版量的同一套职业阶梯,最终会要求一种任何代理都无法提供的东西:识别好问题的能力,知道结果什么时候闻起来不对劲的能力,以及带着只有亲自做过才能拥有的自信去指导别人工作的能力。你不能跳过前五年的学习,还指望能在接下来的二十年里生存下来。如果你想要一份学术生涯,就没有办法逃避不出版就出局的竞赛。但是有一种平衡需要达到,而这需要你做一件当你二十四岁且对未来感到焦虑时最难做到的事情:把长期的理解置于短期产出之上。从来没有人擅长这个。我不确定为什么我们现在就会开始擅长了。
赢在当下与输在未来
五年后,Alice 将会撰写自己的经费申请书,选择自己的问题,指导自己的学生。她会知道该问什么问题,因为她花了一年时间以艰难的方式学习,当你问了错误的问题时会发生什么。她能够面对一个新数据集,并在直觉上感觉到什么时候有些不对劲,因为她培养了那种只有亲自做工作才能获得的直觉,来自调试时那些枯燥的小时,来自浪费在追踪符号错误的下午,来自没有任何总结能够传达的隐性知识的缓慢积累。
Bob 会没事的。他会有份不错的简历。他大概率会有一份工作。他会使用 2031 年版本的 Claude,他会产出结果,而那些结果看起来会像科学。
我不担心机器。机器没问题。我担心的是我们。
如果这篇文章给了你一些思考,并且你想支持更多这样的写作,你可以请我喝杯咖啡。
如果你有 Bluesky 账号并想分享你的想法,你可以在这篇文章的讨论串下留言。
参考文献:
D. W. Hogg, "Why do we do astrophysics?", arXiv:2602.10181, 2026年2月。
N. B. Hogg, "Find the stable and pull out the bolt", 2026年2月。见 nataliebhogg.com。
M. Schwartz, "Vibe physics: The AI grad student", Anthropic Science Blog, 2026年3月。见 anthropic.com/research/vibe-physics.
术语表
| 原文 | 中文 |
|---|---|
| AI agent | AI 代理 |
| Alice | Alice |
| analysis pipeline | 分析流水线 |
| Bob | Bob |
| Claude | Claude |
| David Hogg | David Hogg |
| likelihood function | 似然函数 |
| LLMs | 大语言模型 |
| Matthew Schwartz | Matthew Schwartz |
| Natalie Hogg | Natalie Hogg |
| sign convention | 符号约定 |
此文章由 AI 翻译