动物与幽灵
动物可能是一个很好的灵感来源。内在动机、乐趣、好奇心、赋能、多智能体自我博弈、文化。
Andrej Karpathy在本文中探讨了人工智能领域中“动物”智能与大语言模型(“幽灵”)的差异,反思了学习机制、进化和预训练的本质,并提出动物或许能为AI带来新的灵感和范式。
- 作者:Andrej Karpathy
- 日期:2025年10月2日
终于有机会听完了这期Dwarkesh与Sutton的播客,既有趣又发人深省。
首先介绍一下背景,Sutton的《苦涩的教训》(The Bitter Lesson) 已成为前沿大语言模型(LLM)领域的圣经。研究人员经常讨论并质疑某种方法或想法是否足够“汲取了苦涩教训”(即,是否能通过增加计算量而自然受益),以此来判断其是否可行或值得追求。其基本假设是,大语言模型当然非常“汲取了苦涩教训”,只需看看大语言模型的扩展定律即可——将计算量置于x轴,性能指标便会一路上扬。因此,有趣的是,这篇文章的作者Sutton本人却不那么确定大语言模型是否真的“汲取了苦涩教训”。它们是在根本上属于人类的庞大数据集上训练出来的,这些数据既是1)人类生成的,也是2)有限的。当数据耗尽时该怎么办?如何避免人类偏见?所以你看,信奉“苦涩教训”的大语言模型研究者们,反倒被“苦涩教训”的提出者给驳倒了——真够呛!
从某种意义上说,Dwarkesh(在播客中代表大语言模型研究者的观点)和Sutton有些鸡同鸭讲,因为Sutton心中的架构与大语言模型截然不同,而大语言模型打破了他很多原则。他称自己为“古典主义者”,并援引了艾伦·图灵最初构建“儿童机器”的概念——一个能够通过与世界动态互动从经验中学习的系统。这里没有模仿网页的大规模预训练阶段,也没有监督微调,他指出这在动物界是不存在的(这是一个微妙的观点,但Sutton的看法在根本上是正确的:动物当然会观察演示,但它们的行为并不会被其他动物直接强迫或“遥控操作”)。他提出的另一个重点是,即使你只将预训练视为强化学习微调之前的先验初始化,Sutton也认为这种方法受到了人类偏见的污染,从根本上偏离了轨道,有点像AlphaZero(从未见过人类围棋对局)击败AlphaGo(从人类对局中初始化)一样。在Sutton的世界观里,一切都只是通过强化学习与世界互动,其中奖励函数部分是特定于环境的,但也有内在动机,例如“乐趣”、“好奇心”,以及与世界模型预测质量相关的因素。而且,智能体在测试时默认是始终在学习的,而不是训练一次就部署。总的来说,Sutton对我们与动物界的共同点比我们之间的区别更感兴趣。“如果我们理解了一只松鼠,我们就几乎大功告成了。”
至于我的看法……
首先,我必须说,我认为Sutton是这期播客的绝佳嘉宾,我喜欢人工智能领域保持思想的熵增,而不是所有人都去利用大语言模型的下一个局部迭代。人工智能经历了太多主流方法的离散转变,不能失去这一点。而且我也认为,他对大语言模型没有“汲取苦涩教训”的批评并非毫无道理。前沿的大语言模型现在是高度复杂的产物,在各个阶段都涉及到大量的人为因素——基础(预训练数据)是全人类的文本,微调数据是人类策划的,强化学习的环境组合是由人类工程师调整的。我们实际上并没有一个单一、简洁、真正“汲取了苦涩教训”的、“一劳永逸”的算法,可以将其释放到世界上,看它仅从经验中自动学习。
这样的算法真的存在吗?找到它无疑将是人工智能的一大突破。人们通常会举出两个“例证”来论证这种可能性。第一个例子是AlphaZero完全从零开始,在没有任何人类监督的情况下学会下围棋的成功。但围棋显然是一个过于简单、封闭的环境,很难将其类比到混乱的现实世界中。我喜欢围棋,但从算法和分类上讲,它本质上是井字棋的更难版本。第二个例子是动物,比如松鼠。在这方面,我个人也相当犹豫,怀疑这是否恰当,因为动物是通过与我们在工业界实际可用的截然不同的计算过程和约束条件产生的。动物的大脑在出生时远非一张白纸。首先,很多通常被归因于“学习”的东西,在我看来更多的是“成熟”。其次,即使是那些明确属于“学习”而非“成熟”的部分,也更像是在某种强大且预先存在的基础上进行“微调”。例如,一只小斑马出生后几十分钟内就能在热带草原上奔跑并跟随它的母亲。这是一个高度复杂的感觉运动任务,我绝不认为这是从零开始、白板一块就能实现的。动物的大脑及其数十亿个参数,其强大的初始化编码在其DNA的ATCG序列中,并通过进化过程中的“外循环”优化进行训练。如果小斑马像强化学习策略在初始化时那样随机抽动肌肉,它根本走不了多远。同样,我们现在的人工智能也有数十亿参数的神经网络。这些参数需要它们自己丰富的、高信息密度的监督信号。我们不会去重演进化。但我们确实有堆积如山的互联网文档。是的,这基本上是动物界所~缺乏的监督学习。但这是为数十亿参数实际收集足够软约束的一种方法,试图达到一个非从零开始的起点。长话短说:预训练是我们蹩脚的进化。它是解决冷启动问题的一个候选方案,随后再在看起来更正确的任务上进行微调,例如在强化学习框架内,正如当前最先进的前沿大语言模型实验室普遍在做的那样。
我仍然认为从动物身上汲取灵感是值得的。我认为大语言模型智能体在算法上仍然缺少一些可以从动物智能中借鉴的强大思想。而且我仍然认为“苦涩的教训”是正确的,但我更多地将其视为一种柏拉图式的追求,而不一定是在我们现实世界中能够实际达到的目标。我说这两点时都有两位数的百分比不确定性,并为那些持不同意见者的工作喝彩,特别是那些在“苦涩教训”方面更有雄心的人。
这就引出了我们目前的处境。坦率地说,当今前沿的大语言模型研究并非旨在构建动物,而是在召唤幽灵。你可以将幽灵视为可能智能空间中一种截然不同的存在。它们被人类的特性所混淆,并被人类彻底地工程化。它们是这些不完美的复制品,一种人类文档的统计蒸馏,外加一些点缀。它们并非柏拉图式地“汲取了苦涩教训”,但至少与之前的大多数事物相比,它们或许是“实践上”汲取了苦涩教训。在我看来,随着时间的推移,我们有可能将我们的幽灵朝着动物的方向进一步微调;这与其说是一种根本的不兼容,不如说是智能空间中的初始化问题。但它们也很有可能进一步分化,最终变得永久不同,不像动物,但仍然极具帮助并能真正改变世界。幽灵之于动物,或许就像飞机之于鸟儿。
总之,概括而言并从可操作的角度来看,我认为这期播客是Sutton对前沿大语言模型研究者们说的“实在话”,他们可能在利用现有模式上有些过度了。或许我们仍然没有足够地“汲取苦涩教训”,除了详尽地构建和优化基准测试之外,很可能还存在更强大的思想和范式。而动物可能是一个很好的灵感来源。内在动机、乐趣、好奇心、赋能、多智能体自我博弈、文化。发挥你的想象力吧。
附录
-
我同意Sutton的观点,即动物不做监督学习。我意识到这是一个微妙的观点,会使很多人感到困惑。动物确实会观察演示,但严格来说,它们的行为并没有像监督学习那样受到直接监督。动物在训练模式下从未被“遥控操作”。我能想到的最接近的例子是,比如你通过握着孩子的手教他们用勺子吃饭。即便如此,也不清楚他们的大脑是否真的在就此进行训练。这可能仍然属于更准确地描述为“观察”的范畴。但无论如何,这些情况总体上非常罕见,而对于大语言模型来说,这却是预训练和监督微调(SFT)期间的默认学习模式。也许另一种说法是,在人类世界中,大语言模型领域的类似做法是:给定这道数学题和上下文中的人类解题示例,解决这个问题。如果正确,奖励为1。这不是监督微调,而是强化学习。
-
Dwarkesh曾简要提出,大语言模型在测试时确实有自己的持续学习,只是并非基于权重训练,但我认为Sutton没有完全回应这一点。语境学习是一种测试时适应的形式,例如,这也是小样本提示(few-shot prompting)之所以有效的原因。最近的很多工作也对记忆(想想CLAUDE.md文件)非常感兴趣,将其作为一种测试时学习的机制,使用文本/上下文而非权重作为基底。
-
Dwarkesh举了关于超长时程稀疏奖励(例如,创建一个成功的创业公司)的例子,以及这可能如何运作。Sutton提出的解决方案是时间差分学习和本质上的未来奖励折扣,我觉得这并不是特别有说服力。我之前对此写过一些东西,我认为还有其他机制在起作用,而且在我看来那不是强化学习。
-
播客中有很多关于“梯度下降不会让你泛化得很好”以及相关讨论,我没有深入理解。
-
有人指出幽灵很吓人。不一定,看看我童年最爱的“鬼马小精灵”卡斯帕。
由 Bear ʕ•ᴥ•ʔ 驱动