Dimitris Papailiopoulos (@DimitrisPapail) · 2026-03-03

训练Transformer成为通用计算机

摘要 作者Dimitris Papail描述了他如何训练一个Transformer模型成为一个完全可运行的计算机。他首先通过手工构建证明了Transformer可以执行SUBLEQ这一单指令图灵完备语言,随后尝试用梯度下降训练模型学习执行任意SUBLEQ程序。最终训练出的模型能够在未见过的程序上达到超过99.5%的准确率,证明了梯度下降能够发现一个具有有限内存的CPU,能够解析图灵完备的语言。这项工作早于"测试时计算"概念,展示了通过循环执行而非增加模型规模来扩展计算能力的可能性。

内容框架与概述 文章首先回顾了作者在2022年获得终身教职后的研究转向,他被GPT-3展现出的代码理解能力所吸引,开始思考Transformer是否能真正编译和执行程序,而非仅预测下一个token。接着介绍了SUBLEQ这一单指令语言的特点,以及如何将Transformer的每一层对应到SUBLEQ执行管道的不同阶段,从而在理论上构建一台"Transformer计算机"。最后部分是核心实验:作者尝试用随机状态转换对来训练模型学习执行单条SUBLEQ指令,使模型能够泛化到从未见过的程序,实现了从"构建"到"训练"计算机的跨越。

核心概念及解读 SUBLEQ:一种单指令编程语言,通过"减法并根据结果跳转"这一条指令实现图灵完备的计算能力。 OISC:单指令集计算机,使用最少的指令集实现通用计算的理论模型。 Transformer计算机:将Transformer的每一层分别对应CPU执行管道的读取、运算、存储和分支阶段,实现程序执行。 梯度下降发现CPU:通过训练而非手工设计权重,使模型自动学习通用计算规则。 测试时计算:使用固定参数的模型,通过多次循环执行实现任意复杂度的计算,而非扩大模型规模。


原文信息

字段内容
原文Can You Train a Computer?
作者Dimitris Papailiopoulos (@DimitrisPapail)
发表日期2026-03-03

此摘要卡片由 AI 自动生成