Dimitris Papailiopoulos (@DimitrisPapail) · 2026-03-03

训练Transformer成为通用计算机

摘要作者Dimitris Papail描述了他如何训练一个Transformer模型成为一个完全可运行的计算机。他首先通过手工构建证明了Transformer可以执行SUBLEQ这一单指令图灵完备语言，随后尝试用梯度下降训练模型学习执行任意SUBLEQ程序。最终训练出的模型能够在未见过的程序上达到超过99.5%的准确率，证明了梯度下降能够发现一个具有有限内存的CPU，能够解析图灵完备的语言。这项工作早于"测试时计算"概念，展示了通过循环执行而非增加模型规模来扩展计算能力的可能性。

内容框架与概述文章首先回顾了作者在2022年获得终身教职后的研究转向，他被GPT-3展现出的代码理解能力所吸引，开始思考Transformer是否能真正编译和执行程序，而非仅预测下一个token。接着介绍了SUBLEQ这一单指令语言的特点，以及如何将Transformer的每一层对应到SUBLEQ执行管道的不同阶段，从而在理论上构建一台"Transformer计算机"。最后部分是核心实验：作者尝试用随机状态转换对来训练模型学习执行单条SUBLEQ指令，使模型能够泛化到从未见过的程序，实现了从"构建"到"训练"计算机的跨越。

核心概念及解读 SUBLEQ：一种单指令编程语言，通过"减法并根据结果跳转"这一条指令实现图灵完备的计算能力。 OISC：单指令集计算机，使用最少的指令集实现通用计算的理论模型。 Transformer计算机：将Transformer的每一层分别对应CPU执行管道的读取、运算、存储和分支阶段，实现程序执行。 梯度下降发现CPU：通过训练而非手工设计权重，使模型自动学习通用计算规则。 测试时计算：使用固定参数的模型，通过多次循环执行实现任意复杂度的计算，而非扩大模型规模。

原文信息

字段	内容
原文	Can You Train a Computer?
作者	Dimitris Papailiopoulos (@DimitrisPapail)
发表日期	2026-03-03

此摘要卡片由 AI 自动生成

Latent.Space · 2026-03-03

›

训练Transformer成为通用计算机

原文信息

目录