Karpathy:图像或比文本更适合作为 LLM 输入
摘要
Andrej Karpathy在讨论DeepSeek-OCR模型时提出了一个挑战性观点:LLM的输入或许应该从文本转向图像。他认为图像输入具有更高的信息压缩率、更丰富的信息流(如样式、颜色)、支持双向注意力机制等优势,最重要的是可以彻底废弃他深恶痛绝的tokenizer——这个继承了Unicode历史包袱、存在安全隐患的"丑陋中间层"。
内容框架与概述
Karpathy以DeepSeek-OCR论文为引子,将话题引向一个更深层的技术讨论:像素是否比文本token更适合作为LLM的输入。作为一个"暂时伪装成NLP研究者的计算机视觉人",他从自身专业视角出发,对当前LLM的文本输入范式提出质疑。
他系统阐述了图像输入的多重优势:更高效的信息压缩可以缩短上下文窗口、图像能承载文本无法表达的丰富信息(粗体、颜色、任意图像)、以及天然支持更强大的双向注意力机制。其中最激进的主张是"删除tokenizer"——他认为tokenizer是一个丑陋的、非端到端的处理阶段,继承了Unicode的历史包袱,还带来安全风险。
在与网友的互动中,Karpathy也回应了一些质疑。他承认图像的patch处理与tokenization有相似之处,但强调patch来源于真实图像数据,比人为的符号分割更"自然"。最后他打趣说要抑制住开发"纯图像输入版nanochat"的冲动,暗示这一方向值得深入探索。
核心概念及解读
图像输入范式(Image-as-Input):Karpathy提出的核心观点,主张将文本渲染成图像后再输入LLM,从而获得更高的信息密度和处理灵活性。
Tokenizer的历史包袱:指tokenizer继承的Unicode编码复杂性、字节编码问题,以及由此带来的安全隐患(如continuation bytes可被利用进行越狱攻击)。
双向注意力(Bidirectional Attention):与当前LLM主流的自回归注意力不同,图像输入天然支持双向注意力机制,能够更全面地理解上下文关系。
视觉上下文压缩(Optical Context Compression):DeepSeek-OCR论文的核心技术,实现了高达20倍的视觉信息压缩,为图像输入范式提供了效率支撑。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Thread by @karpathy |
| 作者 | @karpathy |
| 发表日期 | 2025-10-20 |
此摘要卡片由 AI 自动生成