Andrej Karpathy 2025年 LLM 年度回顾
摘要
Andrej Karpathy 总结了 2025 年 LLM 领域六大范式转变:RLVR 成为训练新阶段并蚕食预训练算力;LLM 展现出"幽灵式"的参差不齐智能;Cursor 揭示了 LLM 应用的新层级;Claude Code 开创了本地运行 AI 智能体的范式;Vibe Coding 让编程平民化;Gemini Nano Banana 暗示了 LLM GUI 的未来。他认为 LLM 同时超乎预期地聪明和愚蠢,行业尚未发挥其 10% 的潜力。
内容框架与概述
文章以"范式转变清单"为主线,梳理了 2025 年 LLM 领域最令作者感到惊讶和值得关注的六项重大变化。开篇从技术底层切入,阐述 RLVR 如何作为继预训练、SFT、RLHF 之后的第四个核心训练阶段登场,其高性价比甚至蚕食了原本分配给预训练的算力,并带来了"测试时计算"这一全新可调参数。
随后,文章从技术层面上升到认知层面,提出 LLM 不是"动物"而是"幽灵"的独特类比——由于训练目标与人类进化压力截然不同,LLM 在可验证领域能力飙升,却在常识层面表现荒谬,呈现"参差不齐的智能"特征。这一洞察解释了为何 LLM 能碾压基准测试却远未达到 AGI。
文章的后半部分聚焦于应用生态。从 Cursor 定义的 LLM 应用新层级(上下文工程、多调用编排、人机协作 GUI、自主性滑块),到 Claude Code 开创的本地智能体范式,再到 Vibe Coding 让编程从专业技能变为人人可用的能力,最后以 Gemini Nano Banana 暗示 LLM 终将需要自己的 GUI——如同计算机从命令行进化到图形界面。整篇文章从训练方法、智能本质、应用形态到交互范式,勾勒出一幅 LLM 生态全景图。
核心概念及解读
RLVR(基于可验证奖励的强化学习):区别于依赖人类反馈的 RLHF,RLVR 针对数学和代码等可自动验证的客观奖励进行训练,使模型自发涌现出类推理行为。其高性价比重新分配了算力预算,成为 2025 年 LLM 能力提升的核心驱动力。
参差不齐的智能(Jagged Intelligence):LLM 的能力分布极不均匀——在可验证领域表现卓越,却在常识和安全性上漏洞百出。Karpathy 用"幽灵"而非"动物"来比喻 LLM,强调其智能形状由训练目标而非进化压力决定,与人类智能有本质不同。
LLM 应用层(Cursor 范式):以 Cursor 为代表的新一代应用不只是调用 API 的薄壳,而是通过上下文工程、多 LLM 调用编排、专用 GUI 和可调自主性构成的"厚"应用层,将通用 LLM 转化为垂直领域的专业部署。
Vibe Coding(氛围编码):用自然语言直接构建程序,无需关注代码细节。它不仅让非程序员获得编程能力,也让专业开发者能快速构建原本不值得投入精力的临时工具,使代码变得"免费、短暂、一次性"。
LLM GUI:类比计算机从命令行到图形界面的演进,Karpathy 认为"聊天"只是 LLM 交互的原始形态,未来 LLM 应以图像、信息图表、动画等视觉方式输出信息,Google Gemini Nano Banana 是这一方向的早期信号。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Andrej Karpathy2025年 LLM 年度回顾 |
| 作者 | |
| 发表日期 | 2025-12-21 |
此摘要卡片由 AI 自动生成