2025-05-21

模型为何"思考"：推理时计算的力量

摘要

文章深入探讨了如何让大型语言模型通过推理时计算实现"思考"，从而提升复杂问题求解能力。从心理学类比到计算资源分配，系统性地梳理了思维链、分支搜索、序列修订等技术路径，特别强调了 DeepSeek-R1 等模型证明纯强化学习即可涌现高级推理能力，模型能够自发学会反思、回溯等"顿悟时刻"，为未来推理模型发展指明了方向。

内容框架与概述

文章开篇从多个理论视角阐述了"让模型更长时间思考"的必要性。作者借用卡尼曼的双系统理论，将快速直觉的系统1与慢速深思的系统2类比到模型推理中；同时从计算资源角度指出，CoT 使模型能够根据问题难度灵活分配计算量，突破了传统前向传播的计算限制；潜在变量建模视角则为理解多路径 CoT 搜索提供了概率论基础。这三种视角共同构成了推理时计算的理论基石。

在技术实现层面，文章详细比较了两种核心范式：并行采样与序列修订。并行采样通过 N 选一、束搜索等方法同时生成多个候选解，利用过程奖励模型进行逐步指导，简单直观但受限于模型单次求解能力；序列修订则要求模型迭代反思并纠正错误，明确指向自我改进但存在将正确答案改错的风险。研究表明，简单问题适合纯序列推理，而复杂问题往往需要序列与并行的最优配比。特别值得注意的是，即使在零样本设置下，通过在首个 token 处进行 k 路分支，也能自然触发 CoT 推理路径的涌现。

关于序列修订的实际应用，文章指出自我纠正并非 LLM 的固有能力。简单应用自我纠正会导致性能下降，模型必须依赖外部反馈才能有效改进，这些反馈可来自真值匹配、单元测试、更强模型或人类标注。为此，研究者开发了自纠正学习、递归检查、SCoRe 等专门训练方法，通过价值改进对或多轮 RL 来培养模型的纠错能力。其中 SCoRe 采用两阶段训练：第一阶段仅优化第二次尝试的准确率，避免首次响应退化；第二阶段同时优化两次尝试，最终实现自我纠正能力的显著提升。

在强化学习部分，文章重点分析了 DeepSeek-R1 的成功范式。他们采用两轮 SFT-RL 训练：冷启动 SFT 解决可读性问题；推理导向的 RL 使用格式和准确性两类规则奖励；拒绝采样生成新 SFT 数据并过滤掉低质量 CoT；最终 RL 阶段同时提升推理和非推理能力。关键发现是：纯强化学习无需 SFT 也能涌现高级推理能力，模型会自然学会花费更多思考 token，并展现出反思、回溯等"顿悟时刻"。这些能力不是人工设计的，而是在优化过程中自发涌现的。值得注意的是，DeepSeek 团队坦诚分享了失败尝试：过程奖励模型难以定义每步评分标准且易受奖励作弊影响；MCTS 则因 token 搜索空间过大、训练细粒度价值模型极具挑战性而未能成功。这些负面经验同样珍贵。

文章最后简要提及外部工具使用，如 PAL 和 Chain of Code 将计算、符号推理等任务卸载到代码解释器，进一步扩展了模型的推理边界。整篇文章从理论到实践、从成功经验到失败教训，全面呈现了推理时计算的研究图景。