模型为何"思考":推理时计算的力量
摘要
文章深入探讨了如何让大型语言模型通过推理时计算实现"思考",从而提升复杂问题求解能力。从心理学类比到计算资源分配,系统性地梳理了思维链、分支搜索、序列修订等技术路径,特别强调了 DeepSeek-R1 等模型证明纯强化学习即可涌现高级推理能力,模型能够自发学会反思、回溯等"顿悟时刻",为未来推理模型发展指明了方向。
内容框架与概述
文章开篇从多个理论视角阐述了"让模型更长时间思考"的必要性。作者借用卡尼曼的双系统理论,将快速直觉的系统1与慢速深思的系统2类比到模型推理中;同时从计算资源角度指出,CoT 使模型能够根据问题难度灵活分配计算量,突破了传统前向传播的计算限制;潜在变量建模视角则为理解多路径 CoT 搜索提供了概率论基础。这三种视角共同构成了推理时计算的理论基石。
在技术实现层面,文章详细比较了两种核心范式:并行采样与序列修订。并行采样通过 N 选一、束搜索等方法同时生成多个候选解,利用过程奖励模型进行逐步指导,简单直观但受限于模型单次求解能力;序列修订则要求模型迭代反思并纠正错误,明确指向自我改进但存在将正确答案改错的风险。研究表明,简单问题适合纯序列推理,而复杂问题往往需要序列与并行的最优配比。特别值得注意的是,即使在零样本设置下,通过在首个 token 处进行 k 路分支,也能自然触发 CoT 推理路径的涌现。
关于序列修订的实际应用,文章指出自我纠正并非 LLM 的固有能力。简单应用自我纠正会导致性能下降,模型必须依赖外部反馈才能有效改进,这些反馈可来自真值匹配、单元测试、更强模型或人类标注。为此,研究者开发了自纠正学习、递归检查、SCoRe 等专门训练方法,通过价值改进对或多轮 RL 来培养模型的纠错能力。其中 SCoRe 采用两阶段训练:第一阶段仅优化第二次尝试的准确率,避免首次响应退化;第二阶段同时优化两次尝试,最终实现自我纠正能力的显著提升。
在强化学习部分,文章重点分析了 DeepSeek-R1 的成功范式。他们采用两轮 SFT-RL 训练:冷启动 SFT 解决可读性问题;推理导向的 RL 使用格式和准确性两类规则奖励;拒绝采样生成新 SFT 数据并过滤掉低质量 CoT;最终 RL 阶段同时提升推理和非推理能力。关键发现是:纯强化学习无需 SFT 也能涌现高级推理能力,模型会自然学会花费更多思考 token,并展现出反思、回溯等"顿悟时刻"。这些能力不是人工设计的,而是在优化过程中自发涌现的。值得注意的是,DeepSeek 团队坦诚分享了失败尝试:过程奖励模型难以定义每步评分标准且易受奖励作弊影响;MCTS 则因 token 搜索空间过大、训练细粒度价值模型极具挑战性而未能成功。这些负面经验同样珍贵。
文章最后简要提及外部工具使用,如 PAL 和 Chain of Code 将计算、符号推理等任务卸载到代码解释器,进一步扩展了模型的推理边界。整篇文章从理论到实践、从成功经验到失败教训,全面呈现了推理时计算的研究图景。
核心概念及解读
思维链:在生成最终答案前先生成中间推理步骤的策略,使模型能够根据问题难度使用可变数量的计算资源,显著提升数学、逻辑等复杂任务的求解能力。
并行采样:同时生成多个输出并通过评分函数选择最优样本,包括 N 选一、束搜索等方法,适合在模型具备一定单次求解能力时提升质量。
序列修订:要求模型迭代反思并纠正过往响应中的错误,需要专门训练(如 SCoRe)才能有效实现,否则容易出现将正确答案改错等问题。
Aha 时刻:在纯强化学习训练过程中自发涌现的高级推理行为,模型学会反思之前的错误并尝试其他方法进行纠正,这种反思和回溯能力不是人工设计的,而是在优化过程中自然产生的。
过程奖励模型:用于评估推理过程中每个中间步骤正确性的模型,可指导束搜索等解码算法,但实践中难以定义评分标准且容易受到奖励作弊影响。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | 模型为何“思考”Rosetta |
| 作者 | |
| 发表日期 | 2025-05-21 |
此摘要卡片由 AI 自动生成