Bhambri et al. · 2025-08-31

认知可解释推理痕迹与LLM性能关系研究

近期推理导向的大型语言模型进展主要依赖于引入链式思维(CoT)推理痕迹,模型在产生答案前生成中间推理步骤。这些痕迹不仅用于指导推理,还作为知识蒸馏到小型模型的监督信号。然而,一个普遍但隐含的假设是 CoT 痕迹应对终端用户具有语义意义和可解释性,本研究旨在验证这一假设的准确性。

亚利桑那州立大学的研究团队通过设计包含 DeepSeek R1 原始痕迹、LLM 摘要痕迹、事后解释及算法生成痕迹在内的四种类型,对 100 名参与者进行了严格的人类评估实验。实验采用了 NASA-TLX 量表评估认知负荷,并结合 Mann-Whitney U 检验等统计方法,得出了一个反直觉的核心结论:模型推理性能的提升往往伴随着认知可解释性的降低,即那些导致模型表现最佳的推理痕迹,通常对人类而言最难理解且认知负荷最高。

认知可解释推理痕迹与LLM性能关系研究 全屏