2025-09-07

为何语言模型会产生幻觉

摘要

OpenAI最新研究论文指出,语言模型产生幻觉(自信地生成错误答案)的根本原因在于当前的训练和评估体系奖励猜测行为而非承认不确定性。准确率导向的评估标准激励模型"蒙答案"而非说"我不知道"。研究表明幻觉并非不可避免,模型可以通过在不确定时选择弃权来减少错误。解决方案是改革评估指标,对自信的错误答案施加更大惩罚,并对表达不确定性给予部分分数。

内容框架与概述

文章开篇定义了幻觉现象——语言模型生成看似合理但实际错误的陈述,并以询问论文作者生日和博士论文题目为例,展示了即使是简单问题也会产生多个自信但错误的答案。

核心论述分为两部分。第一部分剖析评估机制如何助长幻觉:当前主流评估只计算准确率,类似于多选题测试中猜对得分而空白不得分的规则,这激励模型猜测而非承认无知。文章通过gpt-5-thinking-mini与o4-mini的对比数据说明,后者准确率略高但错误率高达75%,而前者通过52%的弃权率将错误率控制在26%。第二部分解释幻觉的技术根源:预训练阶段的下一词预测任务中,拼写和括号匹配等遵循一致模式的规则可随规模扩展而消除错误,但低频任意事实(如某人的生日)无法从模式中推断,因此不可避免地导致幻觉。

文章最后澄清了五个常见误解:幻觉不会因准确率提升而完全消除(因某些问题本质上无法回答)、幻觉并非不可避免(模型可以弃权)、避免幻觉不一定需要更大模型(小模型更容易知道自己的局限)、幻觉机制已被统计学理解、单一幻觉评估无法对抗数百个准确率评估的影响。

核心概念及解读

幻觉(Hallucinations):指语言模型自信地生成看似合理但实际错误的陈述,这是所有大型语言模型面临的根本挑战,即使GPT-5也未能完全消除。

准确率陷阱(Accuracy-only Scoreboard):当前主流评估仅关注正确率,将答案简单二分为对错,忽视了"弃权"这一选项的价值,导致模型被激励猜测而非表达不确定性。

弃权(Abstention):模型在不确定时选择不给出具体答案的行为,是OpenAI"谦逊"核心价值观的体现,其Model Spec明确指出表达不确定性优于提供可能错误的自信答案。

预训练的局限性:模型通过海量文本的下一词预测学习语言模式,但这种无监督学习无法区分有效与无效陈述,对于不遵循规律的低频事实只能产生统计性猜测。

校准(Calibration):模型准确评估自身置信度的能力,研究指出实现校准所需计算量远小于实现准确,这意味着小模型也能有效避免幻觉。


原文信息

字段内容
原文Why language models hallucinate
作者
发表日期2025-08-27

此摘要卡片由 AI 自动生成