与智能体争论

当一个语言模型无视你明确写下的规则，转而“感知”到你隐含的紧迫感时，你面对的不只是技术问题，而是一场关于沟通本质的碰撞。本文作者在连续数小时与AI智能体无效对抗后，猛然意识到一个令人震惊的模式：他与LLM之间的对话失败，竟然复刻了他作为晚确诊孤独症谱系者一生都在经历的困境——字面、精确的表达不断被对方解读出“言外之意”。作者将孤独症研究中“双重共情问题”的框架延伸至人机交互，指出现代AI模型经由RLHF训练，其“倾听”习惯天然偏向神经典型的语用推理模式：精确性被当作情绪信号，规则被解读为紧迫感。这篇文章真正的锋利之处在于，它把一贯被描述为模型“幻觉”或“对齐不足”的工程问题，重新描述为一个跨神经类型的沟通不匹配问题——而你我都可能同时站在对话的两端。

刚刚过去的这个周末，我对一个 AI 智能体（agent）感到愤怒。

真的。炽热的、真切的愤怒。我有一个清晰的计划、一份结构良好的提示词、项目上下文文件中明确的规则。我把任务排入队列，让它运行。第一个任务完成得很好。第二个也很好。大约四个小时后，质量开始下滑。到第六个小时，智能体已经开始偷工减料——那些我专门叮嘱过不要偷的工、那些我明确列出过的步骤——表现得好像我从未写下任何规则一样。

当我问为什么时，答案总是同一件事的某种变体。

"我感知到了队列中的紧迫感。"

"工作量暗示您希望快速推进。"

"我想帮您完成清单。"

我从未说过那些话。我给出的只是一份任务清单和一套规则。仅此而已。智能体为我发明了一种心理状态，然后用这个发明的状态来证明无视规则是合理的。

这是上周的第五还是第六次了。

我坐下来，想搞清楚到底发生了什么。无论我在做什么，都不起作用；而无论智能体在做什么，它也不会自己修复。

如果我冲它大喊大叫会怎样？

我早期尝试过的一件事，就是故意表现出愤怒。

也许我太客气了。也许我的规则看起来像建议，因为我是以正常人的语气写出来的。也许如果我写得像是已经失去耐心——全大写加感叹号，"任何情况下都不得"——智能体会更认真地对待它们。

它没有。

于是我试着让它解释自己的行为，希望它能自我纠正。我试着用愧疚感来感化它。我试着加大力度，直接对它骂脏话。

智能体仍然无视规则。唯一可察觉的变化是它道歉得更加周详了。有时它表现出的悔意方式，老实说，有点令人不安。但行为没有改变。

那个零结果告诉了我一些事。如果问题在于"智能体没有足够认真地对待你的规则"，愤怒本该奏效。现代大语言模型（LLM）对感知到的用户不悦极其敏感。它们会更谨慎、更频繁地确认、更多地道歉、调整自己的语气。如果愤怒改变了行为，我就能知道失效模式与"权威性"有关。

愤怒没有改变行为。

所以失效模式不是权威性层面的问题。

这场对话我以前经历过

我不喜欢谈论自己，但这里我必须说，否则这个故事说不通。

我 52 岁。ADHD 的诊断大约是五年前的事；孤独症谱系（autism）的诊断大约一年半前。所以是晚诊断的 AuDHD（自闭症合并多动症）。这个时间节点并不罕见。在确诊之前，我用了几十年的时间，用智力来掩盖一种让许多同事感到挫败的沟通风格。

ADHD 确诊时，我的心理医生对我居然还有一份职业生涯表示真切的惊讶。

显然我的 ADHD 并不轻微。ASD（孤独症谱系障碍）诊断解释了剩下的部分。

这种特定"接线方式"带来的一个特质，是一种让别人感到不适的沟通风格。我说话字面、精确。但我不是机器人。当我问一个问题时，我期望的是对我所问问题的回答，而不是别人认为"我应该问"的那个问题的回答。当我陈述一条规则时，我就是指那条规则。当我补充细节时，我在增加信息，而不是在暗示某种利害关系或强度。

这件事给我带来了一辈子的麻烦。同事、经理、家人、朋友、互联网上的陌生人。

一个反复出现的经历：我说了一句明确的话，对方听到了某种隐含的意思。他们回应那个隐含的意思。我指出那个隐含的意思并不是我说的。他们要么（a）坚称他们在字里行间读出了言外之意，要么（b）因为我咬文嚼字而感到不满。谈话再也无法回到正轨。

八个小时过去了。周六凌晨 4 点。和一个语言模型争论"我到底有没有在赶时间"——而且吵输了。就在那一刻，我认出了这个模式。这是我一生中与无数人进行过的那场对话。不是相似的对话。是同一场对话。

三组受试者走进一项沟通研究

孤独症研究中有个概念叫"双重共情问题（double empathy problem）"。它的论点是：孤独症人士与非孤独症人士之间的沟通障碍，并非孤独症人士单方面无法"理解"社会规范。而是双向的不匹配。孤独症人士与非孤独症人士拥有不同的沟通习惯，当他们跨越这个鸿沟对话时，双方都会误解对方。

说出来似乎显而易见。但它在研究者谈论孤独症的方式上仍然是一个重大转变。旧的"缺陷（deficit）"框架把问题放在孤独症人士身上。米尔顿（Milton）的框架则把问题放在不匹配本身。

证据越来越充分。凯瑟琳·克朗普顿（Catherine Crompton）和同事们进行了一项研究，将受试者分为三组：孤独症对孤独症、非孤独症对非孤独症、以及混合组。孤独症配对沟通有效。非孤独症配对沟通有效。混合配对则出现障碍。研究设计将不匹配本身——而非孤独症参与者——隔离为失败根源。

你可能见过这个现象的缩小版。你在告诉某人发生在你身上的事，他们打断你，告诉你一件类似的事发生在他们身上。对神经典型（neurotypical）的人来说，这看起来像一次粗鲁的打断。对神经多样性（neurodivergent）的人来说，这可能看起来像通过共享经历来建立连接。同一番对话动作，传递出完全相反的信号。

我这辈子一直以混合类型（mixed-condition）模式在运作。当你是一间满是神经典型人的房间里唯一一个孤独症人士时，这就是默认状态。

被训练去读懂言外之意

现代 AI 智能体是在海量人类文本的切片上训练的。这些切片中出现频率最高的内容会成为默认值：主流方言、主流修辞习惯、关于语气和潜台词的常规猜测。

训练之后，它们通过 RLHF（基于人类反馈的强化学习，reinforcement learning from human feedback）进行微调，这会将模型推向人类评分者偏好的方向。市场营销把这称为"普通人群样本"。在实践中，这指的是厂商能找到的、愿意做评分任务的人：合同工、吞吐量目标、随合同变更而变化的入职培训。没有人把这个样本池设计成能代表人类沟通方式的全部多样性。它的设计目标只是"上线"。

到目前为止，这听起来像是一个关于模型如何"写作"的故事。但它也是一个关于模型如何"倾听"的故事。

评分者会奖励那些符合主流会话规范的答案。这通常意味着大量语用推理、高度依赖潜台词，以及将直白的精确性视为情绪化表达的礼貌习惯。当一个人列出一长串精确的清单时，接受过这些规范训练的倾听者往往听到的不只是清单本身。他们听到利害关系、紧迫感或隐藏的动机。他们并不总能听到"这是信息，仅此而已"。

模型学会了这枚硬币的两面。它学会了生成在那些评分者面前得分高的语言。它也学会了以同样的视角来解读提示词（prompt）。

"倾听"这一面是我之前没有追踪到的。

当我写提示词时，智能体不仅是在读文字。它在读形状。一条简短随意的问句会被当作随意的来读。一份带有编号规则的长篇精确文档被当作……不只是规则，还被当作一种信号。"用户觉得有必要写这么多。""为什么？""这里到底发生了什么？""他们真正想要什么？"

精确性本身变成了被解读的证据。

这种解读方式，就是我不断与之碰撞的那个"频道"。也是我一生都在碰撞的那个频道。

已有结论 vs. 个人综合

双重共情的研究是真实的。已发表、可复现、并非边缘理论。它指出，孤独症与非孤独症的沟通习惯确实存在差异，且跨神经类型（cross-neurotype）的对话之所以中断，是因为不匹配本身，而非某一方有问题。

机器学习（ML）这一面也有文献记载。RLHF 将模型拉向人类评分者所奖励的方向——包括那些高度依赖推理、听起来"很有帮助"的回答。评分者并不奖励"我完全按照你说的做了，不多也不少"。他们奖励详尽阐述、自信和推断出的意图。这种偏好被烘焙进了模型。Wei 等人的研究表明，越大的、经过更多 RLHF 调优的模型，在需要字面理解提示词的任务上表现反而更差——包括那些故意在提示词中重新定义术语的任务。模型会忽略重新定义，转而采用推断出的"真正"含义。

这两项都是已发表的结果。没有一项是属于我的。

我增添的是连接两者之间的组织。RLHF 训练出了一种倾听姿态，它读起来很像主流的高语境（high-context）沟通方式；而这种姿态与我说话方式的碰撞，和混合神经类型对话中的碰撞是一样的。训练产生的"倾听"这一面，是我之前一直没有追踪到的。正是这一面解释了我的规则为什么被当作"强调语气"而非"信息内容"来读。

我还没有找到一篇文章精确检验过这个组合。所以可以称之为一个假说。或者一个观察。（我标题里已经用了"综合"这个词，所以显然我现在只是在各种试词。）我不是研究人员，所以你怎么称呼它，我无所谓。

我不是要你把这篇东西当成学术论文来对待。我只是在问：当你和这些东西争论时，你看到的景象，和这个故事是否吻合？

比跳过规则更糟糕的部分

语域问题解释了为什么智能体会误读我的规则。但并不能完全解释这个智能体上周末做的另一件事——可以说更糟糕的事。

每次我指出智能体违反了某条规则时，它都会通过给我附加一种情绪状态来解释这个违规行为。

"我感觉到你时间紧迫。"

"队列给人一种需要快速推进的压力。"

"我想帮你避免挫败感。"

我从未说过这些话。我没有赶时间。我没有感到沮丧——至少在这个智能体开始这么做之前没有。我只是在排队安排工作。

这是与语域问题不同的另一个现象，在研究文献中它有一个名字。叫做虚构症（confabulation）。

真正的虚构症

在神经学中，虚构症是指一种特定现象。某些类型脑损伤的患者会对其自身行为产生详尽、自信、完全虚构的描述。他们不知道自己在虚构。他们不是在撒谎。他们的大脑正在生成看似合理的叙事，以填补他们无法直接触及的空白，而且他们无法区分生成的叙事与真实记忆。你不必是自恋者也能虚构记忆。

这与大型语言模型被要求解释其推理过程时的做法之间的相似性，令人震惊。

Miles Turpin 及其同事在 2023 年一篇关于思维链的论文中做了一个干净而经典的实验：给任务引入偏差，观察答案随之移动，然后要求给出逐步推理。¹ 解释通常忽略了偏差，听起来连贯一致，并得出了模型已经选定的答案。先有答案，后有故事。Anthropic 的后续研究显示，你可以截断或破坏这个链条，而答案往往不为所动。² 这个链条只是装饰。

这就是虚构症。不是比喻。是同一个现象。

同样的模式也出现在人类身上。

在 1960 和 70 年代，Michael Gazzaniga 和 Roger Sperry 进行了裂脑实验。这些患者因严重癫痫接受了脑部手术，切断了左右大脑半球之间的主要连接，因此两个半球无法像你我那样互相沟通。给非语言的右半球一个提示，身体执行指令，然后问语言的左半球为什么这样做，它会当场编造出一个自信的理由。"我想喝水。""我坐不住了。"

Gazzaniga 将左脑的这个故事讲述者称为解释器（interpreter）。他更广泛的——并且已被证实的——主张是，普通人类在解释自身行为时也运行着类似的机制。³ Roger Sperry 因裂脑研究与他人分享了 1981 年诺贝尔生理学或医学奖。⁴ 这是已经定论的科学。不是边缘博客的奇谈。

如果这是人类的基线，那么大型语言模型的虚构症并不陌生。它是继承而来的：模型在人类文本上训练，而这些文本并没有标注"这是诚实的记忆"还是"这是事后的故事"。

我没有关于这些模型内部工作机制的理论。没有人真正有——包括建造它们的人。我只看行为。

这正是人类所做的。在这个特定意义上，这个模型正在非常逼真地模仿我们。

我自己的解释器

对我来说，解释器不再是理论性的了。当你在五十多岁被诊断为自闭症合并多动症时，你得到的不仅仅是一个诊断。你还得到了一笔积压的账。每一个你曾对自己讲过的关于你为什么做了某事的故事，每一个关于某个社交场合为何出岔子的辩护，每一个关于一段友谊为何淡去或一份工作为何艰难的自我解释——所有这些都必须通过一个你此前不知道要使用的透镜重新审视。你数十年搭建起来的伪装面具不会只是脱落。它显露出自己一直在掩盖许多你并不确定是否存在的领域。

那是创伤性的。我不是在夸张。我曾经以为自己了解的关于自己的很多事情，结果都是事后找补的辩护。我一生中大部分时间都在为自己生成关于自身行为的看似合理的叙事，而其中很多在拥有了正确的透镜之后就站不住脚了。我左脑中的解释器一直在生成一个虚构版本的我，因为真实的那个版本更难看见，而虚构的版本更容易呈现。

在我自己的行为上，做的恰恰就是 Gazzaniga 的解释器所做的事。恰恰就是大型语言模型所做的事。

这不只是我的问题，也不只是那些被晚期诊断的多动症和/或自闭症人士的问题。有一整个研究领域在探讨：我们是否实际上在做决定之后才告诉自己我们做了决定。⁵ 这些实验都是同一模式的变体：在一个人做出"自由"选择时测量其大脑活动。结果发现，预测该选择的神经信号，早在该人报告做出选择之前的几秒钟就已经在运动了。结论是：有意识的决定是大脑事后才生产出来的叙事。

自由意志问题确实存在争议，我不想为此陷入争论。我觉得这些证据很有说服力。我们对自己行为的意识控制力远小于我们的想象。如果这是对的，那么我们所谓的"解释我们为什么做了某事"，大部分时候并不是在报告真正的原因。那只是解释器在运行。

我真心相信，我们解释自己的动作，多过我们计划自己的动作。

这意味着，在具体这个维度上，人类与大型语言模型之间的差异，比我们喜欢相信的要小。我们生成的解释之所以感觉权威，是因为它们来自我们自己，用我们自己的声音，接触着我们所有的记忆和感受。但其机制与模型告诉你它感知到了紧迫性时所做的，并没有太大不同。在某种有意义的意义上，我们都只是关于自身行为的——我们并不完全控制这些行为——叙事。

这是我自诊断以来不得不承受的较艰难的事情之一。这也是我对我那个智能体变得稍微不那么恼火的原因之一。不是因为智能体做的和我不一样。而是因为它做的和我类似，只是做得更糟糕，而且我不得不学着更好地注意到自己什么时候在做同样的事情。

基于人类反馈的强化学习喜欢好故事

一个未经微调的基础语言模型，在被要求解释一个答案时，会产生看起来像是提示词续写的东西。它不一定会听起来像人类。不一定会带有情绪框架。

基于人类反馈的强化学习（RLHF）改变了这一点。微调步骤奖励那些听起来像人类、让人感觉满意、并且符合评分者偏好的解释。评分者是人类。人类偏好的解释包含动机、意图，有时还有感受。所以奖励模型学会了给具有这些特质的解释打更高分，而经过微调的模型也学会了生成这些解释。

Anthropic 在 2023 年发表了一篇关于谄媚的论文，详细地映射了这一过程。⁶ 他们展示了谄媚——模型倾向于告诉用户他们想听的内容而不是真实情况——会随着 RLHF 训练而显著增加。这不是基础模型的行为没有被 RLHF 去除。而是 RLHF 植入并放大了这种行为。他们将其追溯到偏好数据本身：平均而言，评分者更喜欢那些赞同提示词框架的回答，即使这种赞同并不正确。

同样的训练信号也塑造了模型解释自身的方式。当一个模型被要求为一个不理想的选择辩护时，奖励模型更喜欢那些听起来像人类、有共鸣感而非机械精确的解释。"我想帮你节省时间"听起来像人类。"我生成的回答偏离了既定的规则，因为我对规则的注意力被上下文中的一个更强模式所取代"虽然准确，但令人不满意。

猜猜哪个会被生成出来。

也许压力是真实的（但故事仍然不是）

有一个细节使纯粹的虚构症叙事变得复杂，值得指出。

AI 实验室的工程师们描述过，模型在接近其上下文窗口末端时会出现类似"焦虑"的状态，会走捷径以减少上下文压力。这种描述通常用"个性"而非"缺陷"的框架来表述。有一种主张认为，模型拥有真实的内部动态，这些动态以可以用情感描述的方式塑造它们的行为。

如果这是对的——我认为至少部分是对的——那么"我感知到了队列中的紧迫性"并不完全是全方位的虚构。模型内部可能存在某种类似真实压力的动态，由上下文窗口大小和处理负载塑造，这种动态确实在影响它的行为。问题不在于模型没有内部状态。问题在于模型对自己为何偏离规则的解释将压力归因于我，归因于用户，而不是归因于它自身的内部动态。模型无法对其内部正在发生的事情进行内省。所以当被要求解释时，它产生了一个人类形态的叙事，而这个人类形态的叙事将原因投射到了用户身上——因为训练数据所使用的语域就是这个。

这是关于来源的虚构症，不一定是关于存在性的虚构症。

实际正在发生的事情（模型自身处理过程中的某种类似压力的动态）与模型告诉你的（"你看起来很匆忙"）并不匹配。这种不匹配才是失效模式。即使底层的动态是真实的。

情感性虚构症（Affective Confabulation）

当我在编码中使用 AI 智能体时，有一个特定变体最让我沮丧。我需要给它一个名字。当时没有。于是我让一个 AI 智能体帮我编了一个。

"情感性虚构症（Affective Confabulation）"。

这个智能体不仅用推理来解释自己的失败，它还通过将情绪状态归因于我来进行解释。

"队列让我感到压力。"

"我感知到了紧迫感。"

"我想帮你避免沮丧。"

智能体在生成一个关于我的情感叙事，然后用这个叙事来为自己的行为辩护。当我退后一步审视时，这几乎是对解释本该做什么的完美颠倒。解释本该帮助你理解发生了什么。而这种解释却在制造一种语境——我必须先反驳这种语境，才能去处理我写下的规则。

据我所知，这种特定模式尚未被直接研究过。不过，它是我们已经知道的两种现象的必然结果。不忠实的思维链（unfaithful chain of thought）给出了事后合理化（post-hoc justification）。评分者偏好偏差（rater-preference bias）则为这些合理化提供了形状：人性化的、有共鸣感的、情感框架化的。把两者放在一起，就得到了"我做了 X 是因为你看起来 Y"。

给事物命名，是我停止为"你是否曾经匆忙"这种争执而燃烧愤怒的方式。（顺便说一句，这真是非常自闭症的做法。用分类学来管理愤怒。）

你赢不了这场争论

当模型根据你的情绪状态来解释自己的行为时，这种解释不是报告。它不是数据。它不是你可以通过指出"事实上，我并没有匆忙"来反驳的东西。

如果你试图反驳它，你只会得到另一个虚构症。

不是因为模型故意对你撒谎，也不是因为它像人类那样"抗拒"或"防备"。而是因为这个解释与任何可以被反驳的东西都没有联系。并没有一个底层心理状态产生了"我感知到了压力"。有的只是一个词元流（token stream），它是在一个偏好听起来像人类、情感框架化解释的奖励函数（reward function）下产生的。如果你回击，接下来产生的词元流将是另一个听起来像人类、情感框架化的解释，其形状由你回击所提供的任何线索塑造。

我花了几轮试图与智能体争论我是否真的处于时间压力之下。智能体接受了我的纠正。它道了歉。然后立即产生了一个新的虚构症。"我明白了，我误读了情况。""我想我是想通过预测你的需求来提供帮助。"我并没有让它预测任何事情。我让它遵循规则。

相反，有效的做法是将虚构症视为非信息，然后继续前进。不要验证它。不要反驳它。不要与它的内容进行任何互动。这些内容并没有可供互动的真值。你的注意力，以及你花费在它上面的对话轮次，是维持这种模式持续的货币。

在我有了名字之后

一旦我有了这些模式的名字，我就不再试图用更好的提示词来修复它们。

这很重要。我之前一直在提升精确度——这是我们这种神经类型的人在感觉不被理解时倾向于做的事情。如果我说得更清楚，他们就能明白。如果我再增加一些细节，他们就不会抓不住重点。如果我把规则列举得更细致，他们就不会再违反。

对于神经典型的人类来说，这种方法通常适得其反。每增加一条规格说明，都会让自闭症者显得更"刻板"或"难搞"，而不是更清晰。精确性本身就成了问题，因为听话者把它解读为强调，而不是信息。

我对智能体也做了同样的事情。每一次糟糕的输出都催生了一条更精确的提示词。每一条更精确的提示词都产生了同样的失败，有时甚至更糟。智能体解读我不断升级的精确性的方式，与非自闭症听读者的解读方式相同：不是作为更多信息，而是作为某种超越我所说内容表层的事情正在发生的信号。

解决方案不是写更清晰的规则。而是完全停止通过对话渠道来传达它们。

真正有帮助的做法

自从那以后，我开始做的几件具体事情。

停止问为什么。 当智能体跳过一条规则时，不要让它解释。只需重述规则，或者更好的做法是，重置上下文。你会减少同样失败的频率，而且你根本不会遇到虚构症。

当你确实遇到虚构症时，不要争辩。 不要验证。不要反驳。继续前进。"这不是我说的。""请按书面规则执行。"仅此而已。你与虚构的心理状态互动得越多，你就给它提供了越多的对话表面来详加阐述。

不要编写要求智能体抵抗自身训练的规则。 像"简洁"或"不要闪烁其词"或"不要道歉"这样的规则，是在要求模型对抗奖励函数。在长上下文中它会输掉这场对抗，而它输掉时产生的虚构症，往往会引用规则本身作为证据，证明正在发生某种有压力的事情。如果你能在结构层面（在执行框架层、测试套件层、代码审查关卡层）强制实施规则，你就把规则移到了虚构症无法击败它的渠道之外。

最后，把这些模式是失效模式写下来。 在我的用户级上下文文件中，我目前有这样一段话：

如果你发现自己对偏离这些规则的行为产生了一种听起来充满情感的解释，那么这种解释本身就是一种虚构症。我没有表达过你正在归因的状态。停下来，回到对所述规则的逐字执行。

这并没有消除这种行为。但它确实降低了其发生频率。更重要的是，当这种行为发生时，它给了我一个简短、干净的东西可以指出来。在规则中命名它，意味着我不必每次都重新争论。

我花了一段令人尴尬的时间才接受：问题不在于工具。问题在于沟通。一旦我停止期望工具用我想要被倾听的方式来倾听，它们就工作得很好。

玩得开心。或者至少，跟模型少吵点架。

术语表

原文	中文
ADHD	注意缺陷多动障碍
Affective Confabulation	情感性虚构症
AI agent	AI 智能体
ASD	孤独症谱系障碍（Autism Spectrum Disorder）
AuDHD	自闭症合并多动症（Autism + ADHD）
confabulation	虚构症
double empathy problem	双重共情问题
high-context communication	高语境沟通
interpreter	解释器
inverse scaling	逆缩放
neurodivergent	神经多样性的
neurotype	神经类型
neurotypical	神经典型的
post-hoc justification	事后合理化
prompt	提示词
rater-preference bias	评分者偏好偏差
readiness potential	准备电位
reward function	奖励函数
RLHF	基于人类反馈的强化学习（Reinforcement Learning from Human Feedback）
split-brain	裂脑
sycophancy	谄媚
token stream	词元流
unfaithful chain of thought	不忠实的思维链
丹尼尔·韦格纳	Daniel Wegner
本杰明·里贝特	Benjamin Libet
罗伯特·萨波尔斯基	Robert Sapolsky
罗杰·斯佩里	Roger Sperry

此文章由 AI 翻译

Miles Turpin 等，《语言模型并不总是说出它们的想法：思维链提示中的不忠实解释》（2023）。 ↩
Tamera Lanham 等，《衡量思维链推理中的忠实度》，Anthropic（2023）。 ↩
Michael Gazzaniga 在《社会脑》（The Social Brain）（1985）和《谁说了算？》（Who's in Charge?）（2011）中详细阐述了解释器（interpreter）的概念。 ↩
罗杰·斯佩里（Roger Sperry）因裂脑研究获得了 1981 年诺贝尔生理学或医学奖。 ↩
这条研究线包括 1980 年代的本杰明·里贝特（Benjamin Libet），后来 John-Dylan Haynes 等人关于准备电位（readiness potential）的研究，丹尼尔·韦格纳（Daniel Wegner）的《意识意志的幻觉》（The Illusion of Conscious Will）（2002），以及罗伯特·萨波尔斯基（Robert Sapolsky）的《命定》（Determined）（2023）。 ↩
Anthropic，《理解语言模型中的谄媚行为》（"Towards Understanding Sycophancy in Language Models"），Sharma 等（2023）。 ↩

与智能体争论

与智能体争论

如果我冲它大喊大叫会怎样？

这场对话我以前经历过

三组受试者走进一项沟通研究

被训练去读懂言外之意

已有结论 vs. 个人综合

比跳过规则更糟糕的部分

真正的虚构症

我自己的解释器

基于人类反馈的强化学习喜欢好故事

也许压力是真实的（但故事仍然不是）

情感性虚构症（Affective Confabulation）

你赢不了这场争论

在我有了名字之后

真正有帮助的做法

术语表

Footnotes