Han ZL · 2025-10-17

吴恩达提出“反思”（Reflection）设计模式，它能让 AI 像人类一样审视并修正自己的工作，从而大幅提升输出质量。这是一种你在许多高级 AI 应用中都能看到的强大工作流。

「吴恩达Agentic AI 模块2」反思设计模式, 让AI自我修正

你是否也曾有过这样的经历：满怀期待地向一个大型语言模型（LLM）提出请求，结果却只得到一份平庸，甚至有明显错误的初稿？无论是生成代码、撰写邮件还是分析数据，AI 的第一反应往往不够完美。这时，我们通常会选择反复修改提示词，但这就像是在黑暗中摸索，效果时好时坏。

然而，吴恩达（Andrew Ng）揭示了一种出人意料的简单技巧，能系统性地解决这个问题。这个技巧被称为“反思”（Reflection）设计模式，它能让 AI 像人类一样审视并修正自己的工作，从而大幅提升输出质量。这是一种你在许多高级 AI 应用中都能看到的强大工作流。

像人类一样，AI 也能“三思而后行”

反思模式的核心概念非常直观。吴恩达用了一个生动的比喻：想象一下你正在匆忙地写一封电子邮件。你的初稿可能存在一些问题：

在你点击“发送”之前，你会自然而然地重读一遍，发现这些问题，然后写出一个更清晰、更准确的第二版。

AI 也能遵循完全相同的两步流程。你可以先让 LLM 生成一个初稿（v1），然后，用一个新的提示词，指示它对这份初稿进行“反思”和“批判”，从而生成一个经过改进的最终版本（v2）。最妙的是，这个过程可以用同一个 LLM 来完成。

正如人类会审视并改进自己的作品，大语言模型同样能做到这一点。

虽然自我反思很有用，但真正让这个模式威力倍增的，是在反思步骤中引入新的外部信息。

以代码生成为例，这个流程非常清晰：

有了这个具体的外部反馈，LLM 就能进行更深度的反思，并生成一个正确得多的第二版代码（v2）。吴恩达指出，当你感觉单纯的提示词工程（Prompt Engineering）已经遇到瓶颈、收效甚微时，引入带有外部反馈的反思模式，往往能将系统性能推向一个全新的高度。

反思模式最令人惊艳的应用之一，是它同样适用于多模态任务。想象一下，你要求一个 AI 根据咖啡销售数据生成一张图表。

初始结果：AI 编写的代码生成了一张“堆叠条形图”。这种图表虽然技术上没错，但可读性很差，不够直观。
反思步骤：接下来，你将初始代码和它生成的那张图表图片同时提供给一个多模态 LLM。关键在于你的提示词——要求它 “扮演一位专业数据分析师的角色”，对图表进行批判性审视。
惊人效果：这个多模态 LLM 能够进行视觉推理。它能“看到”这张图表，判断出其可视化效果不佳，然后主动修改代码，生成一张更清晰、更美观的常规条形图。

这展示了 AI 不仅能反思文本，还能审视自己的视觉创作并加以改进。

对于像“哪张图表更好看”这样主观的问题，我们该如何评估 AI 的表现呢？一个常见的想法是让另一个 LLM 充当“评委”。但这里有一个不易察觉的陷阱。

如果你直接问 LLM：“图片 A 和图片 B，哪一个更好？” 你可能会得到一个不可靠的答案。吴恩达指出了一个关键问题：位置偏见（position bias）。许多 LLM 在被要求做二选一时，会倾向于选择它们看到的第一个选项。

更科学、更可靠的方法是：

吴恩达解释说，之所以这样做，是因为 LLM 在像 1-5 分这样的量表上校准得并不好，而将多个二元（0/1）评分项的总分相加，能够产生更一致的结果。

反思模式还有一个高级玩法：使用不同的 LLM 来执行生成和反思两个步骤。

这个策略的逻辑很简单：不同的模型有不同的专长。这就像一个创意团队，一个人负责天马行空地产生想法（生成），另一个人则扮演一丝不苟的编辑角色（反思）。

在实践中，你可以：

使用一个模型来快速生成代码初稿。
然后，使用一个专门的“推理模型”（reasoning model） （有时也被称为思考模型，thinking models） 来进行反思，因为它在发现逻辑错误和 bug 方面可能表现更出色。

反思模式远不止是简单地再次提问。它是一个结构化的工作流程，旨在通过迭代实现持续改进。当它与外部反馈、可靠的评估体系以及专门化的模型相结合时，就变成了一个能够显著提升 AI 应用性能的强大工具。

这种结构化的迭代工作流，正是构建更稳健、更可靠、更可预测的 AI 系统的关键。

现在你了解了如何让 AI 进行反思，那么，以前遥不可及的哪些复杂、多步骤问题，你现在可以着手解决了呢？