吴恩达提出“反思”(Reflection)设计模式,它能让 AI 像人类一样审视并修正自己的工作,从而大幅提升输出质量。这是一种你在许多高级 AI 应用中都能看到的强大工作流。
「吴恩达Agentic AI 模块2」反思设计模式, 让AI自我修正
你是否也曾有过这样的经历:满怀期待地向一个大型语言模型(LLM)提出请求,结果却只得到一份平庸,甚至有明显错误的初稿?无论是生成代码、撰写邮件还是分析数据,AI 的第一反应往往不够完美。这时,我们通常会选择反复修改提示词,但这就像是在黑暗中摸索,效果时好时坏。
然而,吴恩达(Andrew Ng)揭示了一种出人意料的简单技巧,能系统性地解决这个问题。这个技巧被称为“反思”(Reflection)设计模式,它能让 AI 像人类一样审视并修正自己的工作,从而大幅提升输出质量。这是一种你在许多高级 AI 应用中都能看到的强大工作流。
像人类一样,AI 也能“三思而后行”
反思模式的核心概念非常直观。吴恩达用了一个生动的比喻:想象一下你正在匆忙地写一封电子邮件。你的初稿可能存在一些问题:
- 用词模糊:“下个月”具体是哪几天?
- 笔误:出现了打字错误。
- 遗漏信息:忘记了署名。
在你点击“发送”之前,你会自然而然地重读一遍,发现这些问题,然后写出一个更清晰、更准确的第二版。
AI 也能遵循完全相同的两步流程。你可以先让 LLM 生成一个初稿(v1),然后,用一个新的提示词,指示它对这份初稿进行“反思”和“批判”,从而生成一个经过改进的最终版本(v2)。最妙的是,这个过程可以用同一个 LLM 来完成。
正如人类会审视并改进自己的作品,大语言模型同样能做到这一点。
真正的“秘密武器”:外部反馈
虽然自我反思很有用,但真正让这个模式威力倍增的,是在反思步骤中引入新的外部信息。
以代码生成为例,这个流程非常清晰:
- 你让 LLM 编写一段代码(v1)。
- 你执行这段代码。
- 代码运行后,抛出了一个语法错误。
- 这个“语法错误信息”就是全新的、来自模型外部的反馈。
- 你将原始代码(v1)和这个错误信息一起提交给 LLM,让它进行反思。
有了这个具体的外部反馈,LLM 就能进行更深度的反思,并生成一个正确得多的第二版代码(v2)。吴恩达指出,当你感觉单纯的提示词工程(Prompt Engineering)已经遇到瓶颈、收效甚微时,引入带有外部反馈的反思模式,往往能将系统性能推向一个全新的高度。
不仅仅是文本:AI 还能“审视”自己的视觉作品
反思模式最令人惊艳的应用之一,是它同样适用于多模态任务。想象一下,你要求一个 AI 根据咖啡销售数据生成一张图表。
- 初始结果:AI 编写的代码生成了一张“堆叠条形图”。这种图表虽然技术上没错,但可读性很差,不够直观。
- 反思步骤:接下来,你将初始代码和它生成的那张图表图片同时提供给一个多模态 LLM。关键在于你的提示词——要求它 “扮演一位专业数据分析师的角色”,对图表进行批判性审视。
- 惊人效果:这个多模态 LLM 能够进行视觉推理。它能“看到”这张图表,判断出其可视化效果不佳,然后主动修改代码,生成一张更清晰、更美观的常规条形图。
这展示了 AI 不仅能反思文本,还能审视自己的视觉创作并加以改进。
打造 AI “评审员”来评估质量(但方法要对)
对于像“哪张图表更好看”这样主观的问题,我们该如何评估 AI 的表现呢?一个常见的想法是让另一个 LLM 充当“评委”。但这里有一个不易察觉的陷阱。
如果你直接问 LLM:“图片 A 和图片 B,哪一个更好?” 你可能会得到一个不可靠的答案。吴恩达指出了一个关键问题:位置偏见(position bias)。许多 LLM 在被要求做二选一时,会倾向于选择它们看到的第一个选项。
更科学、更可靠的方法是:
- 不要进行直接比较。
- 让 LLM 根据一个详细的评分标准(rubric)单个输出打分。
- 这个评分标准应包含一系列具体的、二元(是/否)的问题,例如:“图表是否有清晰的标题?”、“坐标轴标签是否存在?”。
吴恩达解释说,之所以这样做,是因为 LLM 在像 1-5 分这样的量表上校准得并不好,而将多个二元(0/1)评分项的总分相加,能够产生更一致的结果。
组建一支“专家级” AI 团队
反思模式还有一个高级玩法:使用不同的 LLM 来执行生成和反思两个步骤。
这个策略的逻辑很简单:不同的模型有不同的专长。这就像一个创意团队,一个人负责天马行空地产生想法(生成),另一个人则扮演一丝不苟的编辑角色(反思)。
在实践中,你可以:
- 使用一个模型来快速生成代码初稿。
- 然后,使用一个专门的“推理模型”(reasoning model) (有时也被称为思考模型,thinking models) 来进行反思,因为它在发现逻辑错误和 bug 方面可能表现更出色。
结论
反思模式远不止是简单地再次提问。它是一个结构化的工作流程,旨在通过迭代实现持续改进。当它与外部反馈、可靠的评估体系以及专门化的模型相结合时,就变成了一个能够显著提升 AI 应用性能的强大工具。
这种结构化的迭代工作流,正是构建更稳健、更可靠、更可预测的 AI 系统的关键。
现在你了解了如何让 AI 进行反思,那么,以前遥不可及的哪些复杂、多步骤问题,你现在可以着手解决了呢?