「吴恩达Agentic AI模块2简报」反思设计模式

概述

本文档对“反思设计模式”（Reflection Design Pattern）进行了深入分析，该模式是提升大型语言模型（LLM）输出质量的关键技术。核心观点认为，通过一个两步流程——首先生成初步草稿，然后提示模型对该草稿进行批判性审视和改进——可以显著增强最终结果的准确性、完整性和质量。

关键洞察

性能优势：多项研究和实践表明，与一次性直接生成（或称“零样本提示”）相比，反思模式在各种任务中都能带来显著的性能提升，包括代码编写、结构化数据生成和创意写作。
外部反馈的力量：反思模式最强大的应用形式是整合外部反馈。当模型不仅依赖自身知识，还能接收来自外部工具（如代码执行器、网络搜索或简单的验证脚本）的新信息时，其改进能力会得到指数级增强。这种方法能有效克服单纯提示工程所面临的性能瓶颈。
系统的评估至关重要：由于反思会增加系统的复杂性和延迟，因此必须通过严格的评估来验证其有效性。对于有明确对错标准的任务，应采用基于“基准真相”数据的客观评估。对于主观任务（如评估图表美观度），基于评分细则（Rubric）的评估比直接让模型比较优劣更为可靠和一致，有效避免了位置偏见等问题。
提示词工程：高效的反思依赖于精心设计的提示词。反思提示词应明确指示模型进行“审阅”或“反思”，并提供清晰、具体的评估标准（例如，“检查语气”、“验证事实”、“是否易于发音”），以引导模型进行有针对性的改进。

总之，反思设计模式不仅仅是一种简单的技巧，更是一种系统化的工作流，它将批判性思维和外部验证融入到人工智能生成过程中，从而实现更高水平的性能和可靠性。

一、反思设计模式的核心概念

反思设计模式模仿了人类通过审阅和修改来改进工作的过程。它将一个任务分解为两个主要步骤，让大型语言模型（LLM）能够批判性地评估并优化其自身的输出。

核心工作流程：

初始生成（版本1）：首先，向LLM提供一个提示，要求其生成任务的初步草案。这可以是任何类型的输出，例如一封电子邮件、一段代码或一篇短文。
反思与改进（版本2）：接着，将生成的版本1草稿作为输入，连同一个新的“反思提示词”，再次提交给同一个或另一个LLM。这个新的提示词会引导模型扮演一个批判者的角色，根据特定标准检查草稿，并生成一个经过改进的版本2。

应用实例：

电子邮件撰写：
- 版本1：快速生成的邮件草稿可能包含拼写错误、模糊的日期（如“下个月”）且忘记署名。
- 反思：提示模型检查邮件的清晰度、准确性和完整性。
- 版本2：改进后的邮件将日期具体化（如“5号到7号”），修正错误并添加署名。
代码生成：
- 版本1： LLM生成的初始代码可能存在逻辑错误或语法问题。
- 反思：提示模型检查代码是否存在缺陷（bugs）。
- 版本2：修正了错误，功能更完善的代码。

模型选择策略：在实现这一模式时，开发者可以选择不同的模型组合。例如，可以使用一个模型进行初始生成，而使用另一个具有强大推理能力的“思考模型”（Reasoning Model）来进行反思和纠错，因为后者在发现代码缺陷等任务上通常表现更佳。

二、反思与直接生成的性能对比

直接生成（Direct Generation），也称为“零样本提示”（Zero-shot Prompting），是指在不提供任何示例的情况下，仅通过一条指令让LLM一次性完成任务。虽然这种方法简单快捷，但研究表明，反思模式在多种应用场景下都能提供更优越的性能。

根据Madaan等人的研究论文，在涵盖GPT-3.5和GPT-4等多种模型的实验中，使用反思模式（深色条）的性能普遍显著高于仅使用零样本提示（浅色条）的性能。

反思模式的典型应用场景：

应用领域	问题描述	反思任务
结构化数据生成	生成的HTML表格或复杂的嵌套JSON可能存在格式错误。	验证输出格式的正确性，并进行修正。
指令序列生成	生成的操作指南（如泡茶步骤）可能遗漏关键步骤。	检查指令的连贯性和完整性，补充缺失环节。
创意命名	头脑风暴出的域名可能存在意外的负面含义或难以发音。	检查名称是否有不当联想、负面含义，以及是否易于发音。
商业邮件	邮件草稿的语气可能不当，或事实、日期存在错误。	检查邮件的语气，并核实验中提到的所有事实、日期和承诺。

编写反思提示词的最佳实践：

明确意图：在提示词中清晰地使用“审阅”、“反思”或“批判”等词语，明确指示模型进入评估模式。
提供具体标准：给出清晰的评估准则。例如，要求模型检查“清晰度、可读性和完整性”或“音调和事实准确性”，这能更好地引导模型的反思过程。
借鉴优秀实践：通过阅读高质量开源软件中的提示词，可以学习到更有效的提示词编写技巧。

三、关键增强器：整合外部反馈

虽然LLM的自我反思已经能提升性能，但当反思过程能够整合外部反馈（即来自LLM之外的新信息）时，其效果会得到质的飞跃。这是该设计模式中最强大的方面。

当单纯的提示词工程进入性能平台期、回报递减时，引入带有外部反馈的反思工作流，能够将性能提升到一个新的高度。

外部反馈的机制：通过使用外部工具对LLM的初步输出进行验证或分析，并将工具返回的结果（如错误信息、事实核查数据、精确计数等）作为新的信息提供给LLM，使其能够在更充分、更准确的依据上进行反思和改进。

外部反馈工具的应用实例：

工具/方法	应用场景	生成的外部反馈
代码执行器	代码生成	代码的实际运行输出或语法错误信息。
模式匹配（如正则表达式）	商业文案撰写	在文本中检测到并标记出不应提及的竞争对手名称。
网络搜索	撰写研究性文章	针对文章中的事实声明（如泰姬陵的建造年份）提供权威来源的准确信息。
字数统计工具	博客文章或摘要写作	当输出超出字数限制时，提供精确的当前字数，并要求模型缩减。

这些工具将抽象的改进目标（如“修复代码”、“确保事实准确”）转化为具体、可操作的反馈，极大地增强了反思的有效性。

四、评估反思工作流的影响

在将反思模式集成到应用中之前，必须进行评估，以量化其带来的性能提升，并判断其是否值得增加的计算成本和延迟。评估方法分为客观和主观两类。

客观评估

当任务有明确的正确答案时，可采用客观评估。

方法：
1. 创建一个包含多个问题和相应“基准真相”（Ground Truth）答案的评估集。
2. 分别运行两个版本的工作流：一个不带反思，另一个带有反思。
3. 比较两个版本输出正确答案的百分比。
案例（数据库查询）：
- 任务： LLM生成SQL查询以回答关于销售数据的问题。
- 评估：对比反思前后生成的SQL查询所检索出的答案与预设的正确答案的匹配率。例如，无反思的正确率为87%，而有反思的正确率提升至95%，这证明了反思的价值。
- 应用：这个评估框架可以用来系统性地测试和迭代初始提示词与反思提示词，以达到最佳性能。

主观评估

当任务的评估标准是主观的（如美学、清晰度），评估会更复杂。

方法1（效果不佳）：LLM作为裁判直接比较
- 描述：向一个多模态LLM同时提供两个输出（如两张图表），并询问哪一个更好。
- 缺陷：这种方法的结果往往不可靠，对提示词的措辞敏感，并且存在位置偏见（Position Bias），即许多LLM倾向于选择第一个呈现的选项。
方法2（效果更佳）：使用评分细则（Rubric）进行分项打分
- 描述：不让LLM直接比较，而是让其根据一套预设的评分标准对单个输出进行打分。
- 实施：
  1. 设计一套清晰的、二元（是/否，0/1）的评分标准。例如，对于图表生成任务，标准可以是：“图表是否有清晰的标题？”、“坐标轴标签是否存在？”、“图表类型是否合适？”等。
  2. 让LLM对每个输出根据这些标准逐项给出0或1分。
  3. 将所有二元分数相加，得到一个总分。
- 优势：这种方法比要求LLM给出一个1到5的模糊评分更稳定、更一致。它将一个复杂的主观判断分解为一系列简单、客观的小判断，从而提高了评估的可靠性。
- 应用：通过对比有无反思生成的图表的平均得分，可以量化反思带来的质量提升。这个评估体系同样可用于指导提示词的优化。