「吴恩达Agentic AI 模块4」Agentic AI 工作流开发与优化学习指南

本指南旨在帮助您复习和巩固“Agentic AI 工作流的开发与优化”课程第四模块的核心概念。内容包括简答题测验、答案解析、开放式论述题以及关键术语词汇表，全部基于提供的源材料编写。

测验

简答题

请用2-3句话回答以下每个问题，以检验您对核心概念的理解。

为什么在开发 Agentic AI 系统时，建议首先构建一个“快速而粗糙”的原型？
课程中提到的评估（eval）流程是怎样的？请以发票处理工作流为例进行说明。
什么是“LLM作为评判者”（LLM-as-a-judge）？在什么情况下使用它比编写代码进行评估更合适？
请解释评估的两个维度轴，并为每个象限提供一个源材料中提到的例子。
什么是错误分析（Error Analysis）？它在优化 Agentic AI 工作流中扮演什么关键角色？
在进行错误分析时，“追踪”（Trace）和“跨度”（Span）分别指什么？
与端到端评估相比，组件级评估（Component-level Evals）有哪些优势？
当一个基于LLM的组件性能不佳时，可以采取哪些方法来解决问题？
开发者应如何培养对不同大型语言模型（LLM）能力和适用场景的直觉？
在优化 Agentic 工作流的成本和延迟时，首要步骤是什么？这如何帮助确定优化的重点？

答案解析

为什么在开发 Agentic AI 系统时，建议首先构建一个“快速而粗糙”的原型？ 构建一个快速原型有助于开发者快速了解系统在实际应用中的表现，识别出其有效和无效的方面。通过观察初始原型的输出，可以更有针对性地集中精力解决实际存在的问题，而不是花费数周时间进行理论化和假设，从而大大提高开发效率。
课程中提到的评估（eval）流程是怎样的？请以发票处理工作流为例进行说明。 评估流程首先是构建系统并观察输出，以发现问题，例如发票的“到期日”被错误提取。接着，创建一个小规模的评估集（如10-20张发票），并为每个样本手动标注正确答案（即“基准真相”）。最后，编写代码或提示来衡量系统输出与基准真相的一致性，从而量化改进效果。
什么是“LLM作为评判者”（LLM-as-a-judge）？在什么情况下使用它比编写代码进行评估更合适？ “LLM作为评判者”是利用一个LLM来评估另一个AI系统输出质量的方法，通常用于更主观的评估。当评估标准难以通过简单的代码（如正则表达式）来客观衡量时，它尤其有用。例如，在评估研究报告是否充分涵盖了“金标准讨论要点”时，由于表达方式多样，使用LLM来判断会比模式匹配更有效。
请解释评估的两个维度轴，并为每个象限提供一个源材料中提到的例子。 评估的两个维度轴分别是评估方法（客观代码评估 vs. 主观LLM评判）和是否有“逐例基准真相”。

代码评估 & 有逐例基准真相: 检查发票到期日提取是否正确，因为每张发票有不同的正确日期。
代码评估 & 无逐例基准真相: 检查营销文案长度是否符合10个词的限制，因为所有例子的目标都相同。
LLM评判 & 有逐例基准真相: 统计研究论文中提及“金标准讨论要点”的数量，因为每个主题的要点都不同。
LLM评判 & 无逐例基准真相: 根据通用评分标准（如坐标轴标签是否清晰）来给图表打分。

什么是错误分析（Error Analysis）？它在优化 Agentic AI 工作流中扮演什么关键角色？ 错误分析是一个系统性的过程，通过检查系统出错的案例，找出导致最终输出不满意的根本原因在于工作流中的哪个组件。它的关键作用是帮助开发团队将精力集中在最能有效提升系统整体性能的薄弱环节上，避免在收效甚微的组件上浪费时间和资源。
在进行错误分析时，“追踪”（Trace）和“跨度”（Span）分别指什么？ “追踪”（Trace）指的是一次 Agent 运行过程中所有中间步骤输出的集合，它完整记录了从输入到最终输出的全过程。而“跨度”（Span）特指单个步骤的输出。通过检查追踪记录，开发者可以了解每个组件的具体表现。
与端到端评估相比，组件级评估（Component-level Evals）有哪些优势？ 组件级评估能为特定组件的性能提供更清晰、更直接的信号，避免了整个端到端系统中其他组件随机性带来的噪声干扰。这使得开发者可以更高效地对某个特定组件（如网络搜索功能）进行调优和迭代，同时也便于分工协作，让不同团队专注于优化各自负责的模块。
当一个基于LLM的组件性能不佳时，可以采取哪些方法来解决问题？ 可以采取多种方法改进。首先是改进提示（Prompts），如增加更明确的指令或使用少样本提示（few-shot prompting）。其次是尝试不同的LLM模型，选择更适合当前任务的模型。此外，还可以将复杂的任务分解为多个更简单的步骤，或者在穷尽其他方法后，考虑对模型进行微调（fine-tuning）以获得更高性能。
开发者应如何培养对不同大型语言模型（LLM）能力和适用场景的直觉？ 开发者可以通过多种方式培养直觉。首先是经常试用不同的模型，包括闭源和开源模型，了解它们的特性。其次是大量阅读他人编写的优秀提示，甚至深入开源软件包研究其提示设计。最后，在自己的工作流中尝试替换和评估不同的模型，结合追踪记录和评估指标，积累关于模型性能、成本和速度权衡的实践经验。
在优化 Agentic 工作流的成本和延迟时，首要步骤是什么？这如何帮助确定优化的重点？ 首要步骤是对工作流的每个步骤进行基准测试（benchmarking），即测量每个组件的执行时间（延迟）和花费（成本）。通过这种量化分析，可以清晰地识别出哪些步骤是主要的耗时或成本来源。这使得优化工作可以集中在影响最大的组件上，避免在对整体性能影响不大的地方浪费精力。

开放式论述题

请思考并详细阐述以下问题，这些问题没有标准答案，旨在激发更深入的思考。

详细描述 Agentic AI 工作流的完整开发生命周期，从最初的“快速而粗糙”的原型构建，到利用错误分析进行迭代，再到最终的成本与延迟优化。
比较并对比端到端评估和组件级评估。在项目的不同阶段，您会如何权衡使用这两种评估方法？
以研究助手（Research Agent）为例，深入探讨错误分析过程。如果分析发现“网络搜索结果质量差”是主要瓶颈，您会如何设计一个组件级评估方案来指导对此组件的改进？
讨论“构建”与“分析”在 Agentic AI 系统开发中的相互关系。为什么说只注重“构建”而忽略系统性“分析”的团队效率会较低？
在改进一个表现不佳的LLM组件时，何时应优先选择改进提示工程，何时应考虑替换模型，又在何种极端情况下才应诉诸成本高昂的微调（Fine-tuning）？请阐述您的决策逻辑。

关键术语词汇表

术语 (英文)	术语 (中文)	定义
Agentic AI Workflow	Agentic AI 工作流	一种由多个步骤组成的自动化系统，通常结合了大型语言模型（LLM）和外部工具来完成复杂任务。
Evaluation (eval)	评估 (eval)	一个用于衡量 Agentic 系统性能的流程，通过建立测试集和评估标准来量化系统输出的质量。
Error Analysis	错误分析	一种系统性地检查系统错误案例以确定性能瓶颈位于哪个组件的过程，从而指导后续的优化工作。
Trace	追踪	在一次 Agent 运行中，所有中间步骤输出的完整集合。
Span	跨度	Agent 工作流中单个步骤的输出。
End-to-end Eval	端到端评估	对整个工作流从最初输入到最终输出的整体性能进行的评估。
Component-level Eval	组件级评估	针对工作流中某个特定组件（如网络搜索或数据提取）的性能进行的独立评估。
Per-example Ground Truth	逐例基准真相	为评估集中的每个单独样本手动标注的正确答案或理想输出。
LLM-as-a-judge	LLM作为评判者	使用一个大型语言模型来对另一个AI系统的输出进行主观性或复杂性较高的评估。
Few-shot Prompting	少样本提示	在提示中提供一个或多个具体的输入输出示例，以指导LLM更好地完成任务。
Fine-tuning	微调	在特定数据集上进一步训练一个预训练模型，使其更适应特定任务，通常比提示工程更复杂和昂贵。
Hyperparameters	超参数	在组件中可以调整的参数，用于控制其行为，例如RAG系统中的块大小（chunk size）或相似度阈值。
Latency	延迟	系统完成一个任务或一个步骤所需的时间。
PII (Personally Identifiable Information)	个人可识别信息	能够用于识别特定个人的敏感信息，如姓名、社会安全号码、地址等。
RAG (Retrieval-Augmented Generation)	检索增强生成	一种系统，通过从外部知识库中检索相关信息来增强大型语言模型的生成能力。