吴恩达在他的新课《Agentic AI》中指出,应当让AI模仿人类的思考和工作流程:先构思,再研究,然后起草,最后反复修改。这就是“Agentic工作流”的核心思想,它正在开启一个全新的AI应用时代。
「吴恩达Agentic AI 模块1」4个颠覆性观点
引言:超越一次性问答
你是否曾有过这样的经历:为了完成一份报告,你给大语言模型(LLM)一个提示词,比如“帮我写一篇关于黑洞的论文”,然后得到了一篇看起来还不错,但深度和洞察力都略显平庸的文章?这是一种非常普遍的AI使用方式,但它远未发挥出AI的全部潜力。
吴恩达(Andrew Ng)在他的新课《Agentic AI》中提出了一个绝佳的比喻:这种“一键生成”模式,就像强迫一个人(或AI)从第一个字写到最后一个字,中间不许停顿思考,甚至不许按删除键。我们都知道,人类不是这样工作的,AI也不应该如此。真正强大的方法,是让AI模仿人类的思考和工作流程:先构思,再研究,然后起草,最后反复修改。这就是“Agentic工作流”的核心思想,它正在开启一个全新的AI应用时代。
观点一:AI不再是“一键生成”,而是学会了“思考、研究、再修改”
过去,我们与AI的互动模式主要是“单次提示-单次生成”。我们提出一个问题,AI给出一个答案。但Agentic工作流彻底改变了这一点,它将一个复杂的任务分解成一系列更小的、可执行的步骤,形成一个迭代循环。
以上文提到的论文写作为例,一个Agentic工作流可能会这样执行:
- 构思大纲:首先,让LLM生成一个论文的结构大纲。
- 网络研究:根据大纲,LLM决定需要进行哪些网络搜索,并调用搜索API获取相关资料。
- 起草初稿:整合研究资料,撰写第一版草稿。
- 审阅反思:LLM(或另一个专门的“审阅”AI)阅读初稿,判断哪些部分需要修改、补充或进一步研究。
- 修改完善:根据审阅意见,对草稿进行修改,直至完成。
这个过程不再是僵化的线性生成,而是更接近人类专家完成复杂任务时的真实状态:思考、行动、反思、再行动。吴恩达指出,虽然这个过程可能花费更长的时间,但它最终能产出“好得多(much better)”的工作成果。
正如吴恩达所说:“事实证明,无论是我们人类,还是AI模型,都无法在被强制以这种完全线性的顺序写作时,拿出自己最好的作品。”
从“一次性生成”到“多步流程”的转变意义重大。它意味着AI不再只是一个快速的答案生成器,而是一个能够执行复杂流程、具备初步“思考”和“工作”能力的伙伴。
观点二:提升AI能力的最大杠杆,不是新模型,而是新方法
在AI领域,我们常常认为,获得更好性能的唯一途径就是等待下一个更强大的模型(比如从GPT-3.5升级到GPT-4)。但吴恩达课程中的一个数据颠覆了这个认知:实现一个Agentic工作流所带来的性能提升,甚至可能超过模型本身的代际飞跃。
课程中引用了一个名为Human Eval的编码能力基准测试数据:
- GPT-3.5(非Agentic模式):准确率为40%。
- GPT-4(非Agentic模式):准确率跃升至67%,提升巨大。
- 关键发现:在GPT-3.5上应用Agentic工作流(例如增加代码反思和修正步骤),其性能提升的幅度,甚至超过了从GPT-3.5直接升级到GPT-4所带来的性能提升。
这个结果的含义极为深刻:
“从一代模型到下一代模型的提升是巨大的,但这种提升仍然比不上在上一代模型上实施一个Agentic工作流所带来的差异。”
这对所有AI开发者和企业来说都是一个振奋人心的消息。它意味着我们不必总是依赖于最新、最昂贵的大模型。通过巧妙地设计工作流,我们就能用现有的工具实现顶尖的性能。这不仅极大地降低了高水平AI应用的开发门槛,更意味着未来的竞争优势将越来越多地来自于流程设计的智慧,而不仅仅是计算资源的规模。
观点三:当下最实用的AI Agent,可能不是最“自主”的那个
媒体和科幻作品常常将AI Agent描绘成高度自主、接近人类的“数字生命”。这种想象固然引人入胜,但吴恩达提醒我们,在现实世界中,最有价值的应用往往出现在自主性的另一端。
他提出了一个“自主性光谱”的概念,从“低自主性”到“高自主性”分布。
- 低自主性系统:其工作流程的每一步都由开发者预先设定好。例如,一个处理发票的Agent,其流程可能是固定的:识别PDF -> 提取关键字段(付款方、金额、日期) -> 存入数据库。
- 高自主性系统:Agent能够根据目标自主决定采取哪些步骤。例如,一个高级客服Agent需要根据用户千变万化的提问,自行规划查询库存、核对退货政策、生成退货单等一系列操作。
一个常见的误区是认为“低自主性”是“不够高级”的AI。恰恰相反,这些可预测、可控制、可靠的工作流,正是当前商业应用的核心。
吴恩达强调:“你会发现在自主性光谱的低端,有大量非常有价值的应用正在为今天的无数企业所构建……”
这个观点将关于AI Agent的讨论从天马行空的想象拉回了坚实的商业现实。对于企业而言,最关键的不是构建一个无所不能的“通用代理”,而是打造能够可靠、高效地解决特定业务问题的专用工作流。
观点四:构建强大AI的关键技能,不是算法魔法,而是严谨的工程纪律
如果更聪明的工作流,而非更强大的模型,是释放AI性能的关键,那么成功构建这些工作流的人和挣扎在失败边缘的人之间,区别究竟在哪里?答案并非某种神秘算法,而是一种更基础的能力:工程纪律。
吴恩达观察到,在构建Agentic工作流时,高效和低效的开发者之间最大的区别,就在于是否具备严谨的工程纪律。
“我所见过的,那些真正懂得如何构建Agentic工作流的人与那些不那么高效的人之间,最大的区别之一,就是他们推动一个纪律严明的开发流程的能力,尤其是一个专注于评估(evals)和错误分析的流程。”
这究竟是什么意思?它代表着一种范式转变:从依赖灵感和反复试错的“炼丹术”,转向一种类似现代软件开发的系统化、可度量的工程实践。这意味着建立一个系统的反馈循环:
- 评估(Evals):为Agent的表现定义明确的评估标准。这可以是客观指标(例如,在客服回复中是否提到了竞争对手的名字?),也可以是借助“LLM作为裁判”对生成报告的质量进行主观评分。
- 错误分析(Error Analysis):当Agent犯错时,关键不是简单地调整提示词,而是要诊断错误的根本原因。错误发生在多步工作流的哪一个环节?是网络搜索步骤失败了,还是综合信息步骤误解了原文?只有定位到流程中的薄弱环节,才能进行针对性改进。
这种方法论,将AI开发转变为一门有章可循、可持续迭代的工程学科。拥有严谨的评估和分析能力,比单纯追求模型的“智能”本身更为重要。
结语:教会AI“工作”,而不只是“回答”
吴恩达的课程为我们揭示了AI发展的下一个浪潮:重点不再仅仅是创造更大、更强的模型,而是设计更聪明、更高效的工作流,来释放模型中已经存在的巨大潜力。
我们正在从教会AI“回答问题”,迈向教会AI“完成工作”。这不仅仅是技术的演进,更是我们与AI协作方式的根本性变革。当我们教会AI的不再仅仅是‘回答’,而是整个‘工作流程’时,有哪些过去因流程过于繁琐、协作过于复杂而无法企及的领域,将首次向我们敞开大门?