我们如何构建多智能体研究系统「Rosetta-Anthropic」
摘要
本文详细介绍了Anthropic团队构建Claude研究功能的多智能体系统的完整历程。文章阐述了多智能体系统的优势,特别是在处理开放式研究任务时相比单智能体系统有90.2%的性能提升。核心内容包括编排者-工作者架构设计、8大提示工程原则、从原型到生产的工程挑战以及评估方法。多智能体系统通过并行探索和关注点分离,能够有效压缩海量信息并突破单智能体的上下文窗口限制。
内容框架与概述
文章开篇说明了研究任务的动态性和路径依赖特征,这是传统硬编码流程难以应对的挑战。作者指出多智能体系统在这方面具有天然优势,因为它们可以根据中间结果灵活调整方向。通过内部评估数据,文章展示了多智能体架构的实际效果:在BrowseComp评估中,多智能体系统的性能比单智能体高出90.2%。关键发现是令牌使用量解释了95%性能差异中的80%,验证了并行推理架构的有效性。
架构部分详细描述了编排者-工作者模式的具体实现。主智能体负责分析查询、制定策略和生成子智能体,子智能体则并行探索不同方面的信息。与传统RAG的静态检索不同,该系统采用多步骤动态搜索,能够根据新发现调整策略。系统包含LeadResearcher、Subagents和CitationAgent三类智能体,通过迭代研究循环和内存持久化机制确保高质量输出。
提示工程章节提出了8个核心原则,从"像智能体一样思考"到"并行工具调用",涵盖了从设计思维到执行效率的完整方法论。作者强调灌输好的启发式方法而非僵化规则,并介绍了让Claude 4模型自我改进提示的创新做法。评估部分则介绍了从小规模测试开始、LLM即评委和人工评估相结合的综合策略。文章最后探讨了生产环境中的工程挑战,包括有状态系统的错误处理、调试方法、部署策略和同步执行瓶颈。
核心概念及解读
编排者-工作者模式:多智能体系统的核心架构,主智能体负责整体规划和任务分解,子智能体并行执行具体搜索任务,实现关注点分离和并行推理。
令牌使用与性能关联:研究发现多智能体系统95%的性能差异中,80%由令牌使用量解释,验证了通过增加并行推理能力扩展性能的架构思路。
扩展思考模式:引导Claude在可见思考过程中输出额外令牌作为可控草稿纸,主智能体用于规划,子智能体用于评估工具结果和优化查询。
LLM即评委:使用LLM根据事实准确性、引文准确性、完整性、来源质量和工具效率等标准对研究输出进行评分的评估方法。
彩虹部署:为避免干扰正在运行的智能体,保持新旧版本同时运行并逐渐转移流量的部署策略,解决有状态系统的更新挑战。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | 我们如何构建多智能体研究系统Rosetta-Anthropic |
| 作者 | |
| 发表日期 | 2025-06-15 |
此摘要卡片由 AI 自动生成