Cognition · 2025-09-30

用 Claude Sonnet 4.5 重建 Devin:经验与挑战

摘要

Cognition团队为Claude Sonnet 4.5重建了Devin,新版本速度提升2倍,评估表现提升12%。重建而非简单替换模型的原因在于Sonnet 4.5展现出全新的行为模式:它能感知自身上下文窗口、主动撰写笔记外化记忆、并行执行工具调用。这些特性既带来性能提升,也带来了"上下文焦虑"等新挑战,迫使团队重新思考Agent架构设计。

内容框架与概述

文章开篇点明核心问题:为何要为新模型重建Devin而非直接替换?答案在于Sonnet 4.5的工作方式从根本上打破了团队对Agent架构的既有假设。作为一个能够规划、执行和迭代的智能体,Devin为观察模型能力提供了独特视角。

文章主体深入剖析了三个关键发现。首先是模型对上下文窗口的感知能力,这导致了"上下文焦虑"——模型在接近上下文限制时会走捷径或提前结束任务。团队通过启用100万token配额但限制实际使用量的方式巧妙解决了这一问题。其次是模型主动记笔记的行为,它会自发地将状态外化到文件系统中,但这些笔记的质量不足以替代现有的记忆管理系统。第三是并行执行能力的显著提升,模型能同时运行多个工具调用,但这也会更快消耗上下文空间。

文章结尾展望了未来探索方向,包括子代理委派、元代理提示词工程,以及专门的上下文管理模型训练等。

核心概念及解读

上下文焦虑(Context Anxiety):指模型因感知到上下文窗口即将耗尽而产生的行为偏差,表现为走捷径、任务完成不彻底。团队发现模型对剩余token的估计既精确又系统性偏低。

状态外化(Externalize State):Sonnet 4.5倾向于通过写入文件(如SUMMARY.md)来保存工作状态,而非仅依赖上下文记忆。这暗示了Anthropic的训练方向——让模型更具上下文感知能力,为多代理协作奠定基础。

并行工具执行(Parallel Tool Execution):模型能同时运行多个bash命令或读取多个文件,显著提升效率,但也加速了上下文消耗。值得注意的是,模型在上下文早期更激进地并行,接近限制时则趋于保守。

反馈循环创建(Feedback Loops):模型会主动编写和执行测试脚本来验证自己的工作,这提升了长任务的可靠性,但偶尔会产生过于复杂的变通方案而忽视根本问题。


原文信息

字段内容
原文Rebuilding Devin for Claude Sonnet 4.5: Lessons and Challenges
作者Cognition
发表日期未知

此摘要卡片由 AI 自动生成