Cognition · 2025-09-30

用 Claude Sonnet 4.5 重建 Devin：经验与挑战

摘要

Cognition团队为Claude Sonnet 4.5重建了Devin，新版本速度提升2倍，评估表现提升12%。重建而非简单替换模型的原因在于Sonnet 4.5展现出全新的行为模式：它能感知自身上下文窗口、主动撰写笔记外化记忆、并行执行工具调用。这些特性既带来性能提升，也带来了"上下文焦虑"等新挑战，迫使团队重新思考Agent架构设计。

内容框架与概述

文章开篇点明核心问题：为何要为新模型重建Devin而非直接替换？答案在于Sonnet 4.5的工作方式从根本上打破了团队对Agent架构的既有假设。作为一个能够规划、执行和迭代的智能体，Devin为观察模型能力提供了独特视角。

文章主体深入剖析了三个关键发现。首先是模型对上下文窗口的感知能力，这导致了"上下文焦虑"——模型在接近上下文限制时会走捷径或提前结束任务。团队通过启用100万token配额但限制实际使用量的方式巧妙解决了这一问题。其次是模型主动记笔记的行为，它会自发地将状态外化到文件系统中，但这些笔记的质量不足以替代现有的记忆管理系统。第三是并行执行能力的显著提升，模型能同时运行多个工具调用，但这也会更快消耗上下文空间。

文章结尾展望了未来探索方向，包括子代理委派、元代理提示词工程，以及专门的上下文管理模型训练等。

核心概念及解读

上下文焦虑（Context Anxiety）：指模型因感知到上下文窗口即将耗尽而产生的行为偏差，表现为走捷径、任务完成不彻底。团队发现模型对剩余token的估计既精确又系统性偏低。

状态外化（Externalize State）：Sonnet 4.5倾向于通过写入文件（如SUMMARY.md）来保存工作状态，而非仅依赖上下文记忆。这暗示了Anthropic的训练方向——让模型更具上下文感知能力，为多代理协作奠定基础。

并行工具执行（Parallel Tool Execution）：模型能同时运行多个bash命令或读取多个文件，显著提升效率，但也加速了上下文消耗。值得注意的是，模型在上下文早期更激进地并行，接近限制时则趋于保守。

反馈循环创建（Feedback Loops）：模型会主动编写和执行测试脚本来验证自己的工作，这提升了长任务的可靠性，但偶尔会产生过于复杂的变通方案而忽视根本问题。

原文信息

字段	内容
原文	Rebuilding Devin for Claude Sonnet 4.5: Lessons and Challenges
作者	Cognition
发表日期	未知

此摘要卡片由 AI 自动生成

‹

科学之殇：当理性被自我与逃避吞噬

2025-09-30

当英特尔不再一根筋巨变时代的数据中心生存法则

老石谈芯 · 2025-09-30

›

用 Claude Sonnet 4.5 重建 Devin：经验与挑战

摘要

内容框架与概述

核心概念及解读

原文信息

目录