@AnthropicAI · 2026-02-24

Anthropic负责任扩展政策3.0版发布

摘要

Anthropic发布负责任扩展政策（RSP）3.0版本，这是他们两年多来用于减轻AI系统灾难性风险的自愿框架。文章回顾了原始RSP的理论基础，包括条件性承诺和AI安全级别（ASL）体系，评估了政策实施的成功与不足，并介绍了新版本的更新内容。成功之处包括推动了更强大的安全保障措施、促使其他AI公司采用类似框架，以及为政府政策提供参考；不足之处在于利用阈值创建行业共识未能充分实现，政府行动进展缓慢。文章强调了透明度与问责制的重要性。

内容框架与概述

文章首先介绍RSP 3.0版本的发布背景和更新目的。然后详细阐述了原始RSP的理论基础，即通过条件性承诺和AI安全级别体系来应对AI能力快速提升带来的风险。作者将其理论变革机制归纳为内部强制函数、向上竞争、创建风险共识和面向未来四个方面。接着，文章诚实评估了过去两年多政策实施的效果：成功激励了更强大的安全保障开发，其他AI公司也采纳了类似框架并影响了政府政策；但同时也承认预设能力水平存在模糊性，政府层面的安全行动进展缓慢。最后，文章指出新版本将强化已生效的措施、改进不足之处，并提高决策透明度。