Building Anthropic：与联合创始人们的对话

导读

本文为 Anthropic 联合创始人团队的深度对话实录。在这场谈话中，创始人们回顾了他们在创立 Anthropic 之前的历程：从最初对 AI 潜力的半信半疑，到亲眼见证“规模定律”奏效后的震撼，再到最终因为一种强烈的责任感和使命感，选择共同创立一家将安全放在首位的 AI 公司。他们坦言，创立公司并非出于致富或获取权力的世俗野心，而是因为他们认识到，唯有下场参与竞争并以身作则，才能真正改变整个行业的轨迹。

对话的核心焦点之一是 Anthropic 的“负责任规模化政策（RSP）”。创始人们详细阐述了这项政策是如何从一个抽象的想法，一步步演变成贯穿全公司上下的“神圣宪法”。RSP 没有被塑造成一种技术官僚的阻碍，而是变成了一种务实的日常工作框架——它将安全工作转化为清晰的“评估（evals）”，在安全与创新之间找到了平衡，并试图借此在全行业掀起一场“向顶峰竞逐（race to the top）”的良性竞争。

展望未来，创始人们对 AI 的潜力充满热情。除了对 Claude 在编程和日常办公中的广泛应用感到兴奋外，他们特别强调了 AI 在推动前沿科学突破方面的巨大前景。无论是揭开神经网络“人工生物学”般神秘面纱的“可解释性”研究，还是利用 AI 攻克精神疾病、生物学难题甚至增进民主制度，他们坚信，只要能安全度过这段关键的过渡期，AI 终将成为解决人类根本挑战的强大力量。

第一章：为何从事AI工作？

主持人： 我们为什么要做AI？我随便点一个——Jared，你为什么做AI？

Jared： 我之前做物理做了很长时间，后来觉得腻了，想多跟朋友在一起，就这样。

某人： 我以为是Dario游说你来的。

Dario： 我觉得我没有明确游说过你。我只是陆续给你看各种AI模型的结果，然后试图说明这些模型非常通用、不只适用于某一件事，然后在某个时刻，等我展示了足够多的案例之后，你就说了句：“哦，好像确实是这样。”

如何相遇：各人与AI的结缘

某人： 你在那之前当了多久教授？就是你开始之前。

Jared： 大概六年吧。我想我还帮忙招募了Sam。

某人： 我去找你聊，你说"我觉得我在这里营造了一个不错的圈子——"

Jared： 对。

某人： “我的目标就是把Tom也拉回来。“后来成了。

某人： Chris，你在做可解释性（interpretability）研究的时候，是通过Google认识大家的吗？

Chris： 不是。我最早认识你们很多人，是在我十九岁第一次去湾区的时候。那时候认识了Dario和Jared，他们那时候是博士后，我觉得挺酷的。后来我在Brain（指Google Brain）工作，Dario加入之后我们并排坐在一起，我也和Tom在那里共过事。当然，后来我去了OpenAI，又和你们大家在一起了。所以我认识你们很多人已经超过十年了，想想还挺不可思议的。

某人： 我记得是2015年，在你参加的一个会议上认识了Dario，我当时想采访他，但Google的公关说我必须先读完他所有的研究论文——

Dario： 对，我那时候好像正在Google写《AI安全的具体问题》（“Concrete Problems in AI Safety”）。

某人： 我记得你还写过一篇关于那篇论文的报道。

那人： 我写了。我记得在正式开始和你共事之前，你邀请我去办公室聊，把AI的方方面面都讲给我听。我记得聊完之后心想，“哦，原来这件事比我意识到的严肃得多。“你当时大概在讲那个巨大的算力块，还有参数计数、大脑里有多少神经元之类的。

某人： 我觉得Dario常常给人这种感觉——“这件事比我想象的严肃得多。”

Dario： 是啊，我可是个爱报喜的人。

第二章：规模化的突破

某人： 我记得我们在OpenAI的时候，有了规模定律（scaling law）的相关研究，把模型越做越大，然后开始感觉像是真的有效了。它诡异地在一大堆不同项目上都持续有效，我想这就是我们最终走到一起紧密合作的原因——先是GPT-2，然后是规模定律，然后是GPT-3，我们就——

某人： 对，我们就是那帮让事情转起来的人。

某人： 没错。我想我们也都对安全充满热情，因为那个时代流行一种看法，认为AI会变得非常强大，但可能无法理解人类的价值观，甚至可能无法与我们沟通。所以我们对语言模型都相当兴奋，认为它是某种能保证AI系统必须理解隐性知识的途径——

某人： 而且是在语言模型上叠加来自人类反馈的强化学习（RLHF，reinforcement learning from human feedback），这也是扩大这些模型规模的全部理由——因为模型还不够聪明，无法在上面做RLHF。所以这就是安全与模型规模化之间的交织关系，我们到今天仍然相信这一点。

某人： 是的，还有一点就是，规模化工作是在Dario于OpenAI创建的安全团队内完成的，因为我们认为，预测AI趋势对于让自己被认真对待、让安全被当作真正的问题来看待，是非常重要的。

Dario： 确实如此。

某人： 我记得有一次在英国某个机场，从GPT-2采样，用它生成假新闻文章，然后在Slack上发消息给Dario——

第三章：AI的早期岁月

“这东西真的管用，可能会有巨大的政策影响。“我想Dario回了句类似"是的。“他一贯的风格。我们后来在那方面做了很多工作，还有发布相关的事，那真是挺疯狂的。

某人： 是啊，我记得那次发布，那好像是我们第一次合作。那是段有趣的时光。

某人： 是的，GPT-2发布。不过我觉得那段经历对我们很有意义，因为我们一起做了一件有点奇怪的、以安全为导向的事，后来又一起做了Anthropic——一件规模大得多、有点奇怪的、以安全为导向的事。说回到"具体问题"那篇论文——我是2016年加入OpenAI的，是最早的大约二十名员工之一，跟你一起，Dario。我记得那时候《AI安全的具体问题》感觉像是第一篇主流的AI安全论文，我好像从来没问过你这篇论文是怎么来的。

Dario： Chris知道这段故事，他也参与其中。我想我们当时都在Google。我忘了我那时候在做什么别的项目，但就像很多事一样，那篇论文是我为了拖延那个我现在完全想不起来的项目而产生的。我想是Chris和我决定把AI安全领域有哪些悬而未决的问题整理出来——而且AI安全通常是以一种非常晦涩、高度抽象的方式来讨论的，能不能把它落到当时正在发生的机器学习实践上？现在在这个方向上已经有六七年的积累了，但在当时这几乎还是一个奇怪的想法。

Chris： 是的，我觉得从某种意义上说，它几乎是一个政治项目。那时候很多人并不认真对待安全问题，所以有一个目标，就是整理出一份问题清单——这些问题大家普遍认为合理，往往在文献中已经存在——然后让来自不同机构、有公信力的一批人共同署名。我记得我花了很长一段时间，专门去跟Brain里的二十多位研究员逐一沟通，为发表这篇论文建立支持。从某种程度上来说，如果你仔细审视它所提出的那些问题和强调的许多内容，我觉得它经受住时间考验的程度并不算高——那些并不真的是正确的问题。但如果你把它看作是一个凝聚共识的行动——说明这里有某些真实存在、值得认真对待的东西——那它确实是一个相当重要的时刻。

宪法AI的诞生

某人： 你最终来到这个非常奇异的科幻世界里。我记得在Anthropic初期，我们在讨论宪法AI（constitutional AI），我想Jared当时说：“哦，我们就给语言模型写一部宪法，就能改变它所有的行为。“那听起来极其疯狂，但你们为什么觉得它会成功？因为那是公司早期第一批重大研究想法之一。

Jared： 是啊，我想Dario和我已经谈论这个想法有一段时间了。我觉得简单的东西在AI里往往真的非常非常有效。早期版本其实挺复杂的，但我们不断打磨，最后变成了：就利用AI系统擅长解答多项选择题这一特点，给它一个提示，告诉它要找什么——这基本上就是我们所需要的大部分内容了。

某人： 然后我们就能直接把这些原则写下来。

Dario： 这又回到了那个巨大的算力块，或者说"苦涩的教训”（bitter lesson），或者说规模化假设。如果你能找到这样一件事：你能为AI提供数据，且有一个清晰的目标，你就能让它去做这件事。这里有一套指令，一套原则。AI语言模型能够读取这套原则，然后与自身正在进行的行为进行比较，于是训练目标就有了。所以一旦你知道这一点，我和Jared的看法是：总有一种方式能让它成功，只需要在足够多的细节上不断打磨。

Jared： 是啊。对我来说，那段早期时光一直感觉很奇怪，因为我是从物理学跨过来的——我想我们现在都忘了那时候的感觉，因为现在大家都对AI趋之若鹜，但我记得当时和Dario聊"具体问题"和其他事情的时候——我当时的感觉是，AI研究者们经历了AI寒冬（AI winter）之后，心理上都受到了很深的创伤——他们觉得，拥有宏大的想法或愿景，是一件非常不被允许的事情。我认为，谈论安全问题也是如此：要真正关心安全，你就必须相信AI系统有可能变得真正强大、真正有用，而当时似乎存在一种针对"宏大抱负"的禁忌。

Dario： 我觉得，物理学家有一个优势——他们非常自大，总是在做极其宏大的事情，动辄把问题放在宏大的框架下来谈，所以——

Jared： 是啊。

Dario： 我觉得确实如此。我记得在2014年，有些话就是说不得。但我认为，这其实是学术界普遍存在的问题的延伸——也许理论物理学除外——学术机构因种种原因演变成了极度规避风险的机构。就连AI产业界也多少移植了这种心态。这种状况持续了很长时间——我觉得直到大约2022年，大家才开始真正走出这种思维定势。

两种保守主义

Jared： 关于"保守"和"谨慎”，有一件值得思考的事：什么叫做保守？一种理解是，认真对待你所做之事的风险或潜在危害，为此感到忧虑。另一种保守则是说：“哦，把一个想法太当回事、相信它可能会成功，这本身就是一种科学上的傲慢。“我认为存在两种截然不同的保守与谨慎，而我们当时所处的环境恰恰被后一种所主导。历史上有先例可循——看看1939年核物理学家们关于核弹的早期讨论：费米（Fermi）排斥这些想法，因为这听起来实在太荒诞了；而另一些人，比如西拉德（Szilard）或泰勒（Teller），则因为忧虑其风险而认真对待这些想法。

Dario： 是啊。

共识即羊群效应

Jared： 我在过去十年里学到的最深刻的一课——我想你们大概也都以各自的方式领悟到了——是：存在一种表面上的"共识”，那些"人人皆知"的事情，看似睿智，看似常识，但实际上不过是羊群效应乔装成了成熟与老练。当你亲眼见证共识可以在一夜之间改变，而且不止一次，你回想起当初虽有预感却不敢押注，心想：“我好像觉得是这样，但我算什么？我怎么可能是对的，而这么多人都是错的？“等你见过几次这种情况，你就会开始说：“不，这就是我们要押的注。我不确定自己是不是对的，但就忽略那些杂音吧——就看着它发生。哪怕你只有50%的胜率，50%的正确率贡献也已经极大了。“你在贡献别人根本没有在贡献的东西。

Dario： 对。

Jared： 在安全这件事上，我感觉我们现在正处于这样的处境：主流观点认为，很多安全方面的问题有些异乎寻常，并不自然源于技术本身。但在Anthropic，我们做了大量研究，发现奇怪的安全错位问题恰恰作为我们正在构建的技术的自然产物浮现出来——所以我们现在就处于那种逆共识的位置。

Dario： 不过我感觉，哪怕只是过去这18个月，这种情况也已经开始在转变了——

Jared： 我们一直在推动这种转变——

第四章：情绪转变

Dario： 我们确实一直在出力。

Jared： 不，我是想说——

Dario： 对，通过持续发表研究成果。这种持续不断的力量。是啊。

Jared： 不断地发表。这股持续的力量。是啊。

Dario： 不过我也认为，整个世界对AI的情绪已经发生了非常深刻的转变。我们在用户调研中越来越常听到普通客户、普通人说……“我真的很担心AI对整个世界会产生什么影响。“这种担忧有时候指的是就业、偏见或有害内容，但有时候更深层：这东西难道就这么把世界搞乱了吗？它究竟会如何从根本上改变人类的协作与运转方式？说实话，这一点我当初真没预料到。不管出于什么原因，ML研究圈里的人似乎一直比普通大众更不看好AI会变得非常强大——也许是一种奇怪的谦逊，或者类似的东西。

白宫会议与外界的重视

Jared： 2023年我和Dario一起去了白宫，那次会议上，Harris、Raimondo他们基本上说了这样一番话，我来转述一下：「我们在关注你们。AI会是件非常重要的事，我们现在是真的在认真对待了。」

Dario： 他们说得对，完全正确。

Jared： 但放在2018年，你肯定不会想到「总统会把你叫到白宫，告诉你他们在密切关注语言模型的发展」——这完全出乎意料，那可是2018年的事。

入行AI的早期判断与不确定性

有一件事我觉得也挺有意思：我们所有人都是在这件事还看不出苗头的时候入行的。我们以为它有可能发生，就像费米对原子弹持怀疑态度——他只是个严谨的科学家，有一些证据表明它可能成功，但反对的证据同样不少。他大概是判断值得一试，因为如果真成了，那将是件大事。我觉得我们所有人当时的心态都是这样：2015、2016、2017年，有一些证据，越来越多的证据表明这件事可能意义重大。但我记得在2016年，我去咨询过所有的导师——

Dario： 是啊是啊。

Jared： 我说，「我做过创业，我想为AI安全出点力，但我数学不够好，不太清楚自己能怎么帮上忙。」当时人们的反应要么是：「你得在决策理论（decision theory）上极其出色才能有所贡献。」我想了想，那条路大概走不通。要么就是：「好像也不会真的出现什么疯狂的AI。」所以最后只有寥寥几个人真正表示认可，说「嗯，好，那确实是件值得做的事。」

Tom的记者转型经历

Tom： 我记得2014年我还是记者的时候，整理过ImageNet历年成绩的折线图，试图把这些写成报道发出去，所有人都觉得我疯了。2015年，我试图说服彭博社让我写一篇关于英伟达的文章——因为几乎每篇AI研究论文都开始提到GPU的使用——他们说那是异想天开。2016年，我离开新闻业转行做AI，至今还留着那些邮件，上面写着「你正在犯这辈子最大的错误」，偶尔翻出来看看。当时从很多角度来看，认真对待这件事、相信规模化会奏效、相信这个技术范式也许真的与以往不同——这一切看起来都像是疯了。

Jared： 你就像迈克尔·乔丹和那个不信任他的高中教练一样。话说你当时到底是怎么做决定的？是纠结了很久，还是觉得显而易见？

Tom： 我出了个奇招：我提出「让我成为你们的全职AI记者，同时给我双倍薪水」——我知道他们不可能答应。然后我睡了一觉，第二天早上醒来就辞职了。整个过程相当平静。

Jared： 你就是个果断的人。

Tom： 就那一次吧。我想是因为——我每天上班就是读arXiv论文，下班打印arXiv论文回家接着读，包括Dario在百度时期的论文，读着读着就觉得「这里正在发生某件完全疯狂的事」。到某个时刻，我想通了一件事：要有信念地下注。我觉得在座各位在自己的职业生涯里都做过这件事——就是有信念地相信这条路会走通。

Jared： 是啊。我肯定没你那么果断。我就这么摇摆了大概六个月，心里一直转：「好，我真的要去吗？要去吗？要不要试着创业？要不要做这件事？」

工程师在AI领域的角色认知

Sam： 不过我也觉得，那时候大家几乎不怎么谈论工程师，不谈工程师能对AI产生什么影响，对吧？

Jared： 对，完全没有。

Sam： 这件事现在听起来那么理所当然。如今对各种类型工程师的人才争夺，也到了同样的激烈程度，但那时候的风气就是：你得是研究员——

Tom： 嗯。

Sam： 只有研究员才能做AI。所以我觉得你当时花那么长时间纠结这件事，完全不奇怪。

Jared： 是的。

以工程师身份加入OpenAI

Tom： 对，我想正是这件事让我最终决定加入OpenAI——我给那边的人发了消息，他们说觉得我能帮上忙，可以通过做工程工作来对AI安全做出贡献。在那之前根本没有这样的机会，所以这就是让我去那里的原因。——你在OpenAI是我的上司。

Sam： 是的，没错。

Tom： 我记得我加入的时候，你已经在那儿待了一段时间了。

Sam： 稍微早一点。

Tom： 因为我之前在Brain待了一阵。

Sam： 嗯。——我好像从来没问过你，当初是什么让你决定加入的？

Sam从Stripe到OpenAI的历程

Sam： 嗯，那时候我在Stripe待了大概五年半，我认识Greg，他在Stripe是我的上司，而且实际上是我把他和Dario介绍认识的——他在创办OpenAI的时候，我跟他说：「我认识的最聪明的人就是Dario，你能把他拉进来的话，那真是太幸运了。」于是Dario去了OpenAI，我在Stripe也有几个朋友跟着去了那里。跟你有点像，我那时候也在想，离开Stripe之后想做什么。

去Stripe说白了是为了积累技能——之前我做的是非营利和国际发展领域的工作，本来以为自己会回去继续做那些事。我一直有这么一个心愿：「我真的很想帮助那些条件不如我的人，」但在Stripe之前，做那些工作时我的能力还不足。所以我考虑过回去做公共卫生，也短暂想过重新涉足政治，但与此同时我也在看其他科技公司，以及其他能产生影响的途径。OpenAI当时让我觉得是一个非常好的交汇点：它是一家非营利机构，在做一件宏大、有使命感的事，我也非常相信AI的潜力，毕竟我和Dario有些交情——

Tom： 而且他们需要管理方面的帮助。

Sam： 他们确实非常需要帮助，这是事实。我觉得这件事跟我非常契合，对吧？我心想：「这里是一家非营利，里面有这么多真正优秀的人，出发点也很好，但看起来有点一团乱。」

Tom： 嗯。

Sam： 这让我非常兴奋——能进来哪怕只是做个多面手，对吧？

在OpenAI的多面角色

我管理人员，也参与了一些技术团队——

Tom： 组织规模化，对。

Sam： 对，规模化那个团队，在语言团队工作，后来接手了一些……也做了一些政策方面的事，和Chris一起工作，我觉得那里有很多员工身上有真正的善意，我非常渴望进去，就想尽力帮这家公司运转得稍微顺畅一些。

信任与安全：从Stripe到AI领域

Tom： 我记得到了后期，我们做完GPT-3之后，你有一次问：「你们有没有听说过一个叫信任与安全（trust and safety）的东西？」

Sam： 对，我记得！确实发生过。

Tom： 哈，对。

Sam： 我说：「我在Stripe管过一些信任与安全团队。有一个叫信任与安全的东西，你们可能要考虑一下，毕竟做的是这样的技术。」这件事其实挺有意思，因为它在某种程度上是AI安全研究和更实际操作工作之间的中间地带——AI安全研究关注的是怎样从根本上让模型变得安全，而这个更接地气。我确实觉得，当时提出这件事是有价值的：这将会是件大事，我们同时也必须日复一日地把这些实际工作做起来，这样等到真正高风险的时刻来临时，才有足够的积累。

Jared： 也许现在是个好的过渡点，可以聊聊负责任规模化政策（responsible scaling policy）这类东西，以及我们当初是怎么想出来的，

第五章：负责任规模化政策（The Responsible Scaling Policy）

Jared： 以及为什么我们会想出这个政策，还有我们现在是如何运用它的——尤其是考虑到我们在当前模型上做了如此大量的信任与安全工作。

Tom： 那么，负责任规模化政策最初是谁提出来的？是你和Paul吗？

Jared： 对，最早是我和Paul谈到这件事——Paul Christiano，大概是2022年底的事。起初的想法是：我们是不是应该在某个特定节点暂停规模化，直到找到了解决某些安全问题的方法？后来又觉得，在一个地方设个上限然后再解禁，这种方式有点奇怪，不如设置一系列阈值——在每个阈值上都要做一些测试，看看模型的能力水平，同时要采取越来越严格的安全和保密措施。不过最初有了这个构想之后，我们意识到：如果这件事由某个第三方来推动，效果会更好。这不该由我们来做，不应该从一家公司发出来，因为那样其他公司就不太可能跟进了。所以Paul就去独立设计这套框架，其中许多细节不断调整，而我们这边也在同步思考它应该如何运作。等Paul把方案整合起来之后，他公布这个概念没多久，我们自己的版本也在一两个月内相继发布。

Tom： 我们许多人都深度参与其中。我记得自己至少亲自起草过一个版本，但前后一共有好几稿。

Jared： 草稿实在太多了。我觉得这是公司所有文件里修改遍数最多的一份——这也是理所当然的，对吧？它就像美国对待宪法的方式——那是一份神圣的文件。我认为这恰恰是美国的一大支柱。我们不担心美国会偏离轨道，部分原因就在于，每一个美国人都觉得宪法是大事，谁要是触犯了它，“我会很愤怒的。“负责任规模化政策对Anthropic来说承载着同样的东西，它是Anthropic的神圣文件，所以值得花大量心思把它做对。

RSP的演进：从理念到组织架构

Tom： 在Anthropic，观察负责任规模化政策的发展过程一直让我觉得很有意思。感觉它经历了太多不同的阶段，而让它真正运转起来需要很多不同类型的能力。有大方向上的构想——这方面我觉得Dario、Paul、Sam、Jared还有很多人都在思考：原则是什么？我们想表达什么？我们怎么知道自己是对的？但也同时也有非常具体的执行层面的迭代：我们以为在某个安全级别上会看到某种情况，结果没有，那我们是不是应该调整，确保我们真的在对自己负责？还有各种组织架构上的问题，比如我们就曾说：要改变负责任规模化政策的组织架构，让责任归属更清晰。对于一份如此重要的文件，我非常喜欢宪法这个类比——它需要围绕这一份文件存在一整套机构和体系，就像美国为了确保宪法得到遵守而设立的那些机构：法院、最高法院、总统、国会两院，它们当然还做很多其他的事，但围绕这一份文件，确实存在着一整套基础设施。我觉得我们也正在学习这个道理。

Jared： 我觉得这在某种程度上反映了我们很多人对安全问题的一个基本看法：安全是一个可以解决的问题，只是这个问题极其、极其困难，需要大量大量的工作。还有我们需要建立起来的所有这些机构——就像汽车安全领域那样，经过了很多很多年逐步积累起来的各种机构。但我们在问自己：我们有时间那样慢慢来吗？我们必须尽可能快地搞清楚AI安全需要什么样的机构，把它们建立起来，先在这里建立，但同时要让它可以对外推广复制。

Tom： 说得对。而且这也在强制凝聚共识——如果组织中任何一个部分没有与我们的安全价值观保持一致，这种不一致就会通过负责任规模化政策暴露出来，对吧？负责任规模化政策会拦住他们想做的事，所以这是一种方式，能一遍又一遍地提醒所有人，从根本上把安全变成一个产品要求，纳入产品规划流程之中。所以，这不只是我们反复念叨的一堆套话——而是说，如果你来到这里却没有保持一致，你真的会碰壁。

Dario： 是的。

Jared： 你要么学着跟上这套体系，要么就行不通。

Dario： 是的。

RSP的外部沟通：让安全"无聊化”

Dario： 负责任规模化政策随着时间推移变得有点意思——我们在上面花了数千小时的工作，然后我去跟参议员们交谈，向他们解释这个政策。我说：“我们有一些措施，一方面让我们做的东西很难被盗用，另一方面也确保其安全。“他们说：“是的，这完全是正常操作。你是说不是每个人都这样做吗？“你就想：哦，好吧，对。

Tom： 确实，不是每个人都这样做——这话有一半是真的。

Dario： 是啊，但这一点特别神奇——我们在这上面花了那么大力气，一旦归结起来，他们就说：“是的，这听起来是正常的做法。”

Tom： 是的，听起来不错。

Dario： 这一直都是我们的目标。就像Daniela说的：“让这件事尽可能无聊、尽可能普通，让它变成财务那样的事情。”

Tom： 是的，就好比一次审计。

Dario： 对对对。

Tom： 对吧？

Dario： 是的。无聊和普通正是我们想要的，尤其是回过头来看。

RSP带来的清晰度

Tom： 是啊。而且，Dario，我认为除了推动共识，它还带来了清晰度——

Dario： 嗯。

Tom： ——因为我们正在做的事情被白纸黑字写了下来，公司里的每个人都能读懂；从安全角度来看，我们应该努力达到什么目标，从外部来看也清晰可见。当然还不完美，我们仍在迭代、在改进，但我认为有一定价值的是，能够明确说出：“这是我们担忧的，就是这里这件事。“你不能随便拿"安全"这个词来把某件事推向任何一个方向——既不能说"因为安全，我们不能做X”，也不能说"因为安全，我们必须做X”。我们真的在努力让我们所表达的意思更清晰。

Dario： 是的，它能让你不必为天底下每一件小事都忧心忡忡。

Tom： 没错。

警报疲劳与精准校准

Dario： 因为那些频繁的"消防演练”，从长远来看其实会损害安全的根基。

Tom： 对。

Dario： 我说过，如果有一栋楼，每周都会拉响火警，那这栋楼其实非常不安全——因为真的着火的时候，大家只会想：

Tom： 没人会在意。

Dario： “哦，它老是响。“所以——

Tom： 是的。

Dario： 保持精准校准非常重要。

Tom： 是啊。没错。是的。

RSP构建健康的激励机制

Jared： 有一个稍微不同的视角，我觉得相当有助于厘清思路——我认为负责任规模化政策在很多层面上都创造了健康的激励机制。从内部来看，它把每个团队的激励与安全对齐，因为这意味着如果我们在安全方面没有取得进展，就会被叫停。从外部来看，我认为它也比我能想到的其他选择创造了更健康的激励机制——因为这意味着，如果我们在某个时刻不得不采取某种重大行动，比如在某一刻不得不说"我们的模型已经到达某个节点，而我们目前尚无法保证模型的安全”，那这个决定就有证据支撑，有一套预先建立的框架作为参照，而且是公开透明的。所以我认为，负责任规模化政策在很多层面上——也许以我在讨论早期版本时都没有充分意识到的方式——构建了一个比我想到过的任何其他方案都更好的框架。

Tom： 我觉得这些都是对的，但感觉这在某种程度上低估了其中的挑战性——要弄清楚正确的政策、评估标准以及边界线该划在哪里，有多么困难。我认为我们一直在、并且还会继续大量迭代这些内容。还有一个难以回答的问题：你可能处于某种境地，某件事非常明显是危险的，或者非常明显是安全的——但对于一项如此崭新的技术，实际上存在巨大的灰色地带。所以我认为——

某人： 我们刚才说的这些，正是当初让我对负责任规模化政策（RSP）感到非常非常兴奋的原因，现在依然如此。但我也认为，以清晰的方式颁布并落实这项政策，比我预想的要困难得多，也复杂得多。

某人： 是的，我觉得这正是关键所在。这些灰色地带是无法预测的，实在太多了。除非你真的去尝试落实每一件事，否则你根本不知道哪里会出问题。所以我们现在努力去落实所有细节，就是为了能尽早发现问题。

某人： 是的，在你真正把它做对之前，你必须得过上三四遍。迭代是非常强大的，你不可能一次就做对。既然赌注越来越大，你肯定希望尽早开始迭代，而不是拖到最后。

某人： 你同时也在建立内部机制和流程，所以具体细节可能会有很大变化，但建立起“付诸实践”的肌肉记忆才是真正有价值的。

某人： 我在 Anthropic 负责算力方面的工作，所以……

某人： 这很重要。

某人： 谢谢。我也这么觉得。对我来说，我们要和外部人员打交道，而不同的外部人员对“事情发展会有多快”处于不同的光谱上。我觉得这也是个挺有意思的现象。我一开始也没觉得发展会这么快，但随着时间的推移，我的看法改变了。所以我很能理解这种心态。因此，在与那些认为这需要更长时间的人沟通时，RSP对我来说非常有用。因为这样我们就有了一个框架：在情况变得非常激烈之前，我们不需要采取极端的安全措施；然后他们可能会说：“我觉得情况在很长一段时间内都不会变得激烈。”我就可以回一句：“好，没错，那我们就不需要采取极端安全措施。”这就让和外部人员沟通变得容易多了。

某人： 是的，这让它变成了一件你可以谈论的寻常事，而不是什么非常奇怪的东西。它还体现在大家工作中的哪些方面呢？

某人： 评估（evals），评估，评估。一切都关乎评估。所有人都在做评估。我们的训练团队一直在做评估。我们试图弄清楚，这个模型是否已经变得足够好，以至于有潜在的危险？那么我们有多少个专门做评估的团队呢？我们有前沿红队（Frontier Red Team）。我们有很多人——

某人： 基本上每个团队都会产出评估结果。

某人： 这意味着你就是对照着 RSP 进行测量，去寻找那些会让你担忧或不担忧的特定迹象。

某人： 完全正确。要确定一个模型能力的下限很容易，但要确定上限却很难。所以我们投入了大量大量的研究精力去确认：“这个模型到底能不能做这件危险的事？也许存在某种我们没想到的技巧，比如思维链（chain of thought）或者最佳事件（best event），或者是某种工具使用（tool use），能让它帮你做极其危险的事。”

某人： 这在政策方面非常有用，因为“什么是安全”一直是个非常抽象的概念。当我告诉别人：“我们有一套评估标准，它决定了我们是否部署模型。”然后你就可以去找政策制定者、国家安全专家，或者我们在化学、生物、放射性、核（CBRN）领域的专家那里进行校准，帮助我们建立校准良好的评估标准。反事实地说，如果没有 RSP，这根本就不会发生。但一旦你有了具体的评估标准，人们就会更有动力来帮你把它做准确，所以它在这一点上非常有用。

Daniela： RSP 绝对体现在我的工作中，而且很频繁。奇怪的是，我思考 RSP 最多的方式，其实就像它听起来的那样——就是语气。我想我们最近对 RSP 的语气进行了一次大改写，因为它原本听起来太技术官僚了，甚至有一点对立的感觉。我花了很多时间思考，如何建立一个大家都想参与其中的体系？如果 RSP 能成为公司里每个人都可以随口聊起的东西，那就好太多了。就像我们现在用 OKR 一样，大家可以清楚地说出：“RSP 的首要目标是什么？我们怎么知道自己是否达到了？我们现在的 AI 安全等级（AI safety level）是几级？是 ASL-2 还是 ASL-3？”

人们要知道该去关注什么，因为只有这样，我们才能建立起判断“是否出问题”的良好共识。如果它过于技术官僚，或者让公司里只有特定的人觉得它容易理解，那效率就不高了。看着它逐渐演变成一份我认为公司里大多数人（甚至所有人）无论什么岗位都能读懂的文件，这种感觉真的很棒。他们会觉得：“这听起来很合理。我想确保我们正在以这些方式构建 AI，我也明白为什么会担心这些问题，如果我碰到了什么状况，我也大概知道该找什么。”就像是把它简化到这样的程度：如果你在一家制造厂工作，你看了看说：“咦，这个安全带应该是这样连接的，但它没连上。”你能一眼发现问题。而且在领导层、董事会、公司其他部门以及实际负责构建的人员之间，存在着健康的反馈流。因为我真的觉得，在大多数情况下，这些事情出问题就是因为沟通断层或者信息交叉。如果因为这种原因导致事情出岔子，那真的会是一件让人很难过的事。所以关键就是如何将其可操作化，让人们容易理解。

第六章：创立故事（Founding story）

某人： 是啊，我想说的是，我们中没有一个人想创办一家公司。我们只是觉得这是我们的责任，对吧？

某人： 感觉我们不得不这么做。

某人： 就像，我们必须做这件事。这就是我们能让 AI 发展得更好的方式。这也是我们做出承诺（pledge）的原因，对吧？

某人： 是的，因为我们觉得做这件事是我们的责任。

Jared： 我本来只想以某种有益的方式去发明和发现事物。这就是我入行的初衷，这让我走上了研究 AI 的道路。AI 需要大量的工程工作，最终也需要大量的资本。但我发现，如果你在做这件事的时候没有去设定大环境，也就是你没有建立起这家公司，那最终很多工作做出来，还是会重复那些让我对科技圈感到如此疏远的错误。还是同样的一批人，同样的态度，同样的模式匹配。所以在某个时刻，事情似乎变得不可避免：我们必须用一种不同的方式来做这件事。

某人： 我们在读研一起玩的时候，我记得你有过一整套的规划，试图弄清楚如何以一种推动公共利益的方式来做科学研究。我觉得这和我们现在对待这件事的想法非常相似。我记得你当时好像有个叫万尼瓦尔计划（Project Vannevar）之类的东西。

Jared： 那时候我是个教授。我想基本上我就是观察了局势，并且确信 AI 在影响力上正处于一条非常、非常、非常陡峭的轨迹上，鉴于资本的必要性，我觉得作为一名物理学教授，我没法继续沿着那条路走下去了。我想要和我信任的人一起建立一个机构，努力让 AI 朝着好的方向发展。但是，是的，我永远不会推荐别人去创办公司，也不会真的想这么做。我的意思是，这只是达到目的的手段。

某人： 不过我觉得，通常事情就是这样才能做好。如果你做某件事只是为了让自己致富或者获取权力，或者别的什么……你必须真正关心在现实世界中实现某个真实的目标，然后你就会想尽一切办法去达成它。

第七章：建立信任文化（Building a culture of trust）

Daniela： 嗯，我经常把我们在这个会议桌上的信任度看作是我们的一项战略优势。虽然这么说听起来挺好笑的，但这确实是事实。Tom，你以前在其他创业公司待过。我以前从来没当过创始人，但要让一大群人拥有同一个使命，其实真的很难。我觉得我每天来上班时感到最开心、也是在 Anthropic 感到最自豪的一点，就是这种信任是如何如此好地扩展到这么多人身上的。我感觉在这个群体中，以及和整个领导层之间，每个人都是为了使命而来的，而且我们的使命非常明确，非常纯粹。就像 Dario 说的，我觉得这种特质在科技行业里并不常见。我们正在努力做的事情感觉有一种纯粹的美好（wholesomeness）。我也同意，我们中没有谁是抱着“我们就是去创办一家公司吧”的想法来的。

某人： 我觉得我们不得不这么做。就觉得我们没法在原来的地方继续做原来的事情了。我们必须自己来。

某人： 而且有了 GPT-3——我们所有人都接触过或参与过它——再加上规模定律之类的东西，我们在 2020 年的时候就已经看到了眼前的景象。感觉就像，如果我们不马上大家一起做点什么，就会到达一个不归路。你必须采取行动，才能有能力去改变整个环境。

某人： 顺着 Daniela 的话，我确实认为在这个群体里存在着极深的信任。我想我们每个人都知道，我们投身其中是因为我们想要帮助这个世界。我们签署了那份 80%承诺（80% pledge），那是大家都觉得“是的，我们显然要这么做”的事情。我确实觉得信任是一种极其罕见的、特别的东西。

某人： 我要把保持高标准的功劳归功于 Daniela。

某人： 把小丑们挡在门外。把小丑们挡在门外。

Daniela： 首席小丑驱赶员！这就是我的工作。

某人： 不，但我觉得你是公司文化得以规模化的原因。人们常说这里的人有多好。这其实是一件极其重要的事情。

某人： 我觉得 Anthropic 的内部政治非常少，当然，我们所有人的视角都比常人更高，我尽量记住这一点。

某人： 这是因为自我意识（ego）低。

某人： 是因为自我意识低，而且我确实认为我们的面试流程以及在这里工作的人的类型，几乎都对内部政治有一种“过敏反应”。

某人： 还有团结。团结太重要了。产品团队、研究团队、信任与安全团队、推向市场（go-to market）团队、政策团队、安全专家……他们都在努力为公司相同的目标、相同的使命做出贡献。当公司的不同部门认为他们在努力完成不同的事情、认为公司的意义不同，或者认为公司的其他部门试图破坏他们正在做的事情时，这就变得功能失调了。我认为我们成功保留下来的最重要的一点——再次强调，是诸如 RSP 之类的东西在推动它——是这样一种理念：并不是公司的某些部门在制造破坏，而另一些部门在努力修复；而是公司的不同部门履行不同的职能，并且它们都在同一个变革理论的指导下运作。

某人： 极度的实用主义（pragmatism），对吧？我最初去 OpenAI 的原因，因为它是一家非营利机构，是一个我可以专注做安全的地方。随着时间的推移，那里可能不再是一个那么合适的地方，并且需要做出一些艰难的决定。在很多方面，我在那件事上非常信任 Dario 和 Daniela，但我并不想离开。那是我其实相当不愿意顺从的一件事，因为一方面，我不知道拥有更多的 AI 实验室对世界是不是一件好事。这是我相当、相当不愿意做的事。当我们在离开时，我对于创办一家公司也是不情愿的。我记得我争论了很长时间，认为我们反而应该做一家非营利机构，只专注于安全研究。真的是实用主义，直面那些约束，并且诚实地面对这些约束对于完成那项使命意味着什么，最终促成了 Anthropic 的诞生。

某人： 我觉得我们在早期很好地吸取了一个非常重要的教训：少做承诺，多去兑现。努力保持校准，保持现实，直面权衡，因为信任和信誉比任何特定的政策都更重要。

某人： 我们拥有现在的一切真的极其罕见。看着 Mike Krieger 为安全事项辩护，讲述为什么我们还不应该发布某个产品；同时也看着 Vinay 说：“好的，我们必须为业务做正确的事。我们要怎样才能冲过终点线？”听到那些深耕技术安全组织的人在谈论，为人们构建实用的东西同样重要；听到做推理（inference）的工程师在谈论安全。这太惊人了。我认为这再次说明了，在这里工作最特别的一点是，大家都以这种团结的精神将实用主义、安全和业务放在首位。这太疯狂了。

某人： 我是这样看待这个问题的：把权衡的过程，从仅仅是公司领导层的事，扩展到每一个人身上。功能失调的世界是这样的：你有一群只看得到一方面的人，比如负责安全的说“我们必须始终这么做”，产品部门说“我们必须始终这么做”，研究部门说“这是我们唯一关心的事情”。然后你在高层就被卡住了。你必须做出决定，但你掌握的信息又没有他们任何一方多。这就是功能失调的世界。而功能正常的世界是：你能够向每个人传达“我们都在共同面临这些权衡”。这个世界远非完美，处处都是权衡。你做的每一件事都将是次优的，你做的每一件事都将是某种试图两全其美的尝试，但结果往往不如你想象的那么好。而每个人都能在“共同直面这些权衡”上达成共识，他们只会觉得，他们是在从自己的特定岗位、作为“直面所有权衡”这一整体工作的一部分，来直面这些权衡。

某人： 这是在赌一场“向顶峰竞逐”（race to the top），对吧？这不是一个纯粹的只赚不赔的赌注。事情可能会出岔子，但我们都在这一点上保持一致：“这就是我们正在下的注。”

某人： 而且市场是讲究实用的。

第八章：向顶峰竞逐（Racing to the top）

某人： 所以 Anthropic 作为一家公司越成功，其他人去复制那些让我们成功的东西的动力就越大。我们的成功与我们实际所做的安全工作绑定得越紧密，它就越能在行业内创造出一种引力，实际上会带动整个行业的竞争。这就好比：“当然，我们会去造安全带，其他人也可以复制它。”这很好。

某人： 是的，这是一个好的世界。

某人： 这是非常好的。这就是向顶峰竞逐，对吧？但如果你说：“嗯，我们不去开发这项技术，你不能把它开发得比别人更好”，那到头来根本行不通，因为你没有证明从这儿走到那儿是可能的。世界需要到达的地方（撇开行业不谈，撇开单一公司不谈），是它需要带领我们成功度过这样一个过渡期：从这项技术不存在，过渡到这项技术以非常强大的方式存在，且社会已经成功管理了它。我认为要实现这一点，唯一的途径就是：你必须在单一公司的层面上，并最终在整个行业的层面上，真正直面那些权衡。你必须找到一种方法，既能真正具有竞争力，在某些情况下真正引领行业，同时又能安全地完成事情。如果你能做到这一点，你产生的引力将是巨大的。有太多因素——从监管环境，到人们想要工作的地方，甚至有时候是客户的观点——都在推动着这样一个方向：如果你能证明你在不牺牲竞争力的情况下也能在安全方面做得很好，如果你能找到这种双赢，那么其他人也会受到激励去效仿。

某人： 是的，这就是为什么把像 RSP 这样的东西做对如此重要。因为我认为，当我们自己看到技术的发展方向时，我们经常会想：“哇，我们需要对这件事非常小心。”但与此同时，我们必须更加小心，不要“狼来了”，不要说：“创新需要在这里停止。”我们需要找到一种方法，让 AI 变得有用、具有创新性、让客户喜欢；但同时也要弄清楚真正的约束边界在哪里，哪些约束是我们能够坚守的，能让系统变得安全，这样其他人才有可能觉得他们也能做到，他们也能成功，他们也能与我们竞争。

某人： 我们不是末日论者（doomers），对吧？我们想要构建积极的东西。我们想要构建好的东西。

某人： 我们已经在实践中看到这发生了。我们的 RSP 出台几个月后，最知名的三家 AI 公司也有了他们的版本，对吧？可解释性研究是另一个我们起到带头作用的领域。就整体对安全的关注而言，比如与各大 AI 安全研究所的合作等其他领域。

某人： 是的，前沿红队几乎立刻就被复制了，这是好事。你希望所有的实验室都能去测试那些非常、非常令人恐惧的安全风险。

某人： 出口安全带。

某人： 是的，确切地说。出口安全带。

某人： 嗯，Jack 之前也提到了，但客户其实也非常关心安全，对吧？客户不想要会产生幻觉的模型。他们不想要容易被越狱（jailbreak）的模型。他们想要有用且无害（helpful and harmless）的模型，对吧？所以很多时候，我们在客户电话里听到的就是：“我们选择 Claude，因为我们知道它更安全。”我认为这同样是一个巨大的市场影响。因为我们拥有值得信赖、可靠的模型的能力，这对给竞争对手施加市场压力也至关重要。

某人： 也许可以把 Dario 刚刚说的话再展开一点。我觉得有一种叙事或者观念认为：高尚的做法几乎就是“高尚地失败”，对吧？就好像你应该去把安全放在第一位，你应该以一种不切实际的方式去展示，好借此证明你对这项事业的纯粹之类的。我觉得如果你这么做，其实是非常弄巧成拙的。一方面，这意味着你会让那些做决策的人，自我筛选为一群根本不在乎这些的人，一群不把安全放在首位、不关心安全的人。另一方面，如果你真的努力去寻找协调激励机制的方法，让那些艰难的决定如果发生，也是在那些最能推动并支持做出正确艰难决定的点上发生，并且那里有最多的证据支持；那么你就可以开始触发 Dario 所描述的那种“向顶峰竞逐”。这样，原本关心此事的人就不会被排挤出影响力圈子，你反而能拉动其他人不得不跟上。

第九章：展望未来（Looking to the future）

主持人： 那么，当谈到接下来我们将要做的事情时，大家对什么感到兴奋呢？

Chris： 嗯，关于可解释性，有很多理由可以让你感到兴奋。其中之一显然是安全。但还有一个理由，我觉得在情感层面上，让我觉得同样兴奋或同样有意义：那就是我认为神经网络是美丽的，我认为它们内部有许多我们看不见的美。我们把它们当成黑匣子，对它们内部的东西不太感兴趣。但当你开始往里面看时，它们充满了令人惊叹的、美丽的结构。这就好比人们看待生物学，如果他们说：“你知道，进化真的很无聊。它只是一个简单的东西，运行了很长时间，然后就造出了动物。”然而实际上，进化产生的每一种动物都……我认为这就好比是一个优化过程，就像训练一个神经网络。它们充满了令人难以置信的复杂性和结构。如果你们愿意去看看它们的内部，我们其实在神经网络内部拥有一个完整的“人工生物学”。那里有所有这些令人惊叹的东西。我认为我们才刚刚开始慢慢解开它，这太不可思议了，那里有太多东西了。但我们在那里发现的东西也太多了。我们才刚刚开始撬开它，我想它会变得极其惊人、极其美丽。有时候我会想象，比如十年后的未来，走进一家书店，买一本……关于神经网络可解释性的教科书，或者真正意义上的《神经网络生物学》教科书，里面会有各种疯狂的内容。我认为在接下来的十年里，甚至接下来的几年里，我们将开始深入其中并真正发现所有这些东西。这将会是疯狂而令人难以置信的。

某人： 更好的是你还能买到你自己写的教科书。

某人： 就把你的脸印在上面。

Chris： 我的意思是，是的。

某人： 我感到兴奋的是，如果你在几年前说：“各国政府将设立新的机构来测试和评估 AI 系统，而且它们将具备真正的胜任力并且做得很好”，你肯定不会认为这会成为现实。但它已经发生了。这有点像政府建立了这些新的使馆，专门用来应对这类新型技术，或者说应对 Chris 研究的东西。我非常兴奋地想看看这会走向何方。我认为这实际上意味着我们具备了应对这种社会转型的国家能力（state capacity），所以它不再仅仅是公司的事。我很高兴能为此出一份力。

Daniela： 我今天在某种程度上已经对此感到很兴奋了，但只要想象一下 AI 在未来世界能为人们做些什么，就不可能不感到兴奋。Dario 经常谈论这个，但我觉得，即便只是看到 Claude 能够帮助进行疫苗研发、癌症研究和生物学研究的微弱曙光，就已经很疯狂了。就仅仅是看着它现在能做什么。但如果快进到三年后或五年后的未来，想象 Claude 实际上能够解决我们作为人类所面临的如此多根本问题，仅仅是从健康的角度来看（甚至撇开其他一切不谈），我都觉得非常兴奋。回想我以前做国际开发工作的时候，如果 Claude 能帮忙做那些我在 25 岁时试图去做却效率低得多的工作，那该有多棒。

某人： 我想同样地，我对自己能开发出工作版 Claude 感到很兴奋。我对能把 Claude 引入公司，引入世界各地的公司感到很兴奋。

某人： 我觉得让我兴奋的是，就我个人而言，我在工作里非常喜欢用 Claude，所以肯定，有越来越多的居家时间里我也在和 Claude 聊各种事情。我觉得最近最大的一件事就是写代码。如果是六个月前，我不会用 Claude 做任何写代码的工作，我们的团队也不怎么用 Claude 写代码。但现在已经是完全不同的阶段了。上上周我在 YC（指 Y Combinator）做了一场演讲，一开始我问：“好吧，现在在座有多少人用 Claude 写代码？”真的有 95% 的人举手了。

某人： 哇。

某人： 哇。房间里全都是手。这跟四个月前或者什么时候的情况完全不同了。

某人： 所以当我想到我为什么感到兴奋时，我会想到这样一个场景，就像我之前说的，存在这样一种“共识”，这种共识看似很有智慧，似乎是所有聪明人的想法，然后它就突然被打破了。所以我认为这种事情即将发生、但还没发生的地方，其中一个就是可解释性。我认为可解释性既是引导和使 AI 系统变得安全的关键（而且我们马上就能理解了），可解释性也包含了关于智能优化问题以及人类大脑如何运作的深刻见解。我曾说过，而且我真的不是在开玩笑，Chris Olah 将会成为未来的诺贝尔医学奖得主。

某人： 哇哦，是啊。

Dario： 我是认真的。我是认真的，因为很多这些……我以前是个神经科学家。很多这些精神疾病，那些我们还没有弄清楚的疾病，对吧，比如精神分裂症或情绪障碍，我怀疑其中发生了一些更高层面的系统性问题。要用大脑来弄明白这些是很难的，因为大脑太软乎乎了，很难打开去进行交互。神经网络不是这样的；它们虽然不是完美的类比，但随着时间的推移，它们会成为更好的类比。这是一个领域。其次，与此相关的是，我认为就是将 AI 用于生物学。生物学是一个极其困难的问题。由于种种原因，人们一直在保持怀疑。但我认为这种共识正在开始打破。我们看到诺贝尔化学奖颁发给了 AlphaFold，这是一项了不起的成就。我们应该尝试构建能够帮助我们创造一百个 AlphaFold 的东西。最后，利用 AI 来增进民主。我们担心如果 AI 被以错误的方式构建，它可能成为威权主义的工具。AI 如何才能成为促进自由和自决的工具？我认为这一点比前两点还要处于早期阶段，但它将会同样重要。

某人： 是的，我想至少有两点与你刚才说的有关。一点是，我觉得经常有人加入 Anthropic 是因为他们在科学上对 AI 非常好奇，然后被 AI 的进展所说服，进而分享了这种需要——不仅要推进技术，还要更深入地理解它并确保它安全的共同愿景。我觉得能和你共事的人在他们对 AI 发展的看法以及与之相关的责任感上越来越团结一致，这本身就是一件令人兴奋的事。而且我觉得由于过去一年发生的许多进展（就像 Tom 提到的），这种情况正越来越多地发生。另一点是，回到具体问题上，我觉得我们在 AI 安全方面已经做了很多工作。其中很多都非常重要。但我认为，随着最近的一些发展，我们现在真的看到了极其先进的系统可能切实带来的风险的曙光。

某人： 嗯。

某人： 这样我们就可以通过可解释性以及其他类型的安全机制，去直接调查和研究它们，并真正理解来自极其先进 AI 的风险可能是什么样的。我认为这确实能让我们以一种非常深入的、具有科学性和经验性的方式来进一步推进我们的使命。所以我对未来六个月感到兴奋，兴奋于我们如何利用对先进系统可能出现何种问题的理解，来描绘这些风险，并弄清楚如何避开这些陷阱。

主持人： 完美。结束！

某人： 耶！

某人： 我们完成了！

某人： 呼！

某人： 聊得很开心。

某人： 是啊，我们得经常这么聊。

术语表

原文	中文
80% pledge / pledge	80%承诺 / 承诺
AI safety level (ASL)	AI安全等级
AI winter	AI寒冬
AlphaFold	AlphaFold
best event	最佳事件
bitter lesson	苦涩的教训
Brain	Brain（指Google Brain，谷歌AI研究机构）
CBRN	化学、生物、放射性、核（CBRN）
chain of thought	思维链
Chris	Chris（人名，指Chris Olah，Anthropic联合创始人）
constitutional AI	宪法AI
Daniela	Daniela（人名，指Daniela Amodei，Anthropic总裁兼联合创始人）
Dario	Dario（人名，指Dario Amodei，Anthropic联合创始人兼CEO）
decision theory	决策理论
doomers	末日论者
evals	评估
Fermi	费米（恩里科·费米，意大利裔美国物理学家）
Frontier Red Team	前沿红队
go-to market	推向市场
Greg	Greg（人名，指Greg Brockman，OpenAI联合创始人）
Harris	Harris（指美国时任副总统卡玛拉·哈里斯）
helpful and harmless	有用且无害
ImageNet	ImageNet（大规模图像识别基准数据集）
inference	推理
interpretability	可解释性
jailbreak	越狱
Jared	Jared（人名，指Jared Kaplan，Anthropic联合创始人）
Mike Krieger	Mike Krieger（人名）
OKR	OKR（目标与关键结果）
Paul Christiano	Paul Christiano（AI安全研究员）
pragmatism	实用主义
Project Vannevar	万尼瓦尔计划
race to the top	向顶峰竞逐
Raimondo	Raimondo（指美国时任商务部长吉娜·雷蒙多）
responsible scaling policy (RSP)	负责任规模化政策
RLHF	来自人类反馈的强化学习（reinforcement learning from human feedback）
Sam	Sam（人名，曾是Tom在OpenAI的上司）
scaling law	规模定律
state capacity	国家能力
Szilard	西拉德（利奥·西拉德，匈牙利裔美国物理学家）
Teller	泰勒（爱德华·泰勒，匈牙利裔美国物理学家）
Tom	Tom（人名）
tool use	工具使用
trust and safety	信任与安全
Vinay	Vinay（人名）
wholesomeness	纯粹的美好
YC / YCU	YC（指 Y Combinator）/ YCU

导读