Latent.Space · 2026-02-06

Goodfire AI:机械可解释性前沿实验室的崛起

摘要

Goodfire AI由前Palantir和Two Sigma团队创立,专注于机械可解释性研究。公司刚完成1.5亿美元B轮融资,估值12.5亿美元。其核心理念是建立人机双向接口:读取模型内部机制、进行精准编辑、将可解释性融入训练流程。Goodfire已与Rakuten等企业合作部署PII检测等实际应用,并展示实时 steering万亿参数模型的能力。公司愿景是将AI从数据驱动的黑盒模式转向专家可直接传达意图的可控设计范式。

内容框架与概述

文章首先介绍Goodfire AI的创立背景与融资动态,创始人Mark Bissell和Myra Deng分别来自Palantir和Two Sigma,带着解决AI控制问题的使命感投身机械可解释性领域。文章随后深入阐述其技术理念:当前AI生命周期存在根本缺陷——我们只能通过数据和后训练来调整模型,如同通过吸管获取监督信息。Goodfire的解决方案是构建双向接口,使研究人员能够理解模型内部表征并进行精确干预。文章进一步介绍实际应用场景,包括Rakuten的推理时PII检测、实时模型 steering 演示,以及将可解释性技术扩展至基因组学、医学影像和世界模型等跨领域应用。最后探讨该领域的未来愿景:从数据输入权重输出的黑盒模式,转变为专家可直接设计模型行为的新范式。

核心概念及解读

机械可解释性:研究AI模型内部运作机制的科学,目标是将复杂的神经网络行为分解为可理解的概念和特征。

SAE与探针技术:稀疏自编码器用于提取模型内部特征,探针用于检测特定行为。两者在实际部署中各有优劣,探针在某些下游任务中表现更优。

后训练编辑:针对已完成训练的模型进行精确修改,用于移除奖励黑客、谄媚等非预期行为,是当前最具商业价值的应用方向。

实时模型 steering:通过激活 steering 技术在推理时动态调整模型行为,可实现对万亿参数模型的实时控制。

跨领域可解释性:将同一套可解释性工具应用于基因组学、医学影像等领域,既能发现虚假相关性,又能提取科学新知识。


原文信息


此摘要卡片由 AI 自动生成