Latent.Space · 2026-02-06

Goodfire AI：机械可解释性前沿实验室的崛起

摘要

Goodfire AI由前Palantir和Two Sigma团队创立，专注于机械可解释性研究。公司刚完成1.5亿美元B轮融资，估值12.5亿美元。其核心理念是建立人机双向接口：读取模型内部机制、进行精准编辑、将可解释性融入训练流程。Goodfire已与Rakuten等企业合作部署PII检测等实际应用，并展示实时 steering万亿参数模型的能力。公司愿景是将AI从数据驱动的黑盒模式转向专家可直接传达意图的可控设计范式。

内容框架与概述

文章首先介绍Goodfire AI的创立背景与融资动态，创始人Mark Bissell和Myra Deng分别来自Palantir和Two Sigma，带着解决AI控制问题的使命感投身机械可解释性领域。文章随后深入阐述其技术理念：当前AI生命周期存在根本缺陷——我们只能通过数据和后训练来调整模型，如同通过吸管获取监督信息。Goodfire的解决方案是构建双向接口，使研究人员能够理解模型内部表征并进行精确干预。文章进一步介绍实际应用场景，包括Rakuten的推理时PII检测、实时模型 steering 演示，以及将可解释性技术扩展至基因组学、医学影像和世界模型等跨领域应用。最后探讨该领域的未来愿景：从数据输入权重输出的黑盒模式，转变为专家可直接设计模型行为的新范式。