Haley Wahl | Technical Communications Group · 2026-01-28

研究发现可解释AI几乎不进行人类验证

摘要

MIT林肯实验室对18,254篇可解释AI论文的全面调研发现,仅126篇论文(0.7%)对系统进行了真人验证。尽管AI技术在医疗、网络安全、航空等关键领域应用广泛,需要人类信任和理解决策过程,但大多数所谓可解释系统仅依靠模糊标准如自然语言输出或简洁性来宣称可解释性,缺乏实证证据。研究者在CHI会议上指出,这种验证缺失现象在医学、隐私安全等领域同样普遍,呼吁将真实用户纳入测试流程,而非表面评估或模拟替代。

内容框架与概述

这项研究的核心背景是AI技术在过去几年爆发式增长,尤其在ChatGPT发布后,从智能家居推荐到致命医疗干预、网络威胁追踪、飞行器驾驶等安全关键场景都需要人类信任AI系统。可解释AI试图通过规则推理、示例说明、文本解释等技术让人类理解模型决策过程,但MIT团队质疑这些声称是否真的经过真人验证。

研究方法上,团队突破了以往仅审查25-300篇论文的局限,与图书管理员合作系统梳理了超过18,000篇论文。他们先通过关键词筛选XAI领域文献,再定位包含人类反馈、终端用户评估、用户访谈等声称的论文,最后人工审阅每篇是否真正进行了人类实验验证。这种方法学挑战在于设计能准确捕获目标且可复制的搜索策略,避免类似打盲盒式的反复试错。

研究结果令人震惊:在声称具有人类可解释性的论文中,一半未进行人类验证;在约1,000篇完全不提人类的论文中,不到12篇提供任何验证。总体18,254篇论文中仅126篇(0.7%)用真人验证了方法。团队原本预期悲观情况下也有30%验证率,实际结果远低于预期,暴露出XAI领域将研究者参与AI工作等同于AI本身可解释性的根本误区。

问题的本质在于研究者依赖自然语言输出、响应简洁性等松散标准来标记可解释性,但这些既非可解释性的必要条件也非充分条件。真正可解释性需要证据证明有人检查过AI解释并以有意义的方式使用它。在CHI会议后,团队发现医学、隐私安全、残障研究等领域也存在类似问题,例如用蒙眼视力正常者模拟盲人测试工具,而非真正邀请盲人参与。研究强调必须超越表面评估,让声称服务的人群真正参与测试。