Melanie Mitchell · 2026-01-15

如何评估机器的认知能力

摘要

本文基于作者在NeurIPS 2025的主题演讲，探讨如何科学评估AI模型的认知能力。文章指出当前AI基准测试存在严重局限性，包括数据污染、捷径利用、缺乏构念效度等问题，导致测试成绩不能真实反映模型的实际能力。作者主张借鉴发展心理学和比较心理学的研究方法，将AI视为另一种外星智慧，采用更严谨的实验设计来评估其认知能力。文章提出了六个评估原则，包括警惕拟人化偏见、设计控制实验、最小化先验假设、测试一致性鲁棒性和泛化能力、验证构念效度，以及探究认知机制。

内容框架与概述

文章首先介绍了作者在NeurIPS 2025大会的主题演讲经历，会议规模庞大，参会者近三万人。演讲主题借鉴了将大型语言模型称为外星智慧的广泛说法，主张采用研究婴儿和动物这些其他外星智慧的实验方法来评估AI的认知能力。作者指出，当前AI领域过度依赖基准测试作为衡量模型能力的标准，但测试成绩往往不能预测模型在真实世界中的表现。

文章详细分析了AI基准测试存在的六大问题。数据 contamination 指的是测试题目可能被包含在训练数据中，近似检索意味着模型可以通过训练数据中的相似问题插值得到答案，而不真正具备基准测试意图评估的通用能力。模型还可能利用数据中的虚假关联或捷径来给出正确答案但理由错误。此外，大多数研究只报告准确率，缺乏对一致性、鲁棒性、泛化能力和认知机制的测试。许多基准测试缺乏构念效度，不能准确测量其设计意图评估的更广泛能力。最后，直接使用为人类设计的测试（如IQ测试、SAT、医学执照考试）存在拟人化假设问题，因为AI系统基于非常不同的机制运作。

作者提出从认知科学中汲取评估原则。发展心理学家和比较心理学家长期面临类似问题，即如何避免拟人化假设，评估婴儿和非人类动物的认知能力。这些学科发展出了应对这些问题的实验方法。作者引用了多位学者的相关工作，包括Michael Frank关于用婴儿研究方法评估大型语言模型的文章，以及其他关于将动物认知原理和比较认知方法应用于AI评估的研究。

文章阐述了六个更严谨评估认知能力的原则。第一是要意识到自己的拟人化认知偏见，人类倾向于将人类特质投射到婴儿、动物和机器上。第二是对他人和自己的假设保持怀疑，设计控制实验来检验可能产生观察行为的替代策略。作者通过聪明的汉斯这个经典案例说明，一匹被认为会做算术的马实际上是通过观察提问者的微妙暗示来回答问题，只有通过严格控制实验条件才能发现真相。