Kimi Team · 2026-02-04

WorldVQA：衡量多模态大模型视觉世界知识的新基准

摘要

Kimi团队推出WorldVQA基准测试，旨在衡量多模态大语言模型对视觉实体的真实识别能力。该数据集包含3500个经人工验证的图像问答对，覆盖9大类别，并区分常见知识与长尾知识。测试结果表明，当前前沿模型在长尾视觉知识上表现不佳，普遍低于50%准确率，且存在严重的过度自信问题。

文章首先提出核心问题：多模态模型到底是真正识别了图像中的实体，还是仅凭视觉模式产生幻觉？WorldVQA正是为回答这一问题而设计的基准测试，聚焦于原子级视觉世界知识的事实性评估。

数据集层面，3500个样本遵循三大设计原则——事实唯一性、分类丰富性、头部与尾部分布区分。涵盖自然环境、地理建筑、文化艺术、品牌标识、公众人物等9个类别，并按难度分为简单、中等和困难三档。

模型评测部分，Kimi K2.5和Gemini-3-pro以约47%的准确率领先，其余多数模型在20%-37%之间。文章还引入ECE和Slope两个校准指标，揭示所有模型普遍存在过度自信倾向——大量预测集中在90%-100%置信区间，但实际准确率远低于此。

文章最后指出，提升WorldVQA表现是下一代AI智能体的必经之路，团队已开源数据集和评估脚本以推动社区研究。

原子视觉世界知识（Atomic Visual World Knowledge）：指模型对图像中特定实体的精确识别能力，而非泛泛的视觉描述或推理能力。

头部与尾部知识分布（Head vs. Tail Distribution）：将知识按常见程度划分，用于量化模型在罕见长尾知识上的性能退化程度。

ECE（期望校准误差）：衡量模型自身置信度与实际准确率之间的平均偏差，理想值为0，当前最优模型仍高达37.9%。

过度自信（Overconfidence）：所有被评估模型的置信度分布高度集中在90%-100%区间，但实际表现远不及此，反映出模型自我认知的严重缺陷。

多阶段人工验证：数据集经过严格的多轮人工审核，确保每个问答对具有唯一确定答案，排除主观性和歧义性，保障基准测试的可靠性。

字段	内容
原文	WorldVQA：Measuring Atomic World Knowledge in MLLMs
作者	Kimi Team
发表日期	2026-02-04

此摘要卡片由 AI 自动生成