Kimi Team · 2026-02-04

WorldVQA:衡量多模态大模型视觉世界知识的新基准

摘要

Kimi团队推出WorldVQA基准测试,旨在衡量多模态大语言模型对视觉实体的真实识别能力。该数据集包含3500个经人工验证的图像问答对,覆盖9大类别,并区分常见知识与长尾知识。测试结果表明,当前前沿模型在长尾视觉知识上表现不佳,普遍低于50%准确率,且存在严重的过度自信问题。

内容框架与概述

文章首先提出核心问题:多模态模型到底是真正识别了图像中的实体,还是仅凭视觉模式产生幻觉?WorldVQA正是为回答这一问题而设计的基准测试,聚焦于原子级视觉世界知识的事实性评估。

数据集层面,3500个样本遵循三大设计原则——事实唯一性、分类丰富性、头部与尾部分布区分。涵盖自然环境、地理建筑、文化艺术、品牌标识、公众人物等9个类别,并按难度分为简单、中等和困难三档。

模型评测部分,Kimi K2.5和Gemini-3-pro以约47%的准确率领先,其余多数模型在20%-37%之间。文章还引入ECE和Slope两个校准指标,揭示所有模型普遍存在过度自信倾向——大量预测集中在90%-100%置信区间,但实际准确率远低于此。

文章最后指出,提升WorldVQA表现是下一代AI智能体的必经之路,团队已开源数据集和评估脚本以推动社区研究。

核心概念及解读

原子视觉世界知识(Atomic Visual World Knowledge):指模型对图像中特定实体的精确识别能力,而非泛泛的视觉描述或推理能力。

头部与尾部知识分布(Head vs. Tail Distribution):将知识按常见程度划分,用于量化模型在罕见长尾知识上的性能退化程度。

ECE(期望校准误差):衡量模型自身置信度与实际准确率之间的平均偏差,理想值为0,当前最优模型仍高达37.9%。

过度自信(Overconfidence):所有被评估模型的置信度分布高度集中在90%-100%区间,但实际表现远不及此,反映出模型自我认知的严重缺陷。

多阶段人工验证:数据集经过严格的多轮人工审核,确保每个问答对具有唯一确定答案,排除主观性和歧义性,保障基准测试的可靠性。


原文信息

字段内容
原文WorldVQA:Measuring Atomic World Knowledge in MLLMs
作者Kimi Team
发表日期2026-02-04

此摘要卡片由 AI 自动生成