Latent.Space · 2026-02-20

Gemini 3.1 Pro：谷歌重夺前沿

摘要

Google 发布 Gemini 3.1 Pro 预览版，在 ARC-AGI-2 基准测试中达到 77.1%，相比 Gemini 3 Pro 提升超过 2 倍。模型在代码生成（SWE-Bench Verified 80.6%）、工具使用（APEX-Agents 提升 82%）和多模态能力方面均有显著进步。第三方评测 Artificial Analysis 将其列为智力指数榜首，但社区对基准测试与实际 Agent 任务表现之间的差距仍存疑虑。

内容框架与概述

文章以 Google 轮到发布新模型为切入点，指出 Gemini 3.1 Pro 是在 Gemini 3.0 和 Claude 4.6 竞争压力下的必要升级。核心亮点是 ARC-AGI-2 基准测试达到 77.1%，这一数据在官方公告中被反复强调。模型被定位为 Gemini 3 Deep Think 核心智能的实用化版本，已部署到 Gemini 应用、NotebookLM、API 和 Vertex AI 等多款产品。

第三方评测机构 Artificial Analysis 的独立测试验证了 Google 的部分声明，Gemini 3.1 Pro 在其智力指数的 10 项评测中领先 6 项，幻觉率相比前代降低 38 个百分点。然而在 GDPval 等 Agent 真实任务评测中，该模型虽有所提升但仍未达到领先地位，引发社区关于基准测试刷分与实际能力之间是否存在差距的讨论。

社区反应呈现两极分化。支持者强调模型在 SVG 设计、代码生成和多模态理解方面的实用改进，认为 Google 重返智能成本前沿。质疑者则指出模型在终端工具和真实 Agent 任务中表现平平，质疑过度依赖基准测试营销。此外，部分用户反馈产品发布存在不一致，Gemini CLI 和 Code Assist 等工具未能同步更新。

核心概念及解读

ARC-AGI-2：由 Francois Chollet 等人推出的抽象推理基准测试，旨在评估模型的通用智能和新任务适应能力，Gemini 3.1 Pro 在此测试中达到 77.1%。

幻觉率降低：模型在输出虚假信息方面的改进，Artificial Analysis 测得 Gemini 3.1 Pro 相比前代在幻觉评测中降低 38 个百分点。

Agent 工具使用：模型调用外部工具和 API 完成复杂任务的能力，Gemini 3.1 Pro 在 APEX-Agents 评测中达到 33.5%，相比前代提升 82%。

智力成本前沿：指在给定成本下提供最优智能性价比的位置，社区评论认为 Gemini 3.1 Pro 帮助 Google 重新回到这一竞争前沿。

GDPval：Artificial Analysis 开发的 Agent 真实任务评测基准，更接近实际生产场景，Gemini 3.1 Pro 在此测试中虽有提升但仍落后于部分竞争对手。

原文信息

字段	内容
原文	[AINews] Gemini 3.1 Pro：2x 3.0 on ARC-AGI 2
作者	Latent.Space
发表日期	2026-02-20

此摘要卡片由 AI 自动生成

‹

Gemini 3.1 Pro：更智能的AI模型发布

The Gemini Team · 2026-02-20

微软发布验证网络内容真实性的蓝图

James ODonnell · 2026-02-20

›

Gemini 3.1 Pro：谷歌重夺前沿

摘要

内容框架与概述

核心概念及解读

原文信息

目录