Gemini 3.1 Pro:谷歌重夺前沿
摘要
Google 发布 Gemini 3.1 Pro 预览版,在 ARC-AGI-2 基准测试中达到 77.1%,相比 Gemini 3 Pro 提升超过 2 倍。模型在代码生成(SWE-Bench Verified 80.6%)、工具使用(APEX-Agents 提升 82%)和多模态能力方面均有显著进步。第三方评测 Artificial Analysis 将其列为智力指数榜首,但社区对基准测试与实际 Agent 任务表现之间的差距仍存疑虑。
内容框架与概述
文章以 Google 轮到发布新模型为切入点,指出 Gemini 3.1 Pro 是在 Gemini 3.0 和 Claude 4.6 竞争压力下的必要升级。核心亮点是 ARC-AGI-2 基准测试达到 77.1%,这一数据在官方公告中被反复强调。模型被定位为 Gemini 3 Deep Think 核心智能的实用化版本,已部署到 Gemini 应用、NotebookLM、API 和 Vertex AI 等多款产品。
第三方评测机构 Artificial Analysis 的独立测试验证了 Google 的部分声明,Gemini 3.1 Pro 在其智力指数的 10 项评测中领先 6 项,幻觉率相比前代降低 38 个百分点。然而在 GDPval 等 Agent 真实任务评测中,该模型虽有所提升但仍未达到领先地位,引发社区关于基准测试刷分与实际能力之间是否存在差距的讨论。
社区反应呈现两极分化。支持者强调模型在 SVG 设计、代码生成和多模态理解方面的实用改进,认为 Google 重返智能成本前沿。质疑者则指出模型在终端工具和真实 Agent 任务中表现平平,质疑过度依赖基准测试营销。此外,部分用户反馈产品发布存在不一致,Gemini CLI 和 Code Assist 等工具未能同步更新。
核心概念及解读
ARC-AGI-2:由 Francois Chollet 等人推出的抽象推理基准测试,旨在评估模型的通用智能和新任务适应能力,Gemini 3.1 Pro 在此测试中达到 77.1%。
幻觉率降低:模型在输出虚假信息方面的改进,Artificial Analysis 测得 Gemini 3.1 Pro 相比前代在幻觉评测中降低 38 个百分点。
Agent 工具使用:模型调用外部工具和 API 完成复杂任务的能力,Gemini 3.1 Pro 在 APEX-Agents 评测中达到 33.5%,相比前代提升 82%。
智力成本前沿:指在给定成本下提供最优智能性价比的位置,社区评论认为 Gemini 3.1 Pro 帮助 Google 重新回到这一竞争前沿。
GDPval:Artificial Analysis 开发的 Agent 真实任务评测基准,更接近实际生产场景,Gemini 3.1 Pro 在此测试中虽有提升但仍落后于部分竞争对手。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | [AINews] Gemini 3.1 Pro:2x 3.0 on ARC-AGI 2 |
| 作者 | Latent.Space |
| 发表日期 | 2026-02-20 |
此摘要卡片由 AI 自动生成