腾讯科技 · 2026-02-20

谷歌Gemini 3.1 Pro推理翻倍夺王座

摘要

谷歌于2026年2月19日发布Gemini 3.1 Pro模型，在ARC-AGI-2推理测试中得分从31.1%跃升至77.1%，实现翻倍增长。新模型引入低、中、高三级思考模式，让用户可根据任务难度调节思考时长。幻觉率较前代降低38%，价格维持不变。第三方测试显示，其在10项智能指数评估中拿下6项第一，综合智能指数超越Claude Opus 4.6。

内容框架与概述

文章首先介绍了Gemini 3.1 Pro的发布背景和核心改进。谷歌在短暂失去AI模型王座后，携新模型归来，重点强化推理能力。最引人注目的是在ARC-AGI-2测试中，得分从31.1%飙升至77.1%，这标志着模型在处理全新逻辑问题能力上的重大突破。

文章接着阐述了新模型的三级思考模式，这是对原有两档模式的升级。用户现在可根据任务复杂度选择低、中、高三档思考强度，高模式下模型会进入类似Deep Think的深度思考状态。这一设计解决了开发者需要维护多个模型的痛点，一个模型即可应对不同难度的任务。

随后文章对比了Gemini 3.1 Pro与竞品的性能表现。在Artificial Analysis的智能指数测试中，它在10项评估中拿下6项第一，尤其在AA-Omniscience幻觉率测试中降低了38个百分点。不过在用户投票的Arena排行榜上，Claude Opus 4.6仍在文本和代码任务上保持微弱优势。

最后展示了实际应用案例，包括为《呼啸山庄》设计网站、生成3D鸟群模拟、创建动画SVG等，体现了模型在创意编程和空间理解方面的进步。谷歌CEO和DeepMind首席科学家均亲自为此次升级背书，强调价格不变、性能提升的务实策略。

核心概念及解读

三级思考模式（Three-Level Thinking Mode）：用户可根据任务难度选择低、中、高三档思考强度，高模式下模型进入深度思考状态，一个模型即可应对不同复杂度任务。

ARC-AGI-2测试（ARC-AGI-2 Benchmark）：衡量AI解决全新逻辑问题能力的测试，不考死记硬背，专门检验AI真正的推理能力，Gemini 3.1 Pro在此测试中得分翻倍。

幻觉率（Hallucination Rate）：模型不懂装懂、编造错误信息的倾向。Gemini 3.1 Pro在AA-Omniscience测试中幻觉率降低38%，意味着它更清楚自己不知道什么。

氛围编程（Vibe Coding）：直接用自然语言描述即可生成动画SVG等创意内容，无需专业设计和剪辑技能，降低创作门槛。

智能体任务（Agent Tasks）：AI在现实世界中自主执行复杂任务的能力，Gemini 3.1 Pro在此领域得分从56.9%提升至68.5%，但仍落后于部分竞品。

原文信息

字段	内容
原文	谷歌要重夺王座？Gemini 3.1 Pro 推理分数翻倍，幻觉率继续下降，价格不变｜ BestBlogs.dev
作者	腾讯科技
发表日期	2026-02-20

此摘要卡片由 AI 自动生成

‹

谷爱凌回应万斯建议她代表美国

Sam Joseph · 2026-02-20

Gemini 3.1 Pro：更智能的AI模型发布

The Gemini Team · 2026-02-20

›

谷歌Gemini 3.1 Pro推理翻倍夺王座

摘要

内容框架与概述

核心概念及解读

原文信息

目录