Latent.Space · 2026-02-13

Gemini 3 Deep Think引领AI新突破:各巨头竞逐推理之王

摘要

AI领域竞争白热化。Google Gemini 3 Deep Think V2在ARC-AGI-2等基准测试中创下84.6%的SOTA成绩,同时成本降低82%,Jeff Dean亲自站台展示其在科学研究和工程领域的实际应用。Anthropic完成380亿美元融资,年收入突破14亿美元,Claude Code ARR翻倍至2.5亿美元。OpenAI随即推出GPT-5.3-Codex-Spark,与Cerebras合作实现每秒超1000 token的推理速度。中国开源阵营不甘示弱,MiniMax M2.5和GLM-5相继发布,在编程基准测试中表现接近顶级闭源模型,开源生态迅速完善。

内容框架与概述

本文报道了2025年AI行业的重大进展,呈现群雄并起的竞争格局。Google DeepMind推出的Gemini 3 Deep Think V2是报道重点,该模型在ARC-AGI-2基准测试中取得84.6%的成绩,创下新纪录,同时Humanity’s Last Exam达48.4%,Codeforces Elo评分3455。更引人注目的是,Jeff Dean强调其效率提升——每个任务成本降低82%——并在视频中展示了从手绘草图直接生成CAD模型的工程应用能力。

美国三大AI实验室的竞争态势同样吸睛。Anthropic在周四完成380亿美元融资,估值达3000亿美元,确认年收入超14亿美元,较8月Dario的100亿美元预测更进一步,Claude Code的ARR在年内翻倍至2.5亿美元。作为回应,OpenAI迅速推出GPT-5.3-Codex-Spark,借助Cerebras硬件实现每秒超1000 token的生成速度,将Claude的2.5倍速优势进一步扩大。

中国开源模型的崛起构成第三条叙事线。MiniMax M2.5声称在SWE-Bench Verified取得80.2%的成绩,性能匹配Opus级别,且推理速度达100 token/s,成本仅0.06美元/百万token。智谱的GLM-5则号称拥有7440亿参数、28.5万亿token训练数据,在Arena编程榜单上与Kimi并列第一。值得注意的是,这些模型已在OpenRouter、Ollama、Cline等主流工具链中快速落地,开源生态日趋完善。

核心概念及解读

Deep Think模式:Google的推理增强模式,通过测试时计算强化复杂任务处理能力,在保持高性能的同时显著降低边际成本。

ARC-AGI-2基准:抽象推理能力测试,Gemini 3 Deep Think取得84.6%的新SOTA成绩,被视为检验AI流体智力的核心指标。

Test-time Scaling:测试时扩展策略,通过增加推理时间和计算资源提升模型输出质量,已成为前沿AI竞争的新战场。

开源vs闭源博弈:中国模型在编程能力上快速追赶顶级闭源模型,推动AI技术民主化,但也面临幻觉控制和推理效率的挑战。


原文信息


此摘要卡片由 AI 自动生成