Latent.Space · 2026-02-13

Gemini 3 Deep Think引领AI新突破：各巨头竞逐推理之王

摘要

AI领域竞争白热化。Google Gemini 3 Deep Think V2在ARC-AGI-2等基准测试中创下84.6%的SOTA成绩，同时成本降低82%，Jeff Dean亲自站台展示其在科学研究和工程领域的实际应用。Anthropic完成380亿美元融资，年收入突破14亿美元，Claude Code ARR翻倍至2.5亿美元。OpenAI随即推出GPT-5.3-Codex-Spark，与Cerebras合作实现每秒超1000 token的推理速度。中国开源阵营不甘示弱，MiniMax M2.5和GLM-5相继发布，在编程基准测试中表现接近顶级闭源模型，开源生态迅速完善。

内容框架与概述

本文报道了2025年AI行业的重大进展，呈现群雄并起的竞争格局。Google DeepMind推出的Gemini 3 Deep Think V2是报道重点，该模型在ARC-AGI-2基准测试中取得84.6%的成绩，创下新纪录，同时Humanity’s Last Exam达48.4%，Codeforces Elo评分3455。更引人注目的是，Jeff Dean强调其效率提升——每个任务成本降低82%——并在视频中展示了从手绘草图直接生成CAD模型的工程应用能力。

美国三大AI实验室的竞争态势同样吸睛。Anthropic在周四完成380亿美元融资，估值达3000亿美元，确认年收入超14亿美元，较8月Dario的100亿美元预测更进一步，Claude Code的ARR在年内翻倍至2.5亿美元。作为回应，OpenAI迅速推出GPT-5.3-Codex-Spark，借助Cerebras硬件实现每秒超1000 token的生成速度，将Claude的2.5倍速优势进一步扩大。

中国开源模型的崛起构成第三条叙事线。MiniMax M2.5声称在SWE-Bench Verified取得80.2%的成绩，性能匹配Opus级别，且推理速度达100 token/s，成本仅0.06美元/百万token。智谱的GLM-5则号称拥有7440亿参数、28.5万亿token训练数据，在Arena编程榜单上与Kimi并列第一。值得注意的是，这些模型已在OpenRouter、Ollama、Cline等主流工具链中快速落地，开源生态日趋完善。