MiniMax · 2026-02-13

MiniMax M2.5:更快更强更智能

摘要

MiniMax发布M2.5模型,通过在数十万真实环境中进行强化学习训练,在编码、代理工具使用、搜索和办公场景达到SOTA水平。SWE-Bench Verified得分80.2%,BrowseComp得分76.3%。模型支持超过10种编程语言,可处理从系统设计到代码审查的完整开发生命周期。推理速度比M2.1提升37%,与Claude Opus 4.6相当,而成本仅为十分之一,每小时运行费用低至0.3美元。

内容框架与概述

文章首先介绍M2.5模型的定位,强调其在真实世界生产力场景中的卓越表现。主体部分从编码、搜索与工具调用、办公效率三大维度展开详细技术阐述,通过SWE-Bench Verified、BrowseComp等专业基准测试验证模型能力,并对比竞品展示性能优势。随后重点介绍模型的速度提升和成本优势,每秒100 tokens的吞吐量仅为竞品一半价格。最后阐述M2系列的快速迭代进展及背后的强化学习扩展技术,包括自研的Forge框架和CISPO算法。

核心概念及解读

SWE-Bench Verified:软件工程基准测试,评估模型解决真实世界代码问题的能力,M2.5得分80.2%达到SOTA水平。

强化学习Scaling:通过在数十万真实环境中进行强化学习训练,持续扩展模型能力边界,推动性能提升。

Forge框架:MiniMax自研的代理原生RL框架,解耦训练与推理引擎,支持任意代理集成,实现约40倍训练加速。

CISPO算法:用于确保MoE模型在大规模训练稳定性的强化学习算法,兼顾模型智能与响应速度的最优平衡。

Token效率:模型在完成任务时的token消耗效率,M2.5平均每任务消耗352万token,比M2.1减少5.4%。


原文信息

字段内容
原文MiniMax M2.5:更快更强更智能,为真实世界生产力而生
作者MiniMax
发表日期2026-02-13

此摘要卡片由 AI 自动生成