MiniMax
·
2026-02-13
MiniMax M2.5:更快更强更智能
摘要
MiniMax发布M2.5模型,通过在数十万真实环境中进行强化学习训练,在编码、代理工具使用、搜索和办公场景达到SOTA水平。SWE-Bench Verified得分80.2%,BrowseComp得分76.3%。模型支持超过10种编程语言,可处理从系统设计到代码审查的完整开发生命周期。推理速度比M2.1提升37%,与Claude Opus 4.6相当,而成本仅为十分之一,每小时运行费用低至0.3美元。
内容框架与概述
文章首先介绍M2.5模型的定位,强调其在真实世界生产力场景中的卓越表现。主体部分从编码、搜索与工具调用、办公效率三大维度展开详细技术阐述,通过SWE-Bench Verified、BrowseComp等专业基准测试验证模型能力,并对比竞品展示性能优势。随后重点介绍模型的速度提升和成本优势,每秒100 tokens的吞吐量仅为竞品一半价格。最后阐述M2系列的快速迭代进展及背后的强化学习扩展技术,包括自研的Forge框架和CISPO算法。
核心概念及解读
SWE-Bench Verified:软件工程基准测试,评估模型解决真实世界代码问题的能力,M2.5得分80.2%达到SOTA水平。
强化学习Scaling:通过在数十万真实环境中进行强化学习训练,持续扩展模型能力边界,推动性能提升。
Forge框架:MiniMax自研的代理原生RL框架,解耦训练与推理引擎,支持任意代理集成,实现约40倍训练加速。
CISPO算法:用于确保MoE模型在大规模训练稳定性的强化学习算法,兼顾模型智能与响应速度的最优平衡。
Token效率:模型在完成任务时的token消耗效率,M2.5平均每任务消耗352万token,比M2.1减少5.4%。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | MiniMax M2.5:更快更强更智能,为真实世界生产力而生 |
| 作者 | MiniMax |
| 发表日期 | 2026-02-13 |
此摘要卡片由 AI 自动生成
‹
宇宙奇迹:JWST发现大爆炸后2.8亿年的极亮星系
2026-02-13
MIT如何将舞台带入课堂
Benjamin Daniel | School of Humanities
·
2026-02-13
›