MiniMax 稀宇科技 · 2026-02-12

MiniMax M2.5发布:每小时1美金的真·Agent之王

摘要

MiniMax 发布 M2.5 模型,在编程、工具调用、搜索等生产力场景达到行业 SOTA。其最大特点是经济性极强,100 TPS 版本每小时仅需 1 美金,使得无限运行复杂 Agent 成为可能。在内部业务中,M2.5 已自主完成 30% 的任务,编程场景生成代码占新提交的 80%。模型通过大规模强化学习和原生 Agent RL 框架 Forge 实现了快速进步。

内容框架与概述

文章首先介绍了 M2.5 的核心优势,即在编程、工具调用、搜索等生产力场景达到 SOTA 水平,并强调了其经济性优势。随后详细阐述了 M2.5 在编程领域的能力,模型演化出了像架构师一样思考和构建的原生 Spec 行为,能够在 10 多种语言和数十万真实环境中完成从 0-1 到 90-100 的全流程开发。

接着文章介绍了 M2.5 在搜索和工具调用方面的表现,通过构建 RISE 评测框架衡量模型在真实专业任务上的搜索能力,并指出其在处理复杂任务时展现出更高的决策成熟度。在办公场景方面,M2.5 通过与金融、法律等领域从业者合作,在 Word、PPT、Excel 等高阶场景中取得显著提升,在两两对比评估中取得 59% 的平均胜率。

最后文章介绍了 M2.5 的技术内核,包括原生 Agent RL 框架 Forge、CISPO 算法和过程奖励机制。M2.5 已在 MiniMax 全线产品全量上线,模型权重将在 HuggingFace 开源,支持本地部署。文章还提到用户已在 MiniMax Agent 上构建了 1 万多个专家,且仍在快速增长。

核心概念及解读

原生 Spec 行为(Native Spec Behavior):模型在动手写代码前,以架构师视角主动拆解功能、结构和 UI 设计,实现完整的前期规划。

过程奖励机制(Process Reward):针对长上下文带来的信用分配难题,对完成质量进行全链路监控的奖励机制。

RISE(Realistic Interactive Search Evaluation):用于衡量模型在真实专业任务上的搜索能力的评测框架,模拟人类专家在专业网页内的深度探索。

VIBE 基准 Pro 版:升级后的编程能力评测基准,显著提升了任务复杂度、领域覆盖度和评估准确度。

CISPO 算法:MiniMax 年初提出的算法,用于保障 MoE 模型在大规模训练中的稳定性。


原文信息

字段内容
原文MiniMax M2.5 发布:1 美金/小时,真实世界工作王者 | BestBlogs.dev
作者MiniMax 稀宇科技
发表日期2026-02-12

此摘要卡片由 AI 自动生成