MiniMax · 2026-02-13

Forge:可扩展智能体强化学习框架与算法

摘要

MiniMax发布Forge可扩展Agent RL框架,针对复杂智能体强化学习中的系统吞吐量、训练稳定性和智能体灵活性三难困境,提出Middleware架构实现智能体与训练基础设施解耦。该框架通过白盒和黑盒智能体RL支持任意智能体骨架训练,结合CISPO算法、组合奖励框架和前缀冗余消除机制,显著提升训练效率,最终支撑MiniMax M2.5模型的突破性能力。

内容框架与概述

文章首先阐述Agent RL系统的核心优化目标及面临的三大结构挑战:智能体扩展性受限于现有框架的玻璃天花板,系统效率受调度死锁和前缀冗余影响,算法层面则面临信用分配困难和延迟优化缺失。文章随后详细介绍Forge的系统架构,采用Middleware设计将智能体端与训练推理端物理隔离,通过网关服务器和数据池实现灵活通信和数据管理。针对上下文管理,框架将上下文管理建模为环境动力学的功能动作,解决推理漂移问题。在异步调度方面,采用FIFO-Sync结合动态批量策略平衡效率与稳定性,配合前缀冗余消除机制降低计算浪费。算法层面,集成CISPO算法和组合奖励框架,最终支撑MiniMax M2.5模型在真实世界生产力任务上的前沿表现。

核心概念及解读

Agent RL三难困境:系统吞吐量、训练稳定性和智能体灵活性三者难以同时满足,是大规模Agent RL应用的核心挑战。

Middleware架构:通过网关服务器和数据池物理隔离智能体端与训练推理端,实现灵活通信和解耦设计。

上下文管理即动作:将上下文管理建模为环境动态的功能动作,将碎片化上下文从推理异常转化为标准训练观察。

FIFO-Sync调度:结合严格先进先出与同步机制的调度策略,平衡硬件效率和训练稳定性。

CISPO算法:MiniMax开发的组合奖励优化算法,与前缀冗余消除机制共同提升训练效率和模型能力。


原文信息

字段内容
原文undefined - MiniMax News
作者MiniMax
发表日期2026-02-13

此摘要卡片由 AI 自动生成