MiniMax · 2026-02-13

Forge：可扩展智能体强化学习框架与算法

摘要

MiniMax发布Forge可扩展Agent RL框架，针对复杂智能体强化学习中的系统吞吐量、训练稳定性和智能体灵活性三难困境，提出Middleware架构实现智能体与训练基础设施解耦。该框架通过白盒和黑盒智能体RL支持任意智能体骨架训练，结合CISPO算法、组合奖励框架和前缀冗余消除机制，显著提升训练效率，最终支撑MiniMax M2.5模型的突破性能力。

内容框架与概述

文章首先阐述Agent RL系统的核心优化目标及面临的三大结构挑战：智能体扩展性受限于现有框架的玻璃天花板，系统效率受调度死锁和前缀冗余影响，算法层面则面临信用分配困难和延迟优化缺失。文章随后详细介绍Forge的系统架构，采用Middleware设计将智能体端与训练推理端物理隔离，通过网关服务器和数据池实现灵活通信和数据管理。针对上下文管理，框架将上下文管理建模为环境动力学的功能动作，解决推理漂移问题。在异步调度方面，采用FIFO-Sync结合动态批量策略平衡效率与稳定性，配合前缀冗余消除机制降低计算浪费。算法层面，集成CISPO算法和组合奖励框架，最终支撑MiniMax M2.5模型在真实世界生产力任务上的前沿表现。