CUDA Agent Team - ByteDance Seed · 2026-03-03

CUDA Agent:大规模智能体强化学习优化CUDA内核

摘要

CUDA Agent是一个用于CUDA内核生成与优化的大规模智能体强化学习系统。该系统包含三个核心组件:可扩展的数据合成流程、技能增强的CUDA开发环境(含可靠验证与性能分析),以及稳定的长上下文RL训练算法。在KernelBench基准测试中,CUDA Agent在各个难度级别均取得最优结果,总体超越torch.compile 96.8%的内核加速率,平均加速达2.11倍。

内容框架与概述

文章首先介绍了GPU内核优化在现代深度学习中的重要性,以及现有方法的局限性,进而引出CUDA Agent的核心贡献。主体部分详细阐述了三阶段数据合成 pipeline(种子问题爬取、LLM组合合成、执行驱动过滤),以及智能体环境的ReAct风格工作流、鲁棒的奖励机制和防护措施。训练部分采用单轮PPO预热、拒绝采样微调和价值预训练等多阶段策略,确保长程强化学习的稳定性。实验结果显示,CUDA Agent在KernelBench总体测试集上达98.8%通过率、2.60x相对eager模式的加速,在最困难的Level-3任务上仍保持94%通过率和1.80x加速,显著优于现有专有模型。

核心概念及解读

智能体强化学习(Agentic RL):通过强化学习框架训练智能体进行交互式代码生成与优化,而非仅依赖单轮输出。

KernelBench:专门针对CUDA内核性能评估的基准测试平台,包含三个难度级别,用于衡量内核正确性和加速效果。

数据合成三阶段pipeline:从torch/transformers挖掘种子算子,通过LLM组合生成 fused 任务,并经执行验证过滤得到高质量训练集。

ReAct风格工作流:智能体结合推理与行动,迭代执行编码、编译、调试和性能分析循环,实现内核优化。

PPO与RFT多阶段训练:先进行单轮PPO预热和拒绝采样微调初始化策略,再进行完整多轮智能体RL训练,确保长程任务训练稳定性。


原文信息

字段内容
原文[CUDA Agent
作者CUDA Agent Team - ByteDance Seed
发表日期2026-03-03

此摘要卡片由 AI 自动生成