CUDA Agent Team - ByteDance Seed · 2026-03-03

CUDA Agent：大规模智能体强化学习优化CUDA内核

摘要

CUDA Agent是一个用于CUDA内核生成与优化的大规模智能体强化学习系统。该系统包含三个核心组件：可扩展的数据合成流程、技能增强的CUDA开发环境（含可靠验证与性能分析），以及稳定的长上下文RL训练算法。在KernelBench基准测试中，CUDA Agent在各个难度级别均取得最优结果，总体超越torch.compile 96.8%的内核加速率，平均加速达2.11倍。

内容框架与概述

文章首先介绍了GPU内核优化在现代深度学习中的重要性，以及现有方法的局限性，进而引出CUDA Agent的核心贡献。主体部分详细阐述了三阶段数据合成 pipeline（种子问题爬取、LLM组合合成、执行驱动过滤），以及智能体环境的ReAct风格工作流、鲁棒的奖励机制和防护措施。训练部分采用单轮PPO预热、拒绝采样微调和价值预训练等多阶段策略，确保长程强化学习的稳定性。实验结果显示，CUDA Agent在KernelBench总体测试集上达98.8%通过率、2.60x相对eager模式的加速，在最困难的Level-3任务上仍保持94%通过率和1.80x加速，显著优于现有专有模型。