大规模强化学习(RL)是当前通往更高阶AI能力的关键技术之一,但其发展一直受限于主流框架在底层架构上的瓶颈。当训练规模扩展至成百上千的计算节点时,传统框架的性能往往会急剧下降,其根源在于其固有的“中心化”设计。