Agentic RL

找到 1 篇关于此标签的文章

Miles 把强化学习从实验室搬进企业，AI Agent 训练开始补工程课

10-50 轮交互、8K-64K 上下文、单次训练样本可长达 60-600 秒，这意味着 AI Agent 的强化学习已不再是“调参数”问题，而是系统工程问题。Miles 这类框架值得关心，因为它反映出行业竞争正从模型能力转向训练与部署的一体化能力。