ServiceNow

找到 1 篇关于此标签的文章

vLLM 升级 V1 让强化学习结果跑偏 — 推理框架的正确性比速度更值得关心

vLLM 从 V0 升级到 V1 后，在强化学习场景下出现输出不一致的问题。推理框架的「快」如果以牺牲「准」为代价，会让依赖它训练的模型悄悄走偏。