ServiceNow AI 团队这周披露一组测试:在强化学习(RL,让 AI 通过试错和奖励信号自我改进的方法)流程中,vLLM V1 与 V0 对同一提示词的输出存在系统性差异,直接导致奖励模型给出不同评分,训练轨迹因此跑偏。

这是什么

vLLM 是目前最主流的开源大模型推理框架之一(负责把训练好的模型高效跑起来、对外提供服务的底层软件),由 UC Berkeley 团队维护。去年底它启动了从 V0 到 V1 的大版本重构,核心改动是用更激进的调度策略换取更高吞吐量。问题在于:V1 对某些算子做了近似计算以提速,在普通对话场景下差异可忽略,但在 RL 流程中——模型需要精确复现自身历史输出来计算奖励——微小的数值偏差会被逐轮放大。ServiceNow 的测试显示,同一 checkpoint 在 V0 和 V1 下跑出的 token 序列出现分歧,最终策略评估结果不可比。

行业怎么看

社区的反应分两派。一线部署团队认为这是迁移阵痛,vLLM 官方已承认问题并在修复 roadmap 中标注优先级,预计后续版本会提供严格的数值一致性模式。但另一派声音更值得关注:多位 RL 研究员指出,这类问题不是 vLLM 独有——所有追求极限性能的推理引擎(TensorRT-LLM、TGI 等)都在做类似的精度换速度取舍,只是大多数用户还没跑到 RL 场景就先用了「快」版本。值得警惕的是,如果行业默认「快比准重要」,未来会有更多训练流水线在不知情的情况下引入系统性噪声。

对普通人的影响

对企业 IT:如果公司正在搭建内部模型训练平台,升级推理框架前必须加一道数值回归测试,否则 RLHF(用人类反馈做强化学习,ChatGPT 的关键训练方法)的对齐效果可能静默退化。

对个人职场:AI 工程岗位的门槛正在从「会调 API」转向「理解底层」,能发现并排查这类精度问题的人,议价权会明显高于只会用最新框架的人。

对消费市场:短期内不会有感知——最终用户看到的是训练好的产品,不是推理框架。但如果框架层的精度问题持续被忽视,明年可能会集中出现一批「对齐质量倒退」的模型上线事件。