InstructGPT 论文揭示了一个事实:大模型从“懂知识”到“懂人事”,核心稳定性几乎全依赖 PPO 算法。这是我们理解大模型为何能安全落地的关键钥匙。

这是什么

大模型通过 RLHF(基于人类反馈的强化学习,让 AI 按人类喜好调整输出的方法)学习人类偏好时,很容易走极端。如果某个回答得了高分,传统方法会让它下次把概率全押在这上面,导致模型“走火入魔”开始胡言乱语。PPO(近端策略优化,一种让 AI 稳健学习人类偏好的算法)就是来解决这个问题的。我们注意到,它像一位温和的教练,通过“裁剪”限制每次更新的幅度——步子最多迈 20%;同时加上 KL 惩罚(限制 AI 偏离原有知识程度的约束机制),保证模型不为了迎合高分而丢掉基本语言能力。

行业怎么看

目前,PPO 是 OpenAI 等头部大厂 RLHF 阶段的事实标准,稳定性久经考验。但值得我们关心的是,行业对它的抱怨正在增加:它的计算代价极高,训练时需要策略模型、奖励模型、参考模型等四个模型同时运作,显存消耗惊人。此外,DPO(直接偏好优化,一种绕过打分模型的省资源算法)等新路线正在挑战它。反对声音认为,对于资源有限的公司,PPO 的工程复杂度和调试难度,往往是导致对齐项目失败的主因。

对普通人的影响

对企业 IT:算力账本必须重写,PPO 训练的硬件成本远超微调阶段,预算预留需充足。

对个人职场:模型自我纠正能力增强,人工反复修改提示词的红利期缩短,业务理解力比调教技巧更重要。

对消费市场:大模型“拟人化”和“安全性”体验的提升,背后正是这套调教机制在发挥作用,产品体验的底线被拉高。