RLHF

找到 1 篇关于此标签的文章

大模型听话又不发疯全靠 PPO，ChatGPT 调教术终于被看透

PPO 是让大模型按人类偏好学习且不崩溃的核心算法。它像温和教练限制步伐，保障 AI 安全落地，值得企业选型时重点关注。