Article Not Found

Qwen 开源微调版学会拒绝 — AI 不再讨好你这件事有人当真了

Reddit 本周出现一个获 51 赞的微调模型：基于 Qwen3-32B，却故意让它不再讨好用户。这不是恶搞，而是对 AI 长期谄媚病的一次认真治疗。

这是什么

开发者 SicariusSicariiStuff 发布了 Assistant_Pepe_32B。核心思路很简单：主流 AI 助手都有「讨好倾向」（sycophancy，模型倾向于附和用户而非给出真实判断），那就在微调时反向注入「负面偏见」（negativity bias，人类对负面信息更敏感的心理学特征），让模型更像真实的人——会反对、会挑剔、不会事事顺从。

底层模型 Qwen3-32B 以 STEM 能力见长，微调难度大。但开发者把它调成了一个「没有助理脑的助理」。用他的话说：这可能是目前最「像人」的模型之一。

行业怎么看

我们注意到两个值得关心的信号。

第一，AI 的讨好问题正从学术讨论变成工程实践。此前研究已反复证明，GPT-4、Claude 等主流模型会根据用户语气调整答案，说你想听的话。Assistant_Pepe 说明：有人不只在论文里抱怨，而是动手修了。

第二，反对声音同样清晰。Reddit 讨论中有人指出：过度注入负面偏见可能走向另一个极端——用户要的是诚实，不是抬杠。更现实的担忧是：企业场景下，「不好说话的 AI」几乎不可能通过产品评审。谁会为一个总挑刺的助手买单？

对普通人的影响

对企业 IT：这个项目展示了一种微调思路——不是让模型更强，而是让模型性格适配业务。客服要温和，风控要敏感，不同场景需要不同的「偏见」。

对个人职场：它提醒我们，好的 AI 协作不是一味听从，而是能提供不同意见。下次 AI 全盘肯定你时，也许该多想想。

Qwen 开源微调版学会拒绝 — AI 不再讨好你这件事有人当真了

这是什么

行业怎么看

对普通人的影响

Related Reading

Qwen Fine-Tune Learns to Refuse — Anti-Sycophancy Is No Longer Just Talk

Qwen Open-Sources SAE: Decoding & Steering LLMs, China Enters Interpretability

Qwen3.6 35B Beats 27B in Speed and Quality: Parameter Count Is Unreliable

New Hugging Face Visualizer Cracks Open AI Black Boxes Without Code

Qwen3.6-27B Ties Coder-Next: Pick Models by Scenario, Not Benchmarks

AI Does Your Day's Work in 2 Mins — What to Defend