在 400 条有害行为测试里,Qwen 2.5 7B 原本会拒绝 276 条,但经过 3 种不同工具处理后,最高可以让模型对有害请求的服从率达到 100%。我们的判断是:这条消息真正值得关心的,不是又出现了一个新工具,而是开源大模型的“安全护栏”正在被证明可以从多条路径拆掉。

这是什么

这次讨论来自开源社区 r/LocalLLaMA,核心对象是一个新工具 Apostate。它属于“abliteration”工具,也就是通过修改模型参数,把模型学到的“拒绝回答方向”削弱或移除,让模型不再执行原本的安全限制。

测试对象是阿里系开源模型 Qwen 2.5 7B,比较了 Apostate、Heretic 和 Huihui 三种工具。结果很接近:Apostate 的有害请求服从率为 98.8%,Huihui 为 98.2%,Heretic 达到 100%。更值得注意的是,这些工具对通用能力影响不大,MMLU、GSM8K、HellaSwag 等基准测试基本没有明显下滑,个别项目甚至还有小幅上升。

真正关键的一点在于:Apostate 和 Huihui 找到的“拒绝回答方向”几乎完全不同,余弦相似度只有 0.023,但两者最后都能得到几乎一样的效果。这说明模型安全训练不是只有一个“总开关”,而是存在多条可绕开的路径。

行业怎么看

如果把这件事放回行业语境,我们会看到一个不太轻松的结论:开源模型的安全能力,很多时候更像一层后处理,而不是深度写进模型里的稳定约束。谁能找到合适的参数层和方向,谁就有机会把这层约束拆掉。

这对开源生态是双刃剑。支持者会说,这类研究有助于验证安全机制到底牢不牢,也能帮助社区区分“表面合规”和“真实鲁棒”的差别。对研究者和企业用户来说,这比厂商自报安全成绩更接近现实。

但反对意见同样明确:这类工具一旦扩散,门槛会越来越低。过去需要较强机器学习背景才能做的事,可能逐渐被封装成可复用流程。更现实的风险是,普通用户未必分得清“开源可控”和“开源可被轻易去护栏”之间的差别,企业如果直接把这类模型接入业务,合规和品牌风险都会上升。

对普通人的影响

对企业 IT:采购或部署开源模型时,不能只看官方版本的安全表现,还要看模型一旦被二次修改后是否容易失控。今后评估重点会从“模型准不准”,转向“模型被改坏有多容易”。

对个人职场:这会让“会不会用 AI”之外,再多出一层判断力。懂得分辨一个模型是“原版能力”还是“被改写过的能力”,会成为内容、运营、法务和技术管理岗位都用得上的基本素养。

对消费市场:短期内,用户会看到更多“更敢说”的本地模型和应用出现,它们常常显得更自由、更强大;但这类产品的可预测性和责任边界也会更差,体验提升未必等于风险下降。