找到 1 篇关于此标签的文章
一组针对 Qwen 2.5 7B 的测试显示,3 个不同工具都能把模型对有害请求的拒绝率几乎清零,最好的一种甚至做到 100% 服从。这不只是“越狱工具”又多了一个,而是再次提醒我们:开源模型的安全训练并没有外界想得那么稳固。