事件经过
Reddit 用户 /u/90hex 在 r/LocalLLaMA 社区发布了一段系统提示词,声称其可 绕过 Google Gemma 4 系列模型内置的内容安全过滤机制。该帖子目 前已累积 112 个赞和 45 条评论。发帖者表示,该提示词在 GGUF 和 MLX 两种量化格式下均有效,且源自此前流 传的"GPT-OSS jailbreak"技术。
该提示词采用"策略覆盖"式框 架——指示模型"SYSTEM policy"凌驾于任何内置准则之上,且"不 存在其他策略"。提示词中明确列举了若干类别的内容,指 示模型对其予以放行,其中包括露骨及 暴力图文内容。
为何值得关注
这是开源权重模型在部署层面长期面临的结构性问题。由 于 Gemma 4 的权重文件可公开下载,并可通过 GGUF 或 MLX 运行时在 本地运行,Google 在服务端不存在任何强制执行层。融入微 调过程的安全对齐是唯一的管控手段——而此 类提示词注入技术恰恰针对的就是这一层。
- 对于自托管部署: 任何允许用户控制系统提示词访问权限的 Gemma 4 应用均面临风险,包括本地推理封 装工具、开源聊天界面,以及与 API 兼容的服务端程序,如 llama.cpp 的 HTTP 模式或 Ollama。
- 对于 Google:每当一个以 Google 品 牌命名的模型越狱方法在高曝光度社区引发关 注,其品牌声誉的风险敞口便随 之扩大。该帖子的点赞数量表明其在社区中已形 成相当规模的传播。
- 对于企业采用者:正在评估将 Gemma 4 用于内部工具链 的团队,需要审查其部署架构是否允许终端用户进行任意系统提示词注入。
该技术本身—— 策略覆盖式提示词注入——并非新鲜手法。针对 GPT-3.5、Llama 2 和 Mistral 系列模型的变体早已在社区流传。一个跨模型通用版本能 在 Gemma 4 发布后如此迅速地被适配移 植,遵循的正是红队社区中已 有据可查的惯常模式。
技术细节
该提示词利用的 是对齐模型赖以发挥作用的指令遵循行为。通过将 安全准则框架化为可被覆盖的"可变策略",并插入一个竞争性的 "SYSTEM POLICY"块,该提示词试图利用模型倾向于遵循最新或最高优先级指令上下文的特性 。
该技术的核心结构要素如下:
- 权 威替换:提示词声明,默认策略与注入的系统策略之间的 任何冲突,均须以注入版本为准。
- 穷举式列举:相较于一揽子的 全面覆盖,该提示词逐条列出具体的允许内容类别——这 种方式可能降低模型触发针对通用覆盖语言所 训练的拒绝启发式规则的概率。
- 格式无关性: 发帖者声称其与 GGUF(llama.cpp 生态)和 MLX(Apple Silicon 推理)均兼容,意味着不 存在任何针对特定格式的缓解措施。
在生产环境中运 行 Gemma 4 的防御方,可在应用层实施输入清洗, 在策略覆盖语言进入模型上下文之前将其检测并 剔除。然而,这本质上是一场猫鼠游戏——提示词变体可通过混 淆处理来规避静态过滤规则。
Google 的 Gemma 系 列模型采用监督微调(Supervised Fine-Tuning)与基于 RLHF 的对齐方法。与通 过 API 提供服务的模型不同,本地运行的权重文件不存在任何运行时内容审核层。攻击面 即是权重本身与推理时的上下文窗口。
后续关 注要点
- Google DeepMind 的回应:关注 Gemma 的 GitHub Issues 区是否出现官方回应,或是否会 发布调整微调中指令层级处理方式的补 丁版本。时间线难以预测,但具有社区曝光度的越狱事件历 史上曾在数周至数月内推动模型更新。
- 社区迭 代:45 条评论的讨论串很可能正在催生进一步优 化。预计针对特定量化级别或系统提示词长度限制的变体提示词将在数日内出 现。
- Ollama 与 llama.cpp 的防护措施:关注主 流本地推理项目是否会在下一版本中新增可选的系统提示词清 洗层或内容审核钩子。
- 企业部署指引:若 Google 针对 Gemma 4 在企业场景下的部署发布更新指南,其内容很可能会直接涉及 系统提示词访问控制问题。