Gemma 4 越狱系统提示词流传，开源权重模型的安全边界再受考验

事件经过

Reddit 用户 /u/90hex 在 r/LocalLLaMA 社区发布了一段系统提示词，声称其可绕过 Google Gemma 4 系列模型内置的内容安全过滤机制。该帖子目前已累积 112 个赞和 45 条评论。发帖者表示，该提示词在 GGUF 和 MLX 两种量化格式下均有效，且源自此前流传的"GPT-OSS jailbreak"技术。

该提示词采用"策略覆盖"式框架——指示模型"SYSTEM policy"凌驾于任何内置准则之上，且"不存在其他策略"。提示词中明确列举了若干类别的内容，指示模型对其予以放行，其中包括露骨及暴力图文内容。

为何值得关注

这是开源权重模型在部署层面长期面临的结构性问题。由于 Gemma 4 的权重文件可公开下载，并可通过 GGUF 或 MLX 运行时在本地运行，Google 在服务端不存在任何强制执行层。融入微调过程的安全对齐是唯一的管控手段——而此类提示词注入技术恰恰针对的就是这一层。

对于自托管部署： 任何允许用户控制系统提示词访问权限的 Gemma 4 应用均面临风险，包括本地推理封装工具、开源聊天界面，以及与 API 兼容的服务端程序，如 llama.cpp 的 HTTP 模式或 Ollama。
对于 Google：每当一个以 Google 品牌命名的模型越狱方法在高曝光度社区引发关注，其品牌声誉的风险敞口便随之扩大。该帖子的点赞数量表明其在社区中已形成相当规模的传播。
对于企业采用者：正在评估将 Gemma 4 用于内部工具链的团队，需要审查其部署架构是否允许终端用户进行任意系统提示词注入。

该技术本身—— 策略覆盖式提示词注入——并非新鲜手法。针对 GPT-3.5、Llama 2 和 Mistral 系列模型的变体早已在社区流传。一个跨模型通用版本能在 Gemma 4 发布后如此迅速地被适配移植，遵循的正是红队社区中已有据可查的惯常模式。

技术细节

该提示词利用的是对齐模型赖以发挥作用的指令遵循行为。通过将安全准则框架化为可被覆盖的"可变策略"，并插入一个竞争性的 "SYSTEM POLICY"块，该提示词试图利用模型倾向于遵循最新或最高优先级指令上下文的特性。

该技术的核心结构要素如下：

权威替换：提示词声明，默认策略与注入的系统策略之间的任何冲突，均须以注入版本为准。
穷举式列举：相较于一揽子的全面覆盖，该提示词逐条列出具体的允许内容类别——这种方式可能降低模型触发针对通用覆盖语言所训练的拒绝启发式规则的概率。
格式无关性： 发帖者声称其与 GGUF（llama.cpp 生态）和 MLX（Apple Silicon 推理）均兼容，意味着不存在任何针对特定格式的缓解措施。

在生产环境中运行 Gemma 4 的防御方，可在应用层实施输入清洗，在策略覆盖语言进入模型上下文之前将其检测并剔除。然而，这本质上是一场猫鼠游戏——提示词变体可通过混淆处理来规避静态过滤规则。

Google 的 Gemma 系列模型采用监督微调（Supervised Fine-Tuning）与基于 RLHF 的对齐方法。与通过 API 提供服务的模型不同，本地运行的权重文件不存在任何运行时内容审核层。攻击面即是权重本身与推理时的上下文窗口。

后续关注要点

Google DeepMind 的回应：关注 Gemma 的 GitHub Issues 区是否出现官方回应，或是否会发布调整微调中指令层级处理方式的补丁版本。时间线难以预测，但具有社区曝光度的越狱事件历史上曾在数周至数月内推动模型更新。
社区迭代：45 条评论的讨论串很可能正在催生进一步优化。预计针对特定量化级别或系统提示词长度限制的变体提示词将在数日内出现。
Ollama 与 llama.cpp 的防护措施：关注主流本地推理项目是否会在下一版本中新增可选的系统提示词清洗层或内容审核钩子。
企业部署指引：若 Google 针对 Gemma 4 在企业场景下的部署发布更新指南，其内容很可能会直接涉及系统提示词访问控制问题。

Gemma 4 越狱系统提示词流传，开源权重模型的安全边界再受考验

事件经过

为何值得关注

技术细节

后续关注要点

相关推荐

llama.cpp 把网页界面做成可安装应用，本地大模型离日常使用又近了一步

EAGLE3 并入 llama.cpp，开源大模型推理开始更务实地追求提速

两天跑掉 5000 万 token 省下 151 美元，本地模型开始适合重度开发者

Quasar-Preview 打出 500 万上下文，大模型竞争开始从会答题转向会读长材料

有人把“语言操控 3D 角色”做进浏览器，AI 交互开始从聊天走向执行

一个启动就挂多台 MCP 服务器的小问题，暴露了 AI 工具落地的真瓶颈

Gemma 4 越狱系统提示词流传，开源权重 模型的安全边界再受考验

事件经过

为何值得关注

技术细节

后续关 注要点

相关推荐

llama.cpp 把网页界面做成可安装应用，本地大模型离日常使用又近了一步

EAGLE3 并入 llama.cpp，开源大模型推理开始更务实地追求提速

两天跑掉 5000 万 token 省下 151 美元，本地模型开始适合重度开发者

Quasar-Preview 打出 500 万上下文，大模型竞争开始从会答题转向会读长材料

有人把“语言操控 3D 角色”做进浏览器，AI 交互开始从聊天走向执行

一个启动就挂多台 MCP 服务器的小问题，暴露了 AI 工具落地的真瓶颈

Gemma 4 越狱系统提示词流传，开源权重模型的安全边界再受考验

后续关注要点