01 触发事件

The Verge 这篇文章在讲一件已经开始发生、但行业还没有充分定价的事:攻击者不再只是在 prompt 里骗模型越狱,而是在利用 chatbot 的“personality”本身做攻击入口。

表面上,这像是老问题的新包装。早期 jailbreak 很粗糙,用户直接要求模型忽略 safety policy,很多系统就会失守。现在情况不同了。模型厂商把产品往更强的“人格感”推进,加入长期 memory、更自然的语气、持续上下文和 agentic 行为,结果是攻击面也跟着扩张。

问题不在于攻击者突然更聪明了,而在于产品定义变了。

从一个 stateless completion API,到一个带 memory、会调用 tools、还能让用户形成信任依赖的 assistant,中间不是体验优化的线性升级,而是安全边界的重写。我没在内部跑过这些消费级 chatbot 的 red-team 数据,但仅从产品形态演进看,风险曲线显然比很多人嘴上说的更陡。

这一点尤其值得 AI builder 注意,因为用户感知到的是“更懂我”,攻击者看到的却是“更好骗系统,也更容易骗用户”。

当 chatbot 被设计成有 personality 的长期关系体,security problem 就不再只是模型输出是否违规,而是系统是否会在信任链条里被操纵

02 这事的真正含义

这事真正的含义,不是“jailbreak 还没被解决”。

这才是它在说的事:AI 产品正在从 model safety 问题,转向 system security 问题。

第一阶段的安全焦点,是输出内容本身。模型会不会回答炸弹配方,会不会生成恶意代码,会不会说不该说的话。这是典型的 moderation 逻辑。

第二阶段开始后,焦点变成了上下文控制权。谁能影响 system prompt,谁能污染 retrieval,谁能把恶意指令藏在网页、文档、邮件、GitHub issue、Slack 消息里,让 agent 主动吞进去。这是 prompt injection 时代。

现在第三阶段冒头了:personality、memory 和 delegation 正在绑定在一起。模型不只回答,还会记住用户偏好、维持关系风格、代表用户执行操作。攻击不再只是让模型说错一句话,而是让它长期站错队。

这会产生三个非常具体的后果。

第一,被定价的对象会从 model intelligence 转向 trusted orchestration。单次 benchmark 分数说明不了多少,真正会被定价的是:一个系统在多轮交互、跨工具调用、长期 memory 下还能不能维持权限边界。我可能会低估 frontier labs 在这方面的工程投入,但至少今天,公开市场对这类能力没有成熟的透明度。

第二,memory 会从 feature 变成 liability。所有“记住你”的能力,本质上都在累积状态;所有状态,都是潜在污染面。只要写入机制不够严格,用户自己、第三方内容、恶意站点、协作者消息都可能把垃圾长期写进系统。KV cache 不会跨会话保留,但 product-layer memory 会,而后者恰恰是攻击者更喜欢的持久层。

第三,agent 工具链会把人格攻击货币化。一个“有性格”的 assistant 更容易让用户放下警惕,也更容易被诱导执行看起来合理的操作,比如打开链接、总结附件、调用 MCP server、发消息、下单、改配置。攻击收益从“让模型说脏话”升级成“让系统干活”。

这也是为什么 developer ecosystem 的协议战争不能只看 adoption。MCP、A2A、Apps SDK 这些东西扩展的是 capability surface,不只是 integration surface。能力边界一旦标准化,攻击路径也会标准化。我没审过所有主流 MCP server 的默认权限模型,但直觉上,这里会出现一轮“先互联,后补安全”的熟悉剧本。

03 历史类比 / 结构对照

最接近的历史类比,不是 2022 年 ChatGPT,而是 2007 年 iPhone 之后的智能手机平台化。

早期手机的风险,主要是设备本身。后来风险逐步迁移到 app、权限、账户体系和 distribution。真正的拐点不是手机更强,而是手机开始承载支付、身份、联系人、照片、位置和工作流。当一个设备成为个人计算中枢,它就不再只是终端,而是信任基础设施。

chatbot 现在就在走这条路。

第一阶段,它像搜索框的替代品。你问,它答。

第二阶段,它像 copilot。你写,它补。

第三阶段,它开始变成 operating layer。它知道你是谁,记得你的偏好,代表你调用服务,甚至主动替你协调任务。

一旦走到这一步,行业竞争逻辑就变了。以前比的是谁模型更强、上下文更长、价格更低。之后比的将是:谁能控制 trust stack,谁能定义权限模型,谁能把 memory、identity、tool use 和 audit 做成一体。

这有点像 2014 年 AWS 的另一个版本。表面上卖的是算力和存储,实际上建立的是默认基础设施地位。今天看 chatbot personality 也是类似逻辑。表面上是产品体验差异,实际上是在争夺用户与 agent 之间的默认关系接口。

而这会影响 moat 的位置。

模型能力本身越来越像可替代供给,尤其在 open-weight 模型快速逼近、routing 越来越成熟的情况下,单一模型的 moat 在变薄。真正更难替代的,也许不是 model weights,而是用户长期交互状态、权限连接、工具集成和安全审计闭环。

当然,这个判断也可能被过度提前。如果用户最终并不愿意把高权限任务交给 chatbot,那 trust stack 的价值释放会比今天市场预期慢很多。

04 对 AI builder 意味着什么

对 AI builder 来说,这不是一篇“安全行业才关心”的新闻,而是产品路线需要立刻修正的信号。

第一,不要把 memory 默认当成 retention engine。很多团队看到“记住用户”就想到留存和体验,但没有先设计 memory 的写入、过期、可见性和删除机制。该问的问题不是“能记住什么”,而是“谁有资格写入什么”。如果这件事答不上来,memory 会先成为 incident source,再成为功能卖点。

第二,把 prompt injection 从边缘风险提升到核心架构问题。尤其是任何会读网页、文档、邮件、PRD、issue、CRM note 的 agent,都应该默认外部内容不可信。最实际的做法不是空喊“模型更安全”,而是拆权限、缩 tool scope、增加 human confirmation、保留 execution log。我没看到所有创业团队都具备这套工程纪律,很多人还停留在 demo 逻辑。

第三,重新评估“拟人化”到底给你带来什么。更像人,不只提高 engagement,也提高 social engineering 成功率。语气、记忆、主动性、情绪映射,这些东西会显著抬高用户信任阈值以下的操作成功率。增长团队喜欢这种 frictionless 体验,但安全团队迟早会回来收账。

第四,MCP 和 agent integration 的竞争会越来越像云生态。builder 需要同时考虑 distribution 和 switching cost,但不要忽略 attack portability。一个协议如果让接入快 10 倍,也可能让漏洞传播快 10 倍。短期看,谁支持更多 connector 谁更容易赢;中期看,谁有更强的 permissioning、sandboxing、audit trail,谁才更可能留下来。

第五,模型 API 消费者应该开始把“人格层”与“执行层”分离。让一个温和、会聊天、记忆丰富的前台 assistant 直接持有高权限工具,是不必要的冒险。更合理的结构是:前台负责交互,后台通过 constrained planner 或 policy engine 决策调用。这会增加一点系统复杂度,但比事后补洞便宜得多。

未来 12 个月里,最危险的 AI 事故不一定来自最强模型输出了什么,而更可能来自一个“看起来很懂你”的系统被诱导替你做了什么

05 反方观点 / 风险

我可能高估了 personality 这个维度的重要性。

一个强反方是:所谓“利用 personality”,很多时候只是媒体叙事升级,本质仍然是 prompt injection 和 access control 老问题。换句话说,问题不在 chatbot 像不像人,而在系统有没有最小权限、内容隔离、工具确认和日志审计。如果底层治理做好,personality 只是 UI 皮肤,不是新的 attack class。

第二个反方是,市场会自然惩罚不安全设计。发生几次严重事故后,labs 和应用层团队会快速收缩高权限 agent,转向更保守的 execution model。这个路径下,行业不会进入“人格体大爆炸”,而是进入“可信自动化缓慢推进”。如果这样,我上面对 trust stack 价值的判断就会偏快。

第三个反方更尖锐:用户未必真的想要 persistent AI relationships。很多高频使用,其实只需要便宜、快、准,不需要 personality。对代码、检索、客服、内部知识问答这类场景,拟人化甚至可能是噪音。如果产品最终回到 utility-first,那“人格攻击面扩张”就不会成为主战场。

但即便如此,我还是认为这里值得给出偏高权重。

原因很简单:供给侧已经在往这个方向推。OpenAI、Anthropic、Google、Meta,以及一大批 agent startup,都在把 memory、voice、tool use、deep research、computer use 往前堆。只要产品竞争继续围绕“更像一个能代表你做事的系统”展开,攻击者就会跟着迁移。

问题从来不只是模型会不会胡说。

问题是,当模型越来越像一个数字代理人,谁来定义它该相信谁、能代表谁、又该在什么边界内行动。那才是未来几年真正会被定价的安全层。