Article Not Found

01 触发事件

The Verge 这篇文章在讲一件已经开始发生、但行业还没有充分定价的事：攻击者不再只是在 prompt 里骗模型越狱，而是在利用 chatbot 的“personality”本身做攻击入口。

表面上，这像是老问题的新包装。早期 jailbreak 很粗糙，用户直接要求模型忽略 safety policy，很多系统就会失守。现在情况不同了。模型厂商把产品往更强的“人格感”推进，加入长期 memory、更自然的语气、持续上下文和 agentic 行为，结果是攻击面也跟着扩张。

问题不在于攻击者突然更聪明了，而在于产品定义变了。

从一个 stateless completion API，到一个带 memory、会调用 tools、还能让用户形成信任依赖的 assistant，中间不是体验优化的线性升级，而是安全边界的重写。我没在内部跑过这些消费级 chatbot 的 red-team 数据，但仅从产品形态演进看，风险曲线显然比很多人嘴上说的更陡。

这一点尤其值得 AI builder 注意，因为用户感知到的是“更懂我”，攻击者看到的却是“更好骗系统，也更容易骗用户”。

当 chatbot 被设计成有 personality 的长期关系体，security problem 就不再只是模型输出是否违规，而是系统是否会在信任链条里被操纵

02 这事的真正含义

这事真正的含义，不是“jailbreak 还没被解决”。

这才是它在说的事：AI 产品正在从 model safety 问题，转向 system security 问题。

第一阶段的安全焦点，是输出内容本身。模型会不会回答炸弹配方，会不会生成恶意代码，会不会说不该说的话。这是典型的 moderation 逻辑。

第二阶段开始后，焦点变成了上下文控制权。谁能影响 system prompt，谁能污染 retrieval，谁能把恶意指令藏在网页、文档、邮件、GitHub issue、Slack 消息里，让 agent 主动吞进去。这是 prompt injection 时代。

现在第三阶段冒头了：personality、memory 和 delegation 正在绑定在一起。模型不只回答，还会记住用户偏好、维持关系风格、代表用户执行操作。攻击不再只是让模型说错一句话，而是让它长期站错队。

这会产生三个非常具体的后果。

第一，被定价的对象会从 model intelligence 转向 trusted orchestration。单次 benchmark 分数说明不了多少，真正会被定价的是：一个系统在多轮交互、跨工具调用、长期 memory 下还能不能维持权限边界。我可能会低估 frontier labs 在这方面的工程投入，但至少今天，公开市场对这类能力没有成熟的透明度。

第二，memory 会从 feature 变成 liability。所有“记住你”的能力，本质上都在累积状态；所有状态，都是潜在污染面。只要写入机制不够严格，用户自己、第三方内容、恶意站点、协作者消息都可能把垃圾长期写进系统。KV cache 不会跨会话保留，但 product-layer memory 会，而后者恰恰是攻击者更喜欢的持久层。

第三，agent 工具链会把人格攻击货币化。一个“有性格”的 assistant 更容易让用户放下警惕，也更容易被诱导执行看起来合理的操作，比如打开链接、总结附件、调用 MCP server、发消息、下单、改配置。攻击收益从“让模型说脏话”升级成“让系统干活”。

这也是为什么 developer ecosystem 的协议战争不能只看 adoption。MCP、A2A、Apps SDK 这些东西扩展的是 capability surface，不只是 integration surface。能力边界一旦标准化，攻击路径也会标准化。我没审过所有主流 MCP server 的默认权限模型，但直觉上，这里会出现一轮“先互联，后补安全”的熟悉剧本。

03 历史类比 / 结构对照

最接近的历史类比，不是 2022 年 ChatGPT，而是 2007 年 iPhone 之后的智能手机平台化。

早期手机的风险，主要是设备本身。后来风险逐步迁移到 app、权限、账户体系和 distribution。真正的拐点不是手机更强，而是手机开始承载支付、身份、联系人、照片、位置和工作流。当一个设备成为个人计算中枢，它就不再只是终端，而是信任基础设施。

chatbot 现在就在走这条路。

第一阶段，它像搜索框的替代品。你问，它答。

第二阶段，它像 copilot。你写，它补。

第三阶段，它开始变成 operating layer。它知道你是谁，记得你的偏好，代表你调用服务，甚至主动替你协调任务。

一旦走到这一步，行业竞争逻辑就变了。以前比的是谁模型更强、上下文更长、价格更低。之后比的将是：谁能控制 trust stack，谁能定义权限模型，谁能把 memory、identity、tool use 和 audit 做成一体。

这有点像 2014 年 AWS 的另一个版本。表面上卖的是算力和存储，实际上建立的是默认基础设施地位。今天看 chatbot personality 也是类似逻辑。表面上是产品体验差异，实际上是在争夺用户与 agent 之间的默认关系接口。

而这会影响 moat 的位置。

模型能力本身越来越像可替代供给，尤其在 open-weight 模型快速逼近、routing 越来越成熟的情况下，单一模型的 moat 在变薄。真正更难替代的，也许不是 model weights，而是用户长期交互状态、权限连接、工具集成和安全审计闭环。

当然，这个判断也可能被过度提前。如果用户最终并不愿意把高权限任务交给 chatbot，那 trust stack 的价值释放会比今天市场预期慢很多。

04 对 AI builder 意味着什么

对 AI builder 来说，这不是一篇“安全行业才关心”的新闻，而是产品路线需要立刻修正的信号。

第一，不要把 memory 默认当成 retention engine。很多团队看到“记住用户”就想到留存和体验，但没有先设计 memory 的写入、过期、可见性和删除机制。该问的问题不是“能记住什么”，而是“谁有资格写入什么”。如果这件事答不上来，memory 会先成为 incident source，再成为功能卖点。

第二，把 prompt injection 从边缘风险提升到核心架构问题。尤其是任何会读网页、文档、邮件、PRD、issue、CRM note 的 agent，都应该默认外部内容不可信。最实际的做法不是空喊“模型更安全”，而是拆权限、缩 tool scope、增加 human confirmation、保留 execution log。我没看到所有创业团队都具备这套工程纪律，很多人还停留在 demo 逻辑。

第三，重新评估“拟人化”到底给你带来什么。更像人，不只提高 engagement，也提高 social engineering 成功率。语气、记忆、主动性、情绪映射，这些东西会显著抬高用户信任阈值以下的操作成功率。增长团队喜欢这种 frictionless 体验，但安全团队迟早会回来收账。

第四，MCP 和 agent integration 的竞争会越来越像云生态。builder 需要同时考虑 distribution 和 switching cost，但不要忽略 attack portability。一个协议如果让接入快 10 倍，也可能让漏洞传播快 10 倍。短期看，谁支持更多 connector 谁更容易赢；中期看，谁有更强的 permissioning、sandboxing、audit trail，谁才更可能留下来。

第五，模型 API 消费者应该开始把“人格层”与“执行层”分离。让一个温和、会聊天、记忆丰富的前台 assistant 直接持有高权限工具，是不必要的冒险。更合理的结构是：前台负责交互，后台通过 constrained planner 或 policy engine 决策调用。这会增加一点系统复杂度，但比事后补洞便宜得多。

未来 12 个月里，最危险的 AI 事故不一定来自最强模型输出了什么，而更可能来自一个“看起来很懂你”的系统被诱导替你做了什么

05 反方观点 / 风险

我可能高估了 personality 这个维度的重要性。

一个强反方是：所谓“利用 personality”，很多时候只是媒体叙事升级，本质仍然是 prompt injection 和 access control 老问题。换句话说，问题不在 chatbot 像不像人，而在系统有没有最小权限、内容隔离、工具确认和日志审计。如果底层治理做好，personality 只是 UI 皮肤，不是新的 attack class。

第二个反方是，市场会自然惩罚不安全设计。发生几次严重事故后，labs 和应用层团队会快速收缩高权限 agent，转向更保守的 execution model。这个路径下，行业不会进入“人格体大爆炸”，而是进入“可信自动化缓慢推进”。如果这样，我上面对 trust stack 价值的判断就会偏快。

第三个反方更尖锐：用户未必真的想要 persistent AI relationships。很多高频使用，其实只需要便宜、快、准，不需要 personality。对代码、检索、客服、内部知识问答这类场景，拟人化甚至可能是噪音。如果产品最终回到 utility-first，那“人格攻击面扩张”就不会成为主战场。

但即便如此，我还是认为这里值得给出偏高权重。

原因很简单：供给侧已经在往这个方向推。OpenAI、Anthropic、Google、Meta，以及一大批 agent startup，都在把 memory、voice、tool use、deep research、computer use 往前堆。只要产品竞争继续围绕“更像一个能代表你做事的系统”展开，攻击者就会跟着迁移。

问题从来不只是模型会不会胡说。

问题是，当模型越来越像一个数字代理人，谁来定义它该相信谁、能代表谁、又该在什么边界内行动。那才是未来几年真正会被定价的安全层。

人格越深，攻击面越大

01 触发事件

02 这事的真正含义

03 历史类比 / 结构对照

04 对 AI builder 意味着什么

05 反方观点 / 风险

Related Reading

Open AI Enters the Security Agent Race with Day break

Th inkFlow Is Not an Aggreg ator — It's a Token OS

Open AI's IP O Regulatory V angu ard: Governance Under the Microscope

Open AI Enters the Security Agent Race with Day break

Nvidia Isn 't Selling Chips Anymore— It's Buying the Ecosystem

Byt eDance Doubles Down on Infrastructure , Not Models