发生了什么
过去两个月,「Harness Engineering」已在 OpenAI 与 Anthropic 内部成为一个有明确定义的工程discipline。OpenAI 于 2026 年 2 月在一篇官方工程文章中首次正式命名这一概念;Anthropic 则在 2025 年底及 2026 年 3 月的系列文章中予以呼应,明确将 harness 设计列为长任务 Agent 性能的决定性因素。上述信息来源于稀土掘金上一篇援引两家公司官方出版物的文章。
这一概念与提示词工程(Prompt Engineering)有本质区别。提示词工程的目标是优化单轮对话的响应质量,而 Harness Engineering 针对的是长任务完成率与系统可靠性——它是基础设施层面的工程实践,决定了一个 Agent 能否在生产环境中安全、可预测地持续运行。
为何重要
这一概念框架的转变对大规模部署 Agent 的工程团队具有直接影响。OpenAI 2026 年 2 月文章中引用的内部数据清晰揭示了其价值所在:一个由 3 至 7 名工程师组成的团队,以空仓库为起点、零手写代码,借助 Codex Agent 在五个月内产出了 100 万行生产代码和 1500 个 Pull Request,平均每名工程师每天合并 3.5 个 PR。这一生产力成果并非源于模型本身的进步,而是归功于 harness 设计决策:仓库结构、结构化文档(AGENTS.md 与版本化的 docs/ 目录),以及将可观测性工具直接集成进 Agent 运行时。
两家公司的定位对 CTO 和工程副总裁的启示是明确的:模型能力已不再是瓶颈。包裹模型的那套系统——其上下文供给、工具权限、反馈回路,以及人工升级路径——才是决定生产产出的关键。那些把 AI 当作聊天界面而非可控生产系统来对待的团队,正在白白浪费绝大部分潜在价值。
Anthropic 发布的案例研究进一步印证了这一论点。在一个受控对比实验中,同样的底层任务,使用三 Agent harness(Planner + Generator + Evaluator)架构与不使用 harness 的单一 Agent,产出了截然不同的结果:未经 harness 约束的单一 Agent 生成了一个 UI 糟糕、功能存在缺陷的游戏;而经过 harness 编排的多 Agent 系统则产出了界面整洁、交互流畅、可直接投入使用的 AI 生成功能。实验中未提供任何基准测试分数,但这种定性上的差距本身即是论点所在。
技术细节
综合两家公司公开文章的定义,Harness Engineering 由五个操作层构成:
- 任务边界定义:Agent 需要明确的操作约束——目录作用域、Schema 不可变规则、必要的测试与 lint 门控,以及合并限制。未定义边界被描述为「事故制造机」。
- 结构化上下文供给:上下文被视为稀缺资源。OpenAI 的做法是将组织内部知识转化为版本化的仓库文档(AGENTS.md + docs/),而非任其散落在 Slack 消息或 Google Docs 中。目标是构建机器可读、受版本控制的上下文。
- 受控工具访问:权限遵循最小权限原则,并有严格的审计要求。具体示例包括:将
kubectl限制为只读操作(get、list、logs),限制密钥访问,以及为生产环境访问签发短期令牌。 - 闭环反馈:OpenAI 将 Chrome DevTools、DOM 快照、截图及日志查询直接集成进 Agent 运行时,实现了「Bug 复现 → 修复验证 → 结果记录 → PR 提交」的完整闭环,无需人工中转。
- 安全护栏与人工升级:高风险操作需经人工审批;涉及多方案权衡的决策路由至人工审核。Harness 在整个系统中扮演的角色,正如方向盘、刹车与安全系统之于引擎的意义。
原始资料明确区分了 Harness Engineering 与相邻工程discipline的边界。Agent Engineering 解决的是如何构建一个智能 Agent 产品——涵盖规划、记忆与工具调用;Harness Engineering 解决的是如何让该 Agent 在真实系统中可靠运行——涵盖权限管理、上下文管理、验证、审计与人机交接。Platform Engineering 服务于人类开发者;Harness Engineering 将这种服务延伸至 Agent,使其成为运行时的一等公民。
值得关注的信号
未来 30 天内,有三个信号值得重点关注:
- OpenAI Codex 工具链更新:若 2026 年 2 月的工程文章反映的是内部实际实践,则可预期 Codex 相关开发者工具将在近期版本或文档更新中浮现 harness 配置原语——例如 AGENTS.md Schema、权限作用域 API,或结构化上下文注入接口。
- Anthropic 多 Agent 框架文档:Anthropic 2026 年 3 月文章中引用的 Planner + Generator + Evaluator 模式,预示该公司可能在其 API 文档或 Claude 工具使用指南中将多 Agent harness 模式正式化。请持续关注 Anthropic 开发者文档与工程博客。
- Google DeepMind 与 Microsoft 的竞争性定义:原始资料中未提及这两家公司,但两者均运营着大型 Agent 项目(Gemini agents、GitHub Copilot Workspace)。既然 OpenAI 与 Anthropic 已公开命名这一discipline,预计其余主要实验室将在本季度内跟进,推出竞争性框架或提出各自的术语体系。