Anthropic Engineering · Apr 08 2026

AI-native 研发团队的任务操作系统

《Scaling Managed Agents》表面讲的是托管 agent 架构,真正有价值的是一套研发组织方法论:把可变智能放进 Brain,把危险执行隔离成 Hands,把不可丢失的任务事实沉淀为 Session

原文:anthropic.com/engineering/managed-agents

Brain

Claude + harness:思考、规划、路由工具调用。

Session

append-only event log:任务状态、证据、失败、恢复点。

Hands

sandbox / MCP / repo / browser / CI / deploy:可替换执行环境。

60%p50 TTFT 下降
90%+p95 TTFT 下降
0token 暴露给 sandbox

这篇文章真正讲什么?

不是某个 API,而是如何设计能跨模型代际、跨工具实现、跨组织流程演进的稳定接口。

Harnesses encode assumptions that go stale as models improve.研发流程同理:今天为了补模型短板而加的规则,明天可能变成阻碍。
问题

不要收养 pet container

把 session、harness、sandbox 放在一个容器里很简单,但容器挂了任务就挂了,debug 还会碰到用户数据和凭据。

解法

Brain / Hands / Session 解耦

harness 离开容器,sandbox 变成普通工具调用;session log 在外部持久化,brain 和 hands 都可以 cattle 化。

组织映射

任务不应该依赖某个聊天窗口

AI 任务中心应是可恢复的 task session,而不是某个 agent 当前上下文、某个人本机或某段 summary。

旧流程 vs AI-native 流程

关键变化:从“人/agent 管任务”转向“session 管任务”。

脆弱模式

  • 任务状态藏在聊天上下文
  • agent run 中断后只能靠总结恢复
  • 执行环境绑定某个人本机或单个容器
  • 凭据暴露在 sandbox / shell 里
  • 多 agent = 多个聊天窗口互相转述
  • 流程规则长期不删除,workaround 变制度

可恢复模式

  • 任务事实写入 append-only session log
  • 任何 brain 可 wake(sessionId) 接手
  • hands 标准化、可重建、可替换
  • token 在 vault/proxy,agent 只见 capability
  • 多 agent 围绕 shared task session 协作
  • 定期去 workaround 化,保留稳定接口

对研发团队的 8 条启发

这些原则可以直接转成团队 AI coding / agent 协作规范。

任务状态持久化,不能只在聊天里

记录目标、决策、文件、命令、失败、测试、下一步。summary 可以有,但不能替代 event log。

agent run 可以失败,任务不能失败

如果当前 agent 现在死掉,另一个 agent 应该能通过 session log 在 5 分钟内接手。

执行环境 cattle 化

标准 devcontainer、bootstrap、seed data、test command、artifact path;不要依赖某个本机状态。

凭据从 sandbox 中拿出去

用 token broker、MCP proxy、短期权限、session scope。不要靠 prompt 告诉 agent “不要读 token”。

围绕接口设计流程

稳定的是 assign / readContext / execute / emitEvent / review / deploy / rollback,不是某个具体 agent 工具。

定期删除旧模型 workaround

模型能力进步后,旧的频繁确认、小步拆分、过度汇报可能变成组织摩擦。

多 agent 中心是 task session

manager-worker 不是核心;核心是 shared session、resource registry、scoped hands、显式 handoff。

harness 内建 eval 与 observability

harness 不只是循环调模型,还要记录事件、管理 context、权限边界、失败恢复和 review artifact。

Handoff 的核心不是“总结”

好的 handoff 是可恢复状态,而不是一段漂亮文字。

TaskSession goal: 用户原始目标 constraints: 预算 / 安全 / 风格 / 不可做事项 events[]: append-only 工具调用、错误、测试、决策 artifacts[]: branch / PR / logs / screenshots / URLs resources[]: repo sandbox / browser / CI / deploy env permissions[]: session-scoped capabilities recovery_state: 下一任 brain 从哪里继续

Short summary

帮助快速进入,不承担唯一真相。

Event log

保留原始证据,允许未来 agent 回看、切片、重放。

Recoverable artifacts

让接手者拿到真实产物,而不是只能相信描述。

对 Crewden / agent 协作的直接启发

不要优先堆更多角色。先把任务闭环的底层对象做对。

Task Session
+
Event Log
+
Resource Registry
+
Scoped Hands
+
Recoverable Harness

不应该先做

  • planner / researcher / coder / reviewer / deployer 角色堆叠
  • agent 之间自然语言互传 summary
  • 依赖 manager agent 记住全局状态
  • 让用户频繁介入协调流程

应该先做

  • 任务可恢复:任何 agent 可从 session 接手
  • 资源可移交:repo、browser、CI、deploy 都是 hands
  • 权限可审计:capability 按任务发放和撤销
  • 状态可验证:每个结论有日志、文件、URL、测试证据

研发组织流程怎么改

从传统 PR-centric 流程,升级为 session-centric 的 AI-native 流程。

传统重点AI-native 重点操作含义
谁负责这个任务session 是否完整责任人可以变,但任务事实不能丢。
谁知道上下文context 是否可查询上下文是对象,不是某个 agent 的记忆。
谁在本地跑了什么event log 是否可审计命令、日志、失败路径都进入任务账本。
谁有权限capability 是否按 session 授权agent 只拿任务需要的能力,看不到长期凭据。
谁来接手任何 brain 是否能恢复handoff by state, not by summary。
PR 最终结果决策和失败路径是否可追溯review 不只看 diff,也看过程证据。

内部讨论检查表

适合拿这篇文章做研发团队研讨时直接使用。

流程反思

  • 哪些规则是旧模型能力不足时加的?
  • 哪些人工确认可以改成 eval / guardrail?
  • 哪些任务还依赖某个人本机状态?
  • 如果 agent 中断,接手成本是多少?

系统设计

  • TaskSession 对象应该包含哪些字段?
  • 哪些 hands 需要标准化:repo、browser、CI、deploy?
  • 哪些 credentials 必须搬到 proxy/vault?
  • 多 agent 是围绕 session,还是围绕 manager?
未来的 AI-native 研发组织,不是“每个人多用几个 AI 工具”,而是把研发流程改造成 agent 可以安全接手、失败可恢复、上下文可查询、执行环境可替换的任务操作系统。— 对《Scaling Managed Agents》的组织方法论提炼