大家越来越同意:真正决定 agent 能不能稳定工作的,不只是模型,而是模型外面那整套运行、约束、工具、上下文、权限、恢复、评测和观测系统。
整理来源:Anthropic Engineering、LangChain / Deep Agents、AWS Bedrock AgentCore、MongoDB / Parallel / Lightning 技术文章,以及 Agent Harness survey。
负责生成、推理、决策候选。
负责把智能接入状态、工具、权限、反馈和真实世界。
负责跨团队运行很多 harness:治理、成本、观测、部署。
不同社区用词略有差异,但都在指向同一个事实:agent 的可靠性来自模型外的运行系统。
Engineering 文章连续讨论 effective harnesses、long-running app harness、Managed Agents。harness 管理模型调用、工具、上下文、handoff、sandbox 和 session。
Deep Agents 直接自称 batteries-included agent harness,包含 planning、filesystem、permissions、subagents、skills、memory、context management、code execution。
AWS AgentCore harness、MongoDB、Parallel、Lightning 等文章把 harness 描述为生产 agent 的 runtime、状态、验证、权限和观测层。
这些共识基本跨越了 Anthropic、LangChain、云厂商和外部技术社区。
模型只是 next-token engine。agent 需要目标、工具、状态、行动循环、反馈和约束。
它把模型智能转成可执行工作:prompt contract、tool interface、agent loop、state、context、permissions、eval。
同一模型换不同 harness,长任务、coding、design、web automation 的表现会差很多。
长任务必须有 session log、task artifacts、memory files、structured handoff,而不是只靠 chat history。
凭据、sandbox、tool allowlist、approval gate 应由 harness 结构性保证,不是写在 prompt 里。
多 agent 不只是互相发消息,而是 shared state、shared tools、resource ownership、permissions、failure recovery。
为了避免“除了模型之外全叫 harness”导致概念变空,我会给它一个较窄但足够完整的定义。
对研发团队来说,harness 不只是一个库,而是把 AI 接入研发流程的一组层次。
Claude / GPT / Gemini / local model:能力底座,但不是完整 agent。
function calling、MCP、shell、browser、file edit、git。
plan-act-observe loop、todo、task ledger、handoff、retries。
retrieval、memory、compaction、session log、prompt cache。
tests、linters、evals、reviewer agent、human approval。
sandbox、scoped credentials、policy、allowlist、approval gates。
issue、PR、CI/CD、deploy、rollback、ownership、SLA。
multiple harnesses、multiple agents、resource registry、session orchestration。
概念趋向共识,但仍处在定义扩张期。要避免把词用烂。
我更倾向区分:harness 管一个 agent/task 的执行结构;platform 管跨团队、跨 harness 的部署、治理、成本和观测。
通用 harness 适合默认任务;任务特定 harness 适合高价值、高重复、可评测领域;meta-harness 负责容纳多种 harness。
LangGraph、Claude Agent SDK、OpenAI Agents SDK 是 building blocks;真正 harness 还包括团队如何做状态、权限、review、CI/CD。
一个简单 wrapper 也可以叫 harness,但真正有生产价值的 harness 至少要处理状态、工具、恢复和验证。
团队竞争力会从“谁 prompt 写得好”,转向“谁能把研发流程改造成适合 agent 工作的 harness”。
| 以前的问题 | Harness 视角的问题 | 对应建设 |
|---|---|---|
| 用哪个模型? | 模型如何接入任务状态和工具? | TaskSession + tool registry |
| 怎么让它多干点? | 长任务如何恢复、分解、验证? | event log + artifacts + evaluator |
| 怎么写 prompt? | prompt contract 如何与权限/工具/流程一致? | system prompts + policies + scopes |
| 怎么做多 agent? | shared state、resource ownership、handoff 怎么设计? | meta-harness + resource registry |
| 怎么避免乱操作? | 安全边界是不是结构性的? | sandbox + vault/proxy + approval gates |
Crewden 的核心不应该是“再加几个 agent 角色”,而应该是构建可靠的 task harness / meta-harness。
harness 已经基本成为 agent 工程的核心共识词,但仍在定义扩张期。
chat + tool call 就够了,不必过度工程化。
需要 task session、event log、sandbox、eval、handoff。
需要 workflow harness 和 meta-harness,把研发流程变成 agent-operable。