Anthropic / Claude 技术文章研讨地图

建议核心阅读包

研讨不需要读完 324 篇。建议先用 27 篇建立主线：Agent 架构 → Claude Code → Context/Eval → Interpretability/Safety → 组织影响。

Building Effective AI Agents

Agent 基础范式

必读：workflow vs agent，何时用 agent，构建有效 agent 的基本模式

Writing effective tools for AI agents—using AI agents

Agent 工具设计

工具接口如何写给模型用，而不是写给人类 API 用户用

Effective context engineering for AI agents

Context 工程

长任务中 context 的组织、压缩、读取和缓存策略

Effective harnesses for long-running agents

长周期 harness

如何设计能持续运行、可恢复、可观测的 agent harness

Harness design for long-running application development

应用开发 harness

面向长周期应用开发的 harness 设计取舍

Scaling Managed Agents: Decoupling the brain from the hands

Managed Agents 架构

大脑/手/session 解耦，meta-harness 的核心架构文章

How we built our multi-agent research system

多智能体系统

Anthropic 多智能体 research system 的架构与经验

Equipping agents for the real world with Agent Skills

Agent Skills

技能/能力包如何帮助 agent 进入真实世界任务

Introducing advanced tool use on the Claude Developer Platform

高级工具使用

Claude Developer Platform 的工具调用能力演进

Code execution with MCP: building more efficient AI agents

MCP + 代码执行

用 MCP 构建更高效 agent 的工程路径

The "think" tool: Enabling Claude to stop and think

Think tool

让 Claude 使用显式思考工具的模式与边界

Making Claude Code more secure and autonomous with sandboxing

Claude Code 安全

sandboxing 如何让 Claude Code 更安全、更自主

Best practices for Claude Code - Claude Code Docs

Claude Code 最佳实践

Claude Code 使用策略、配置、并行 session、workflow

How Claude Code Works In Large Codebases Best Practices And Where To Start

大型代码库

claude.com 上的大型代码库实践，不在 anthropic.com

How Anthropic Teams Use Claude Code

内部实践

Anthropic 团队如何实际使用 Claude Code

Using Claude Md Files

CLAUDE.md

如何给 Claude Code 做项目级 onboarding 和约束

Demystifying evals for AI agents

Agent eval

Agent 评测的误区、设计与解释

Designing AI resistant technical evaluations

AI-resistant eval

AI 时代技术面试/评测如何防作弊与保持信号

Eval awareness in Claude Opus 4.6’s BrowseComp performance

Eval awareness

模型感知评测环境时，benchmark 如何失真

Contextual Retrieval in AI Systems

Contextual Retrieval

RAG / retrieval 的 Anthropic 经典工程文章

1M Context

1M context

Claude 长上下文能力的产品与工程意义

Using Claude Code Session Management And 1M Context

1M context / Session management

1M context 从 preview 到 GA 的使用边界

Building a C compiler with a team of parallel Claudes

并行 Claude

用一组并行 Claude 构建 C compiler 的案例

Claude SWE-Bench Performance

SWE-bench

Claude 在软件工程 benchmark 上的表现与启示

Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

Mechanistic interpretability

解释性研究主线入口

Mapping Mind Language Model

Mapping model internals

理解语言模型内部表征的研究入口

Anthropic Economic Index: Insights from Claude 3.7 Sonnet

Economic Index

Claude 使用数据如何反映 AI 对工作的影响

完整候选目录

下面按主主题展示候选文章。每个分组最多展示 80 篇；完整 JSON/Markdown 已保存在本机，可继续迭代筛选。

收集范围

Engineering

Research

Claude Blog

News 技术相关

建议核心阅读包

研讨会形式设计

Agent 不是魔法：workflow vs agent

长周期 agent 的基础设施

Claude Code 与软件工程组织

Eval、安全与可治理性

推荐节奏

半天 workshop

四周 reading group

产出模板

完整候选目录

Agent 架构 / 长周期任务 62

Claude Code / 开发工作流 37

Context / 记忆 / RAG 9

Evals / 评测方法 11

安全 / 对齐 / 政策 19

Interpretability / 研究 63

模型能力 / 产品更新 116

社会经济 / 应用观察 1

其他技术相关 6