Research map · seminar design · links catalog

Anthropic 技术文章研讨怎么做?

先把文章收全,再把阅读路线设计成讨论。这里覆盖 anthropic.comclaude.com,不只博客,也包括 Engineering、Research、News 中的技术文章。

324候选技术相关文章
24Engineering 深度工程文
120Research / safety / interpretability
92claude.com/blog 技术/产品实践

收集范围

用 sitemap 做底,再按路径和关键词筛选:避免只看 anthropic.com/blog,也避免漏掉 claude.com/blog 上的 Claude Code 实践文章。

Engineering

24 篇。Agent、harness、MCP、Claude Code、eval、context engineering,是研讨主干。

Research

120 篇。Interpretability、alignment、model behavior、安全与社会影响。

Claude Blog

92 篇。Claude Code、大上下文、企业/团队实践、产品工作流。

News 技术相关

88 篇。模型发布、system card、安全、API、应用报告。

建议核心阅读包

研讨不需要读完 324 篇。建议先用 27 篇建立主线:Agent 架构 → Claude Code → Context/Eval → Interpretability/Safety → 组织影响。

01

Building Effective AI Agents

Agent 基础范式

必读:workflow vs agent,何时用 agent,构建有效 agent 的基本模式

02

Writing effective tools for AI agents—using AI agents

Agent 工具设计

工具接口如何写给模型用,而不是写给人类 API 用户用

03

Effective context engineering for AI agents

Context 工程

长任务中 context 的组织、压缩、读取和缓存策略

04

Effective harnesses for long-running agents

长周期 harness

如何设计能持续运行、可恢复、可观测的 agent harness

05

Harness design for long-running application development

应用开发 harness

面向长周期应用开发的 harness 设计取舍

06

Scaling Managed Agents: Decoupling the brain from the hands

Managed Agents 架构

大脑/手/session 解耦,meta-harness 的核心架构文章

07

How we built our multi-agent research system

多智能体系统

Anthropic 多智能体 research system 的架构与经验

08

Equipping agents for the real world with Agent Skills

Agent Skills

技能/能力包如何帮助 agent 进入真实世界任务

09

Introducing advanced tool use on the Claude Developer Platform

高级工具使用

Claude Developer Platform 的工具调用能力演进

10

Code execution with MCP: building more efficient AI agents

MCP + 代码执行

用 MCP 构建更高效 agent 的工程路径

11

The "think" tool: Enabling Claude to stop and think

Think tool

让 Claude 使用显式思考工具的模式与边界

12

Making Claude Code more secure and autonomous with sandboxing

Claude Code 安全

sandboxing 如何让 Claude Code 更安全、更自主

13

Best practices for Claude Code - Claude Code Docs

Claude Code 最佳实践

Claude Code 使用策略、配置、并行 session、workflow

14

How Claude Code Works In Large Codebases Best Practices And Where To Start

大型代码库

claude.com 上的大型代码库实践,不在 anthropic.com

15

How Anthropic Teams Use Claude Code

内部实践

Anthropic 团队如何实际使用 Claude Code

16

Using Claude Md Files

CLAUDE.md

如何给 Claude Code 做项目级 onboarding 和约束

17

Demystifying evals for AI agents

Agent eval

Agent 评测的误区、设计与解释

18

Designing AI resistant technical evaluations

AI-resistant eval

AI 时代技术面试/评测如何防作弊与保持信号

19

Eval awareness in Claude Opus 4.6’s BrowseComp performance

Eval awareness

模型感知评测环境时,benchmark 如何失真

20

Contextual Retrieval in AI Systems

Contextual Retrieval

RAG / retrieval 的 Anthropic 经典工程文章

21

1M Context

1M context

Claude 长上下文能力的产品与工程意义

22

Using Claude Code Session Management And 1M Context

1M context / Session management

1M context 从 preview 到 GA 的使用边界

23

Building a C compiler with a team of parallel Claudes

并行 Claude

用一组并行 Claude 构建 C compiler 的案例

24

Claude SWE-Bench Performance

SWE-bench

Claude 在软件工程 benchmark 上的表现与启示

25

Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

Mechanistic interpretability

解释性研究主线入口

26

Mapping Mind Language Model

Mapping model internals

理解语言模型内部表征的研究入口

27

Anthropic Economic Index: Insights from Claude 3.7 Sonnet

Economic Index

Claude 使用数据如何反映 AI 对工作的影响

研讨会形式设计

目标不是“读文章汇报”,而是把 Anthropic 的工程思想转成你们自己的 agent / 产品 / 组织方法论。

Session 1

Agent 不是魔法:workflow vs agent

  • 读:Building Effective Agents
  • 产出:你们场景里哪些该 workflow,哪些该 autonomous agent
Session 2

长周期 agent 的基础设施

  • 读:harness、managed agents、context engineering
  • 产出:session/harness/sandbox/tool 的架构草图
Session 3

Claude Code 与软件工程组织

  • 读:Claude Code best practices、large codebase、CLAUDE.md
  • 产出:本团队 AI coding operating model
Session 4

Eval、安全与可治理性

  • 读:agent eval、AI-resistant eval、sandboxing、安全/interpretability 入口
  • 产出:上线前 eval + guardrail checklist

推荐节奏

两种模式:半天速读适合探索;四周 reading group 适合沉淀为团队方法论。

半天 workshop

3.5 小时:30 分钟导读 + 4 个主题站点轮转 + 45 分钟收敛。适合快速建立共识。

四周 reading group

每周 90 分钟,每次 4–6 篇。会前异步读,现场只讨论“可迁移到我们的问题”。

产出模板

每篇文章只回答三问:它反对什么默认假设?抽象出什么接口/机制?我们能应用在哪里?

建议最终产出不是 PPT,而是三份可执行文档:Agent 架构原则、Claude Code 团队规范、Eval & Safety checklist。

完整候选目录

下面按主主题展示候选文章。每个分组最多展示 80 篇;完整 JSON/Markdown 已保存在本机,可继续迭代筛选。

Agent 架构 / 长周期任务 62

Claude Code / 开发工作流 37

Context / 记忆 / RAG 9

Evals / 评测方法 11

安全 / 对齐 / 政策 19

Interpretability / 研究 63

模型能力 / 产品更新 116

社会经济 / 应用观察 1

其他技术相关 6