Building Effective AI Agents

2024年12月19日 · Anthropic Engineering · 日刊 2026-07-05 · 来源 ↗

Anthropic 工程实践：别一上来就套 Agent 框架。先搞懂增强型 LLM，再按任务选工作流或自主 Agent，并设好生产护栏。

结论

Anthropic 和几十个客户团队做过 Agent 之后，发现一个反直觉的结论：最成功的 Agent 往往不是最复杂的那个。很多人一上来就选型 LangChain、CrewAI 这类框架，但真正管用的情况是——先用模型 API 加上检索、工具、记忆，搭出最小可用方案；确认有价值后，再按任务特点加工作流；只有步骤根本没法提前规划时，才上自主 Agent 循环。

要点

一切从「增强型 LLM」开始。 就是在普通大模型外面加三样东西：检索（查文档/数据库）、工具（调 API、跑代码）、记忆（记住上下文）。下图是 Anthropic 原文的底座示意。别跳过这一步直接上「全自动 Agent」。
多数任务用工作流就够，不必自主 Agent。 工作流的意思是：步骤大致能提前想清楚，用固定模式编排 LLM 调用。常见五种——
- 提示链：一步一步来，上一步输出给下一步（比如先提取字段，再生成报告）；
- 路由：先分类，再分流（比如客服先判断是退款还是技术问题）；
- 并行化：多个子任务同时跑，再汇总；
- 编排者-执行者：中央模型动态拆任务、派给子模型；
- 评估者-优化者：一个写、一个评、循环改到达标。每多一层 LLM 调用，就多一分延迟、成本和出错概率——能简单就别复杂。
什么时候才上自主 Agent？ 当「要几步、先干哪步」事先说不清，必须边做边看环境反馈时。典型例子是编程 Agent：改代码前不知道要动哪些文件，得根据仓库状态动态决定。这时才用「模型决策 → 调工具 → 看结果 → 再决策」的循环。
上生产有三条硬规矩。 ① 每步从环境拿地面真相（工具返回的 JSON、代码执行输出），别只听模型说「我觉得搞定了」；② 写数据库、发邮件、部署这类操作前加人工检查点；③ 设 max_iterations 上限，防止无限循环烧钱。

怎么做

如果你刚开始做 Agent，可以按这个路径走：

第一周：单轮增强型 LLM + 一两个工具。 比如「查内部文档 + 回答用户问题」。先验证有没有人用、有没有省时间，别急着搭多 Agent 编排。
第二步：按任务选模式。 步骤固定 → 提示链或路由；要拆成很多独立子任务 → 并行或编排者-执行者；要反复打磨质量 → 评估者-优化者。工具函数的说明要写清楚（参数什么意思、失败返回什么），模型才不容易乱调。
第三步：加生产护栏。 定义什么叫「完成」（可观测的输出，不是一句空话）；敏感操作必须有人点确认；日志记全每步输入输出，方便排查。
上线前自问： 加这一层编排，质量真的提升了吗？还是只是更炫、更慢、更贵？用真实任务 A/B 一下再决定。

关键图表

增强型 LLM：检索、工具、记忆是一切 Agent 的地基 增强型 LLM（Anthropic 原文）——后续所有工作流模式都建在这三层能力之上