在过去的一年中,构建一个 AI 智能体几乎意味着同一件事:设置一个 while 循环,获取用户指令,发送给大型语言模型(LLM),解析工具调用,执行工具,将结果返回,再重复。这就是所谓的“浅层代理”(Shallow Agent),或“代理 1.0”。
这种架构在处理诸如“东京今天的天气如何?我该穿什么?”这类事务性任务时表现得极其高效。但当任务复杂、持续时间长、需要数十步操作时,这类代理往往会失焦、丢失上下文、陷入无限循环,甚至开始幻觉,因为任务所需步骤远远超出了语言模型的单次上下文窗口所能承载的能力。
当前,智能体架构正经历转型,朝向“深层代理”(Deep Agents)或“代理 2.0”迈进。这一代系统不再仅仅在循环中反应,而是整合多种智能体行为模式,具备规划能力、持久状态管理能力,并能将复杂任务委派给专门的子代理执行,从而解决多步骤、长周期的复杂问题。
代理 1.0:浅层循环的局限
理解未来的发展方向,必须先了解当下的状况。如今大多数智能体都是“浅层”的,也就是说,它们完全依赖于语言模型的上下文窗口(对话历史)来维持状态。
典型流程如下:
- 用户输入指令:“查询苹果公司股价,并告诉我是否值得购买。”
- LLM 推理:“我需要使用搜索工具。”
- 工具调用:search(“AAPL stock price”)
- 工具返回数据
- LLM 基于数据生成回答,或发起下一轮工具调用
- 重复此流程,直到完成任务
该架构是无状态的,易失性的。整个“智能体大脑”都寄存在当前上下文之中。
当任务变得复杂,例如:“研究10家竞争对手,分析其定价模型,制作比较表格,并撰写战略分析总结”,浅层代理会失败,原因如下:
- 上下文溢出:大量工具输出(如HTML、结构化数据)快速填满历史,导致初始目标和关键指令被挤出上下文。
- 目标丧失:代理在中间步骤的嘈杂信息中忘记了原始意图。
- 缺乏恢复机制:一旦陷入错误路径,往往无法中止、回退和重新尝试。
浅层代理擅长5–15步内完成的任务,但面对500步以上的任务时表现极差。
代理 2.0 的架构(深层代理)
深层代理将“规划”与“执行”解耦,使用上下文之外的持久存储来管理状态。该架构由四大支柱构成:
支柱一:显式规划
浅层代理通过思维链(Chain-of-Thought)隐式规划,即“我应该先做 X,再做 Y”。而深层代理则使用工具明确规划任务,通常以待办事项列表(如 Markdown 文件)形式存在。
在每一步操作之后,代理会回顾并更新此任务清单,标记任务状态为 待处理、进行中 或 已完成,并添加备注说明。如果某一步失败,代理不会盲目重试,而是更新计划,调整路径。这种方式帮助代理持续聚焦于高层目标。
支柱二:分层委派(子代理)
复杂任务需要专业化。浅层代理试图在一个提示中成为“多面手”,结果力不从心。深层代理采用“协调器 → 子代理”架构。
主代理(协调器)将任务拆分后交给具备独立上下文的子代理执行。比如,研究员、开发者、写手等角色型子代理会在自己的工具调用循环中完成任务(搜索、调试、重试),最后返回精炼后的结果交由协调器统一处理。
支柱三:持久内存
为避免上下文窗口溢出,深层代理将状态和中间结果存储在外部资源中,如文件系统或向量数据库。这些存储成为“真实信息源”。框架如 Claude Code 与 Manus 允许代理读写这些存储。
代理会写入中间结果(如代码草稿、文本内容、原始数据),后续子代理只需通过路径或查询取用必要内容。这种模式从“记住一切”转向“知道在哪能找到”。
支柱四:极致上下文工程
更智能的模型并不代表需要更少的提示,而是需要更高质量的上下文。若仍然使用“你是一个有帮助的AI”这类空泛提示,是无法唤起代理 2.0 行为的。
深层代理依赖详细且结构化的系统提示,长度可能达到数千个 token,内容包括:
- 何时应停止执行,先进行规划
- 何种情况下应生成子代理而非自行处理
- 工具调用说明及示例
- 文件命名、目录结构标准
- 人类参与时的协作格式与流程
深层代理执行流程可视化
以“研究量子计算,并将总结写入文件”为例,可视化流程如下:
- 用户请求由主代理接收
- 主代理创建规划文档,列出所需子任务
- 委派“研究子代理”进行相关资料搜索并存入文件
- 委派“撰写子代理”生成摘要并输出至指定目录
- 所有子代理运行在干净的上下文中,仅调用必要工具
- 主代理整合结果,确认完成状态
该流程体现了规划、委派、内存调用和结构化执行的结合。
结语:从代理 1.0 到代理 2.0 的跃迁
迈向深层代理(从 Agent 1.0 到 Agent 2.0),并不是简单地连接更多工具,而是架构的根本性转变——从被动循环到主动系统设计。
通过引入显式规划、分层子代理机制与持久记忆系统,我们不再受限于模型单一上下文窗口的局限,而是能够主动控制上下文,从而掌控复杂性。
这使我们得以构建可以执行长时间、多步骤任务的系统,而非仅限于几秒内解决的小问题。
控制上下文,即掌控复杂性。
这正是 Agent 2.0 真正的价值所在。