他们的“研究”功能通过多个 Claude 智能体协作,更高效地探索复杂主题。他们在构建该系统过程中遇到的工程挑战和所汲取的经验将在此分享。
Claude 现具备研究能力,能够跨网络、Google Workspace 及其他集成工具进行搜索,以完成复杂任务。
从原型到生产,他们在多智能体系统的建设历程中学到了系统架构、工具设计与提示工程方面的重要经验。多智能体系统由多个智能体(LLM 自主循环使用工具)协作完成任务。他们的研究功能由一个负责规划研究流程的主智能体触发,根据用户查询生成多个并行子智能体去搜索信息,而多智能体系统给智能体协调、评估与可靠性带来了新的挑战。
本文将拆解他们验证有效的一系列原则,希望对您构建自己的多智能体系统有所启发。

多智能体系统的优势
研究工作涉及开放式问题,难以预先预测所需步骤。研究过程动态、路径相关,无法用硬编码路径来应对。人类研究时会根据新发现不断调整策略,并追踪出现的新线索。
这种不可预测性使得 AI 智能体在研究任务中尤为适合。研究需要在调查过程中灵活转向或发掘次级关联,模型需要自主在多个回合中判断应追踪哪个方向。线性、一次性的处理流程无法胜任这些需求。
搜索的本质是压缩:从海量语料中提炼见解。子智能体通过并行运行、各自拥有上下文窗口,同时探索问题的不同层面,然后将重要信息摘要回主智能体,实现压缩。每个子智能体还实现了关注点分离——使用不同工具、提示和探索路径,减少路径依赖,使调查更加深入且独立。
当智能体组合的智慧达到临界点,多智能体系统能显著扩张性能。例如,虽然个人智慧在人类历史中有所提升,但信息时代的人类社会依靠集体智慧实现了指数级的能力提升。即使是通用智能智能体,作为个体运作能力有限,而一组智能体协作则能实现更高成就。

内部评估显示,多智能体研究系统在涉及多个方向同时探索的“广度优先”查询中,表现尤为出色。他们发现,以 Claude Opus 4 作为主智能体、Claude Sonnet 4 担任子智能体的系统,在内部研究评测中,比单一 Claude Opus 4 智能体表现提升了 90.2%。例如,在查询“识别信息技术板块标普 500 公司全部董事会成员”时,多智能体系统将任务分配给子智能体并行搜索,成功找到答案,而单智能体系统则因必须逐步串行搜索而失败。
多智能体系统能高效执行任务,部分因为它能消耗足够多的 tokens。在 BrowseComp 评测中(测试智能体浏览难找信息能力),三大因素解释了 95% 的性能差异:token 使用量(约占 80%)、工具调用次数与模型选择。这个发现印证了他们的架构设计:分散上下文窗口,增强并行推理能力。最新 Claude 模型作为 token 使用效率的乘数,升级到 Claude Sonnet 4 带来的性能提升比将 Sonnet 3.7 的 token 预算翻倍更显著。多智能体架构可以有效扩展 token 使用,适应超出单一智能体处理能力的任务。
不过也有缺点:这种架构消耗 token 较快。数据显示,单次代理使用 token 约为普通对话的 4 倍,多智能体系统的 token 使用量约为普通对话的 15 倍。为了经济可行,必须确保任务价值足以支撑这种性能开销。此外,一些场景并不适合多智能体系统,如强依赖共享上下文或高度相互依赖的任务。以编程任务为例,并行任务少,且 LLM 智能体目前尚未擅长实时协调与委派。因此,多智能体系统更适合那些高度并行化、信息量超过单智能体上下文限额且需要与多种复杂工具接口的研究类任务。
研究系统架构概览
他们的研究系统采用主从式多智能体架构,由一个协调者主智能体带领多个并行运行的子智能体协作完成任务。
当用户提交查询时,主智能体解析查询、制定策略,并生成子智能体分别探索不同方面。如示意图所示,子智能体通过反复调用搜索工具,针对主题如“2025 年的 AI 智能体公司”进行信息收集,并将公司列表反馈给主智能体,最后由主智能体汇总答案。
与传统检索增强生成(RAG)方式只在输入查询阶段静态检索信息不同,他们的架构采用多阶段搜索,动态寻找相关内容、适应新发现、分析结果以生成高质量答案。
流程图进一步说明:用户提问后,主智能体(LeadResearcher)进入迭代式研究流程。它首先思考研究策略,将计划存入记忆,以应对上下文窗口超过 20 万 token 被截断的情况。随后它创建多个子智能体,每个子智能体独立执行网页搜索,使用思维交叉方式评估工具结果,并将所见反馈给主智能体。主智能体汇编这些反馈并判断是否继续研究:若需要,可生成更多子智能体或调整策略。当信息充分后,系统退出研究循环,由引用智能体(CitationAgent)处理文档与研究报告,为结论生成准确来源标注,确保所有陈述均有引用来源。最终,带引用的研究结果被输出给用户。
为研究智能体所做的提示工程与评估
多智能体系统不同于单智能体系统,其面临快速增长的协调复杂度。早期版本如生成 50 个子智能体来处理简单查询、在不存在的源中搜索、互相干扰等问题频发。每个智能体由提示引导,提示工程成为改进行为的主要手段。以下是他们得出的若干规律:
- 以智能体视角进行思考
为了优化提示,必须了解智能体行为。他们搭建交互控制台,用与生产系统相同的提示与工具进行仿真,逐步观察智能体行为。这样能发现失败模式:如超出所需结果仍继续搜索、搜索查询过于冗长、工具选择不当等。 - 教协调者如何委派任务
主智能体需将查询拆解为子任务,并明确传达给子智能体。每个子智能体需清晰的目标、输出格式、工具与资源指引及任务范围。否则容易出现重复工作或遗漏内容。早期允许主智能体生成简短模糊指示如“研究半导体短缺”,但后来发现这种方式导致子智能体行为重叠或偏离目标。 - 按查询复杂度调节努力程度
智能体难以自行判断任务所需努力,于是在提示中引入规模规则:简单找事实任务用 1 个智能体、调用 3–10 次工具;直接对比任务建议用 2–4 个子智能体,每个调用 10–15 次工具;复杂研究则分配超过 10 个子智能体并明确分工。这能防止简单任务投入过多资源,是早期常见失败模式。 - 工具设计与选择至关重要
智能体—工具接口与人机接口同等重要。选择适当工具往往决定效率甚至能否完成任务。例如需要 Slack 内部 context,但智能体却用网页搜索,则注定失败。工具过多或描述不清容易导致误用,于是他们为智能体制定启发式:先查看可用工具、匹配工具与用户目标、检索工具用于广域搜索、优先专用工具等。每个工具描述都需明确用途,以避免智能体走偏。 - 让智能体自我改进
Claude 4 模型擅长提示工程:给定提示与失败模式,能诊断错误并提出改进方案。他们甚至制作了专门的“工具测试智能体”:给出性能不佳的 MCP 工具,它会多次尝试、分析失败原因、重写工具描述以优化使用。该流程使工具更顺畅,从而未来任务完成时间减少约 40%。 - 先广泛探索,后逐步聚焦
搜索策略应模拟专家:先概览,再深入细节。智能体常默认生成长度过长、过于具体的查询,导致结果较少。他们通过提示要求智能体先用短而宽泛的查询,评估结果后再逐步聚焦。 - 引导思维过程
模型“扩展思考模式”能让 Claude 在对话中展现可控的思考路径,作为 scratchpad 使用。主智能体使用它来规划策略、评估工具适合度、估算子智能体用量;子智能体也在调用工具后进行 interleaved thinking,用于评估结果质量、识别空缺、优化下次查询。这样的思考反馈提高了智能体适应能力与充分利用上下文令其更高效。 - 并行调用工具提升速度与性能
大规模研究任务需要探索众多信息源。他们早期采用串行搜索,效率低下。为加速进程,他们采取两种并行机制:(1)主智能体一次性生成 3–5 个子智能体并行工作;(2)子智能体内部同时使用 3 个以上工具。这一方式将复杂研究时间缩短最多 90%,使系统能在分钟级完成此前需数小时才能处理的任务,覆盖更广信息。
他们的提示策略更侧重于建立启发式原则而非僵化规则,借鉴人类研究的思路:分解问题、审慎评估来源、动态调整搜索策略、识别深度与广度之间的平衡,并设置明确边界防止智能体运行失控。同时,他们强调快速迭代机制,以及在提示、工具设计、可观察性和测试实例方面保持高效率。
智能体评估方法
评估对 AI 应用开发至关重要,多智能体系统尤难以评估。传统评估假设 AI 会遵循固定路径完成任务,但多智能体系统常通过不同路径达成目标,甚至相同输入在不同运行中会触发不同操作模式。于是,需要更灵活的评估机制,以判断系统是否达到预期目标而非仅看是否按流程执行。
- 从小规模样本开始评估
在早期开发阶段,提示变化即可大幅提升成功率,例如从 30% 提升至 80%。他们选取约 20 个真实查询作为测试集,并通过提示调整观察效果,无需等待大规模评估。 - 采用 LLM 作为裁判进行评估
研究输出常为自由文本,缺乏程序化评分方式。LLM 可作为评分器,根据多个维度(事实准确性、引用准确性、完整性、来源质量与工具效率)判断输出。他们尝试多个评判模型,发现单次 LLM 调用生成 0–1 分和通过/失败结果,与人类判断最为一致。对于明确答案查询,这种模式尤其有效。 - 人工评估补充自动评估
人类测试能发现自动评估遗漏的边缘案例,如智能体倾向 SEO 内容农场而非学术 PDF 或博客,他们调整提示引入来源质量启发式以纠正此偏差。即便自动评估强大,人工测试仍不可或缺。
多智能体系统具备涌现行为(emergent behavior),可能只因主智能体提示微调,就改变子智能体行为。成功需要关注系统层面交互模式,而不只是单个智能体。因此,他们的最佳提示策略既定义协作框架,也划分任务角色和努力预算,同时保持可观察性,结合严格提示与工具设计。
生产可靠性与工程挑战
在传统软件中,bug 可能影响功能或性能;但在智能体系统中,小变化可能导致行为完全偏离,构建复杂、稳定的系统极具挑战。
- 智能体带状态、错误会累积
任务可能持续运行、跨越多次工具调用,因此需要持久化状态和错误处理机制。简单重启并不实际:太昂贵且用户体验糟糕。他们构建系统可从失败点续跑,并结合重试逻辑与定期检查点,让智能体自行适应工具故障。 - 调试方式需创新
智能体决策动态、非确定,即便在相同提示下,每次行为也可能不同。用户报告“没找到明显信息”时,他们无法从表面判断原因。于是,他们实施了全生产追踪,监控智能体决策模式与交互结构,而不监控对话内容,以兼顾隐私。这种抽象可观察性帮助他们理清错误原因并系统性修复。 - 部署需谨慎协调
智能体系统状态多样、复杂,持续运行。更新时不能一刀切替换所有智能体实例。他们采用“彩虹部署”(rainbow deployment),逐步将流量从旧版本切换至新版,同时保留两者并行运行,避免破坏现有任务。 - 同步执行存在瓶颈
当前主智能体等待子智能体全部完成才继续下一步,简化了协调但造成信息流阻塞。例如主智能体无法即时调整子智能体。若改成异步执行,可增强并行性,但会引入更多状态一致性、错误传播等复杂性。随着模型处理能力提升,他们预计复杂性收益值得投入。
总结
在构建 AI 智能体时,最后一公里往往是最难的。许多在开发环境中可行的代码,需要显著工程改造才能变成稳定可靠的生产系统。智能体系统中错误具累积性,因此传统软件中看似小问题也可能导致系统偏离目标。尽管如此,多智能体系统在开放式研究任务中展现了显著价值。用户反馈表明,Claude 可帮助他们发现意想不到的商业机会、理清复杂医疗选择、解决棘手技术问题,并节省数天工作。借助严谨工程、全面测试、细致提示及工具设计,以及研究、产品、工程团队间紧密协作,多智能体研究系统能可靠地实现规模化。目前,这些系统正逐步改变人们解决复杂问题的方式。