AI智能体在应对各种任务时,常需要不同的速度、推理和规划能力。理想情况下,智能体应能区分何时使用直觉记忆,何时利用更复杂的推理能力。然而,设计能根据任务需求正确执行的智能系统仍是一项挑战。
在一项最新论文中,Google DeepMind的研究人员提出了Talker-Reasoner框架,这是一个受人类“双系统”思维模型启发的智能体架构。该框架旨在为AI智能体找到不同推理方式之间的最佳平衡,以实现更顺畅的用户体验。
人类与AI的系统1和系统2思维
诺贝尔奖得主丹尼尔·卡尼曼的“双系统”理论表明,人类的思维由两个不同的系统驱动。系统1是快速、直觉且自动的,负责我们的快速判断,例如应对突发事件或识别熟悉的模式。系统2则缓慢、深思熟虑且分析性强,负责复杂问题的解决、规划和推理。
这两个系统并非完全独立,而是相互影响。系统1生成直觉和初步判断,系统2对这些判断进行评估,并在认可后将其整合为明确的信念和选择。这种互动使人类能够灵活地应对从日常生活到复杂问题的多种情境。
目前,大多数AI智能体主要依赖系统1模式,擅长模式识别、快速反应和重复性任务。然而,在需要多步骤规划、复杂推理和战略性决策的场景中,AI往往难以胜任,这正是系统2思维的强项。
Talker-Reasoner框架
DeepMind提出的Talker-Reasoner框架赋予AI智能体系统1和系统2的能力。它将智能体分为“Talker”(对话者)和“Reasoner”(推理者)两个模块。
- Talker:相当于系统1,负责实时的用户互动和环境感知。它负责观测、语言理解、信息检索以及生成对话回应,通常利用大语言模型的上下文学习功能(ICL)来执行这些任务。
- Reasoner:代表系统2的慢速推理组件,负责复杂推理和规划。它专门处理特定任务,利用外部数据源来丰富知识并作出明智决策,同时通过更新智能体的信念来指导未来决策。这些信念将作为Talker在对话中的记忆来源。
研究人员写道:“Talker专注于生成自然且连贯的对话,而Reasoner专注于多步骤规划和基于环境信息进行推理。”
这两个模块通过共享记忆系统进行交互。Reasoner更新其信念和推理结果,Talker则从中检索信息以指导互动。这种异步通信方式允许Talker维持对话的连续性,即使Reasoner在后台进行较长时间的计算。
研究人员解释道:“这类似于行为科学中的双系统方法,系统1始终在线,而系统2只在需要时启动。Talker始终保持环境互动,Reasoner则仅在Talker需要时或通过记忆读取信念更新。”
Talker-Reasoner框架应用于AI辅导
研究人员在睡眠辅导应用中测试了Talker-Reasoner框架。该AI教练通过自然语言与用户互动,提供个性化的睡眠改善指导。这种应用需要快速、情感共鸣的对话和基于知识的深思熟虑的推理。
在此应用中,Talker组件负责对话,提供情感支持并引导用户完成辅导过程的不同阶段。Reasoner则维护用户的睡眠问题、目标、习惯和环境的信念状态,并基于这些信息生成个性化建议和多步骤计划。这一框架同样适用于客户服务和个性化教育等其他应用场景。
未来研究方向
DeepMind研究人员指出,未来研究的一项重点是优化Talker与Reasoner的交互。理想情况下,Talker应能自动判断何时需要Reasoner的介入,以减少不必要的计算,提高整体效率。
另一方向是扩展框架,使其整合多个Reasoner,每个Reasoner专注于不同类型的推理或知识领域。这样可以使智能体更好地应对复杂任务,提供更全面的支持。