Vanson's Eternal Blog

AI Agent架构设计

Ai arch.png
Published on
/13 mins read/---

AI Agent架构设计

主流架构

模式规划能力回溯能力自我改进计算成本适用场景
ReAct工具调用、问答
CoT数学、推理问答
ToT搜索、规划
Reflexion迭代优化任务
Plan-and-Execute部分长链多步任务
LATS最强极高代码生成、复杂推理
任务特征推荐模式
任务步骤固定、可预知Plan & Execute、ReWOO
需要并行执行提高效率LLMCompiler
需要迭代改进和优化Basic Reflection、Reflexion
需要从经验中学习Reflexion、Self-Discover
需要探索多种可能性LATS、Tree of Thoughts
简单明确的任务Function Calling
需要外部信息验证ReAct、Reflexion

ReAct

Reasoning + Acting) 核心思想:推理(Thought)与行动(Action)交替进行,每次行动后观察结果(Observation),再决定下一步。

CoT

Chain-of-Thought(思维链)

ToT

Tree-of-Thought(ToT,思维树)

将问题拆解为多个思维节点,构成树结构,通过广度优先或深度优先搜索,对每个分支评分,选择最优路径。

Reflexion(自我反思)

核心思想:Agent 执行任务失败后,不直接重试,而是先生成一段"语言反思"(Verbal Reflection),存入记忆,下一轮带着这段反思重新尝试。

与 ReAct 的短期上下文记忆不同,Reflexion 实现了可编辑的长期记忆系统。Agent 可以在多轮任务中积累和复用经验,避免重复犯同样的

工作流程

Generator(生成器):负责生成初始内容或答案 Reflector(反思者):对生成器输出的内容进行评估和批改,提供改进建议 迭代过程:生成器根据反思者的建议重新生成内容,这个过程可以多次迭代,直到获得满意的结果

特点:

架构简单,易于实现 反思者可以提供外部视角的评估 适合需要多轮优化的任务

Plan-and-Execute(规划-执行分离)

核心思想:将任务拆成两个独立阶段——Planner 先生成完整计划(步骤列表),Executor 再逐步执行,执行结果可触发重规划。

Plan and Execute 是一种“先规划再执行”的两阶段工作流模式,其核心理念是将复杂任务的处理分为两个独立阶段:

第一阶段:规划(Plan)

在这个阶段,Agent 接收用户任务后,首先进行全面的任务分析和规划。它会将大型复杂任务分解为多个可管理的子任务,并确定这些子任务的执行顺序和依赖关系。规划器生成一个详细的任务执行计划,包括每个子任务的目标、所需工具和预期输出。

第二阶段:执行(Execute)

执行器根据规划阶段生成的计划,按顺序调用相应的工具完成每个子任务。在执行过程中,如果遇到问题或失败,系统会返回给规划器进行重新规划。

架构特点

  • 规划与执行完全分离,形成清晰的双阶段工作流
  • 规划器负责宏观把控,执行器负责微观操作
  • 适合任务步骤相对明确、流程固定的复杂任务
  • 可以预先发现任务执行中的潜在问题

适用场景

  • 数据分析报告生成
  • 多步骤的业务流程处理
  • 需要明确步骤顺序的任务

LATS

Language Agent Tree Search

LATS 是目前较为先进的 Agent 推理架构,它融合了多种方法的优点,结合了树搜索和语言模型的能力。

将 MCTS(蒙特卡洛树搜索)引入语言 Agent,每个节点是 Agent 的某个状态,通过模拟(rollout)评估节点价值,结合 Reflexion 的自我反思在节点失败时生成改进信息。

核心思想:

LATS 将任务执行过程看作一棵树的探索过程。在每个决策点,Agent 会生成多个可能的行动选项,然后通过搜索算法评估每个选项的潜在结果,最终选择最优路径。

技术特点:

多路径探索:同时考虑多种可能的推理路径 回溯机制:当某条路径遇到困难时,可以回溯到之前的决策点尝试其他路径 全局优化:不仅考虑当前步骤的收益,还考虑对整体任务目标的影响 适用场景:

需要探索多种可能性的复杂决策任务 存在多个可行解的任务 需要在多个选项中做出最优选择的场景

Function Calling(函数调用)

Function Calling 是一种明确的工具调用机制,与 ReAct 有本质区别。

核心特点:

精确匹配:LLM 直接识别用户意图,选择最合适的工具 结构化输出:模型输出结构化的函数调用信息 执行效率高:对于明确的任务,可以快速完成

开源项目中的架构

AutoGPT

AutoGPT

AutoGPT 是 GitHub 上最受欢迎的 AI Agent 项目,其星标数超过了 16.6 万,足以证明开发者社区对它的热烈关注。这个项目的核心理念是创造一个能够自主完成复杂任务的 AI 系统,是 AI Agent 领域的鼻祖级项目。

**Agent 模式特点 ** AutoGPT 采用的是典型的 ReAct 模式的增强版本,其核心机制是“思考-计划-行动”的循环。模型会评估当前状态,制定下一步计划,执行操作,并根据反馈结果进行自我修正。这种设计使得 AutoGPT 能够处理比单一对话更复杂、耗时更长的自动化工作流。

记忆管理系统

AutoGPT 的记忆管理系统非常完善,采用了短期记忆 + 长期记忆的双层架构。短期记忆利用对话上下文来实现即时学习,长期记忆则通过向量数据库存储和检索历史信息。这种设计使得 AutoGPT 能够在多轮交互中保持连贯性,并且能够记住之前任务中学到的经验。

LangChain

langchain

Agent 模式特点:

LangChain 支持多种 Agent 模式,包括 ReAct、Plan-and-Execute、Reflexion 等。LangGraph 在 LangChain 基础上增加了状态管理和多 Agent 协作能力,支持构建复杂的图结构工作流。

AutoGen

AutoGen

AutoGen 是微软推出的多 Agent 系统开发框架,是多 Agent 场景的行业标准。该框架已被众多知名企业采用,包括微软自己的产品也在使用。

Agent 模式特点:

AutoGen 采用的是多 Agent 协作架构,支持多个代理之间的对话来解决问题。其核心特点是:

可定制的 Agent:每个 Agent 可以有不同的角色和能力 灵活的人机交互:支持人类在执行过程中介入和干预 多种运行模式:支持纯 LLM、人类输入、工具调用等多种组合 记忆管理系统:

AutoGen 通过消息传递机制实现 Agent 之间的记忆共享,支持:

共享工作记忆:Agent 之间可以共享上下文信息 持久化存储:支持将对话历史持久化到数据库

Mem0

Mem0

Mem0 是专门为 AI Agent 设计的长期记忆管理系统,解决了 AI “健忘” 的核心问题。它提供了真正的长期记忆能力,而不仅仅是向量数据库中的嵌入存储。

核心特点:

真正的长期记忆:不是简单的向量存储,而是具有语义理解能力的记忆引擎 自我反思能力:能够从历史交互中提取有价值的经验 个性化学习:根据用户偏好和历史行为进行个性化调整 本地优先部署:支持 SQLite 本地存储,数据隐私有保障

CrewAI

CrewAI

CrewAI 是一个专注于多 Agent 团队协作的框架,采用角色驱动的设计理念,特别适合需要不同专业角色协同完成的任务。

Agent 模式特点:

角色定义:可以为每个 Agent 定义特定的角色和能力 任务分配:支持将复杂任务分配给不同的 Agent 协作机制:Agent 之间可以共享内存和消息传递 记忆管理特点:

团队共享记忆:多个 Agent 可以访问共同的知识库 上下文传递:任务在 Agent 之间传递时保持上下文连贯 记忆持久化:支持将协作结果保存到知识库

总结

很多Multi-agent的案例都会强调Planning的重要性,但在实际业务场景中,并不是所有问题都需要复杂的规划能力:

  • 固定流程的场景:如果业务流程本身就是确定的(比如订单处理、审批流程),使用固定的Agent编排反而更加高效可控;
  • ReAct的适用性:对于需要一定自主性但又不需要复杂规划的场景,可以从子节点入手,使用ReAct模式提升Agent的决策能力;
  • 混合架构的价值:在实践中,有些业务场景用 固定流程 + 局部ReAct的混合架构往往是最优解;

参考文档

用Spring AI Alibaba把MultiAgent实现从5天压到5小时

Spring AI Alibaba官网

Multi-Agent全面爆发!一文详解多智能体核心架构及LangGraph框架

让AI智能体拥有像人类的持久记忆:基于LangGraph的长短期记忆管理实践指南

破除AI Agent自主操控风险:万字解读LangGraph“人工干预”机制 ,附零基础实战

ReAct范式深度解析:从理论到LangGraph实践

Clawdbot 是如何实现永久记忆的

← Previous post统计学的基础概念