AI Agent架构设计

主流架构

模式	规划能力	回溯能力	自我改进	计算成本	适用场景
`ReAct`	中	✗	✗	中	工具调用、问答
`CoT`	弱	✗	✗	低	数学、推理问答
ToT	强	✓	✗	高	搜索、规划
Reflexion	弱	✗	✓	中	迭代优化任务
Plan-and-Execute	强	部分	✗	中	长链多步任务
LATS	最强	✓	✓	极高	代码生成、复杂推理

任务特征	推荐模式
任务步骤固定、可预知	Plan & Execute、ReWOO
需要并行执行提高效率	LLMCompiler
需要迭代改进和优化	Basic Reflection、Reflexion
需要从经验中学习	Reflexion、Self-Discover
需要探索多种可能性	LATS、Tree of Thoughts
简单明确的任务	Function Calling
需要外部信息验证	ReAct、Reflexion

ReAct

Reasoning + Acting）核心思想：推理（Thought）与行动（Action）交替进行，每次行动后观察结果（Observation），再决定下一步。

CoT

Chain-of-Thought（思维链）

ToT

Tree-of-Thought（ToT，思维树）

将问题拆解为多个思维节点，构成树结构，通过广度优先或深度优先搜索，对每个分支评分，选择最优路径。

Reflexion（自我反思）

核心思想：Agent 执行任务失败后，不直接重试，而是先生成一段"语言反思"（Verbal Reflection），存入记忆，下一轮带着这段反思重新尝试。

与 ReAct 的短期上下文记忆不同，Reflexion 实现了可编辑的长期记忆系统。Agent 可以在多轮任务中积累和复用经验，避免重复犯同样的

工作流程

Generator（生成器）：负责生成初始内容或答案 Reflector（反思者）：对生成器输出的内容进行评估和批改，提供改进建议迭代过程：生成器根据反思者的建议重新生成内容，这个过程可以多次迭代，直到获得满意的结果

特点：

架构简单，易于实现反思者可以提供外部视角的评估适合需要多轮优化的任务

Plan-and-Execute（规划-执行分离）

核心思想：将任务拆成两个独立阶段——Planner 先生成完整计划（步骤列表），Executor 再逐步执行，执行结果可触发重规划。

Plan and Execute 是一种“先规划再执行”的两阶段工作流模式，其核心理念是将复杂任务的处理分为两个独立阶段：

第一阶段：规划（Plan）

在这个阶段，Agent 接收用户任务后，首先进行全面的任务分析和规划。它会将大型复杂任务分解为多个可管理的子任务，并确定这些子任务的执行顺序和依赖关系。规划器生成一个详细的任务执行计划，包括每个子任务的目标、所需工具和预期输出。

第二阶段：执行（Execute）

执行器根据规划阶段生成的计划，按顺序调用相应的工具完成每个子任务。在执行过程中，如果遇到问题或失败，系统会返回给规划器进行重新规划。

架构特点

规划与执行完全分离，形成清晰的双阶段工作流
规划器负责宏观把控，执行器负责微观操作
适合任务步骤相对明确、流程固定的复杂任务
可以预先发现任务执行中的潜在问题

适用场景

数据分析报告生成
多步骤的业务流程处理
需要明确步骤顺序的任务

LATS

Language Agent Tree Search

LATS 是目前较为先进的 Agent 推理架构，它融合了多种方法的优点，结合了树搜索和语言模型的能力。

将 MCTS（蒙特卡洛树搜索）引入语言 Agent，每个节点是 Agent 的某个状态，通过模拟（rollout）评估节点价值，结合 Reflexion 的自我反思在节点失败时生成改进信息。

核心思想：

LATS 将任务执行过程看作一棵树的探索过程。在每个决策点，Agent 会生成多个可能的行动选项，然后通过搜索算法评估每个选项的潜在结果，最终选择最优路径。

技术特点：

多路径探索：同时考虑多种可能的推理路径回溯机制：当某条路径遇到困难时，可以回溯到之前的决策点尝试其他路径全局优化：不仅考虑当前步骤的收益，还考虑对整体任务目标的影响 适用场景：

需要探索多种可能性的复杂决策任务存在多个可行解的任务需要在多个选项中做出最优选择的场景

Function Calling（函数调用）

Function Calling 是一种明确的工具调用机制，与 ReAct 有本质区别。

核心特点：

精确匹配：LLM 直接识别用户意图，选择最合适的工具结构化输出：模型输出结构化的函数调用信息执行效率高：对于明确的任务，可以快速完成

开源项目中的架构

AutoGPT

AutoGPT 是 GitHub 上最受欢迎的 AI Agent 项目，其星标数超过了 16.6 万，足以证明开发者社区对它的热烈关注。这个项目的核心理念是创造一个能够自主完成复杂任务的 AI 系统，是 AI Agent 领域的鼻祖级项目。

**Agent 模式特点 ** AutoGPT 采用的是典型的 ReAct 模式的增强版本，其核心机制是“思考-计划-行动”的循环。模型会评估当前状态，制定下一步计划，执行操作，并根据反馈结果进行自我修正。这种设计使得 AutoGPT 能够处理比单一对话更复杂、耗时更长的自动化工作流。

记忆管理系统

AutoGPT 的记忆管理系统非常完善，采用了短期记忆 + 长期记忆的双层架构。短期记忆利用对话上下文来实现即时学习，长期记忆则通过向量数据库存储和检索历史信息。这种设计使得 AutoGPT 能够在多轮交互中保持连贯性，并且能够记住之前任务中学到的经验。

LangChain

langchain

Agent 模式特点：

LangChain 支持多种 Agent 模式，包括 ReAct、Plan-and-Execute、Reflexion 等。LangGraph 在 LangChain 基础上增加了状态管理和多 Agent 协作能力，支持构建复杂的图结构工作流。

AutoGen

AutoGen 是微软推出的多 Agent 系统开发框架，是多 Agent 场景的行业标准。该框架已被众多知名企业采用，包括微软自己的产品也在使用。

Agent 模式特点：

AutoGen 采用的是多 Agent 协作架构，支持多个代理之间的对话来解决问题。其核心特点是：

可定制的 Agent：每个 Agent 可以有不同的角色和能力灵活的人机交互：支持人类在执行过程中介入和干预多种运行模式：支持纯 LLM、人类输入、工具调用等多种组合记忆管理系统：

AutoGen 通过消息传递机制实现 Agent 之间的记忆共享，支持：

共享工作记忆：Agent 之间可以共享上下文信息持久化存储：支持将对话历史持久化到数据库

Mem0

Mem0 是专门为 AI Agent 设计的长期记忆管理系统，解决了 AI “健忘” 的核心问题。它提供了真正的长期记忆能力，而不仅仅是向量数据库中的嵌入存储。

核心特点：

真正的长期记忆：不是简单的向量存储，而是具有语义理解能力的记忆引擎自我反思能力：能够从历史交互中提取有价值的经验个性化学习：根据用户偏好和历史行为进行个性化调整本地优先部署：支持 SQLite 本地存储，数据隐私有保障

CrewAI

CrewAI 是一个专注于多 Agent 团队协作的框架，采用角色驱动的设计理念，特别适合需要不同专业角色协同完成的任务。

Agent 模式特点：

角色定义：可以为每个 Agent 定义特定的角色和能力任务分配：支持将复杂任务分配给不同的 Agent 协作机制：Agent 之间可以共享内存和消息传递记忆管理特点：

团队共享记忆：多个 Agent 可以访问共同的知识库上下文传递：任务在 Agent 之间传递时保持上下文连贯记忆持久化：支持将协作结果保存到知识库

总结

很多Multi-agent的案例都会强调Planning的重要性，但在实际业务场景中，并不是所有问题都需要复杂的规划能力：

固定流程的场景：如果业务流程本身就是确定的（比如订单处理、审批流程），使用固定的Agent编排反而更加高效可控；
ReAct的适用性：对于需要一定自主性但又不需要复杂规划的场景，可以从子节点入手，使用ReAct模式提升Agent的决策能力；
混合架构的价值：在实践中，有些业务场景用固定流程 + 局部ReAct的混合架构往往是最优解；

参考文档

用Spring AI Alibaba把MultiAgent实现从5天压到5小时

Spring AI Alibaba官网

Multi-Agent全面爆发！一文详解多智能体核心架构及LangGraph框架

让AI智能体拥有像人类的持久记忆：基于LangGraph的长短期记忆管理实践指南

破除AI Agent自主操控风险：万字解读LangGraph“人工干预”机制，附零基础实战

ReAct范式深度解析：从理论到LangGraph实践

Clawdbot 是如何实现永久记忆的