AI Agent 系统的各种设计模式

提示词链

短期记忆（上下文记忆）：
长期记忆（持久记忆）：数据库、知识图谱或向量数据库中
- 长期记忆类型：
  - 语义记忆：记住事实涉及保留特定事实和概念，如用户偏好或领域知识。
  - 情景记忆：记住经历涉及回忆过去事件或行动。
  - 程序记忆：记住规则关于如何执行任务的记忆——Agent 的核心指令和行为，通常包含在其系统提示中。
每次与 Agent 交互可视为独特对话线程，Agent 可能需要访问早期数据。
- Session（会话）：独立聊天线程，记录该特定交互的消息和操作（Events），同时存储与该对话相关的临时数据（State）
- State（状态）（session.state）：存储在 Session 中的数据，包含仅与当前活动聊天线程相关的信息
- Memory（记忆）：来自各种过往聊天或外部来源信息的可搜索存储库，作为超出即时对话范围的数据检索资源

关键学习机制：
- 强化学习：通过奖励（积极结果）和惩罚（消极结果）在交互中学习最优行为，例如训练游戏角色或机器人。
- 监督学习与无监督学习：分别从带标签示例中学习输入-输出映射，或在未标注数据中发现隐藏模式。
- 基于记忆的学习：回忆过去经验以调整当前行动，增强决策能力。
- 在线学习：持续用新数据更新知识，适应动态环境
重要算法：
- 近端策略优化（PPO）：通过小幅、谨慎的策略更新（使用“裁剪”机制避免剧烈变化），稳定地改进智能体在连续动作环境中的决策。
- 直接偏好优化（DPO）：简化大语言模型与人类偏好的对齐过程，直接利用偏好数据更新模型，无需训练复杂的奖励模型。
经验法则：
- 在动态、不确定或需个性化的环境中构建智能体时，集成学习和适应机制至关重要。

modelcontextprotocol
工具函数调用和MCP的区别：
- 工具函数调用：静态绑定（写死）、工具数量少、场景简单、点对点调用、模型的一种能力、如何调用（具体操作）
- MCP：动态发现（动态注册、自动发现）、工具繁多、跨团队、C/S架构、一种标准化接入协议、如何接入（平台）
MCP C/S架构交互流程：
- 发现：询问MCP服务器可以提供那些工具。
- 请求制定：需要使用发现的工具之一和必要参数。
- 客户端通信：MCP 客户端获取 LLM 制定的请求，将其作为标准化调用发送到适当 MCP 服务器。
- 服务器执行：MCP 服务器接收请求，验证和执行操作。
- 响应和上下文更新：执行后，MCP 服务器将标准化响应发送回 MCP 客户端。
关键用例：数据库集成、生成媒体编排、外部 API 交互、基于推理的信息提取、物联网设备控制、金融服务自动化