大语言模型Agent学习笔记

最近一段事件,基于 LLM 的 Agent 非常火爆,比如 OpenClaw 龙虾。那么什么是 AI Agent,基于 LLM 的 Agent 带来了哪些突破呢?值得探究一下。

什么是 AI Agent

在生成式人工智能的背景下,AI 代理(也称为复合 AI 系统或自主 AI)是一类能够在复杂环境中自主运行的智能代理。自主 AI 工具优先考虑决策而非内容创建,并且不需要持续监督。

AI 代理具有几个关键属性,包括复杂的目标结构、自然语言接口、能够在无需用户监督的情况下独立行动的能力,以及集成软件工具或规划系统。它们的控制流程通常由大型语言模型(LLMs)驱动。代理还包括用于记忆先前用户-代理交互的记忆系统和用于组织代理组件的编排软件。

AI 代理的一个常见应用是任务的自动化,例如根据用户的提示请求预订旅行计划。

AI Agent 构成

AI Agent = LLM(推理) + Tools(工具) + Planning(规划) + Memory(记忆)

其执行流程如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
用户输入

[感知 Perception] ← 记忆

[规划 Planning] → 分解任务

[决策 Decision] → 选择行动

[执行 Action] → 调用工具

[观察 Observation] → 获取结果

(循环直到完成)

返回最终答案

AI Agent 分类

类型 特点 适用场景 代表框架
ReAct 推理+行动交替 单步任务、工具调用 LangChain
Plan-and-Execute 先规划再执行 复杂多步任务 BabyAGI
Autonomous 自主循环运行 长期目标任务 AutoGPT
Multi-Agent 多智能体协作 复杂系统、角色分工 MetaGPT

AI Agent 关键技术

  • 大语言模型 (LLM)
  • 工具调用(Function Calling)
  • 工具库设计
  • 记忆机制
    • 短期记忆(对话历史)
    • 长期记忆(向量数据库)
    • 结构化记忆(实体记忆)

AI Agent 生态位

1
2
3
4
5
6
7
8
9
┌─────────────────────────────────────┐
│ 外部工具 / 数据源 │ 文件系统、数据库、GitHub、Slack…
├─────────────────────────────────────┤
│ MCP 服务器 / Skills(能力封装层) │ 标准化协议连接 & 模块化能力包
├─────────────────────────────────────┤
│ Agent(执行循环层) │ 感知 → 推理 → 工具调用 → 观察
├─────────────────────────────────────┤
│ LLM(推理核心层) │ Claude、GPT-4o、DeepSeek、Gemini…
└─────────────────────────────────────┘

参考链接

  1. LLM Agent开发指南,by meiluosi.
  2. 万字长文解读LLM Agent:总体框架、经典论文与实践, 魔法学院的Chilia.
  3. AI agent,by wikipedia.
  4. 为什么调用 OpenAI Tools 后,还要再请求一次大模型?——从代码看 LLM 工具调用的本质,by 烟袅破辰.
  5. 使用 OpenAI SDK 调用 Tools 实现外部工具集成,by 烟袅破辰.
  6. 大模型工具调用完整指南:从原理到实践,by 鱼XueTr​.
  7. MCP、Skills、Agent、LLM:四层架构全解,一文理清核心概念,by 七牛云行业应用.