返回手记列表
技术研究

如果Agent是一辆车,核心零件是什么?

面向生成式AI入门者,看看一个Agent到底有什么

一、核心“零件”清单

序号零件大白话定义
1LLM只会根据上文猜下文的概率预测器。
2上下文塞给 LLM 看的背景资料和任务描述。
3Prompt经过刻意设计的、带指令格式的上下文。
4Function CallLLM 输出的、能被外部程序识别的 JSON 指令。
5MCP连接工具的标准通信协议(USB-C 接口)。
6RAG临时翻资料库往上下文塞小抄的插件。
7系统层工作流写死在代码里的执行骨架(步骤编排 + 循环控制器)。
8↳ 循环控制器工作流的子组件,判断继续循环还是结束。
9Skill模块化封装的 Prompt 能力包,交给 LLM 自己翻阅执行。
10记忆模块上下文的持久化扩展,本质是 RAG + 存储介质(SQL/向量/内存)。
11驾驭工程给 Agent 套上的外部约束和反馈系统(刹车、仪表盘、质检员)。

二、Agent完整公式

Agent = LLM + Prompt + 记忆模块 + Function Call+ 系统层工作流 + 驾驭工程

展开结构:

  • 系统层工作流 = 步骤编排 + 循环控制器
  • Skill = 模块化封装的 Prompt(可被 Agent 按需加载)
  • 记忆模块 = RAG + 存储介质(SQL/向量/内存)
  • Function Call 的工具对接 = MCP(标准化协议)或定制代码
  • 驾驭工程 = 外部约束层(护栏 + 反馈 + 版本控制)

三、主要关系澄清

关系点关系说明
循环控制器 vs 工作流循环控制器是系统层工作流的子组件,不是独立概念。
Skill vs 工作流Skill 是 Prompt 封装(软约束,LLM 自主翻阅);工作流是代码骨架(硬约束,程序强制执行)。
Prompt 内容相同时LLM 输出完全相同,但控制权归属不同——Skill 是 LLM 自己决定什么时候看,工作流是程序强制什么时候喂。
记忆模块 vs RAG记忆是 RAG 的特化应用,查的是聊天历史库而非知识库。存储介质可以是 SQL/向量/内存,技术动作相同:检索 → 塞上下文。
驾驭工程的层级不在模型里面,在模型外面——是决定“模型能力能发挥几成”的基础设施。

四、关系图

Agent内组件关系