🎓 OpenAI 学院 · 中文学习版 · 完全免费

Agents 与工作流

Agents and Workflows

高级4 个模块9 节课全中文讲解

这门课带你从「对话」走向「自动化」:理解 AI Agent 是什么、它和普通对话有何不同、什么时候该用,以及如何把多步骤的工作交给它自动完成。

在互动学院中学习(含测验与进度保存)→

模块一 · 认识 Agents Meet AI Agents

什么是 AI Agent

AI Agent(智能体)是能「自己分步把任务做完」的 AI。你给它一个目标,它会自己规划步骤、调用需要的工具、一步步执行,而不只是给你一段文字建议。

从「回答」到「行动」

普通对话里,AI 给你建议,执行还得你来;Agent 则能真正去做:查资料、填表单、调用其他软件、把结果整理好。它把「想」和「做」连了起来。

  • 设定目标:你说清要达成什么
  • 自主规划:它拆解成若干步骤
  • 调用工具:搜索、读写文件、连接应用
  • 交付结果:完成后把成果交给你
🧠 自测:AI Agent 和普通对话最大的区别是?
  1. 回答更长
  2. 能自主分步执行任务、调用工具,而不只是给建议 ✓
  3. 只能聊天
  4. 不需要你设定目标

Agent 能自己规划步骤、调用工具并执行,把「给建议」升级为「把事做完」。

Agent 是怎么运转的

Agent 的工作方式可以理解成一个循环:理解目标 → 想下一步 → 用一个工具 → 看结果 → 再决定下一步,直到完成。这个「边做边判断」的循环是它能完成复杂任务的关键。

三个关键部件

  • 目标:你交给它的最终结果
  • 工具:它能动用的能力(搜索、读写、连接的应用)
  • 判断:每一步根据结果决定接下来做什么
🧠 自测:下面哪一项「不是」Agent 运转的核心部件?
  1. 明确的目标
  2. 可调用的工具
  3. 根据结果做判断的能力
  4. 更漂亮的界面 ✓

Agent 的核心是目标、工具和基于结果的判断循环;界面美观与否不影响它能否完成任务。

什么时候该用 Agent

不是所有事都需要 Agent。简单的一问一答,普通对话更快更省;多步骤、要调用工具、要自动跑完的流程,才轮到 Agent 出场。

适合 Agent 的信号

  • 任务有明确的多个步骤
  • 需要去「拿」外部信息或操作其他工具
  • 你希望它自动跑完,而不是盯着每一步
  • 流程会重复发生,值得自动化
🧠 自测:下列哪种情况最适合用 Agent 而不是普通对话?
  1. 问一句话就能答的小问题
  2. 一个需要多步、还要调用其他工具自动跑完的流程 ✓
  3. 让它改一句文案
  4. 问一个定义

多步骤、需调用工具、希望自动跑完且会重复的流程,才是 Agent 的用武之地。

模块二 · 构建工作流 Building workflows

自动化一个流程

将一个现有的人工流程交给 AI Agent 来执行,需要先仔细拆解这个流程。本课教你如何识别适合自动化的流程,以及如何为 Agent 绘制清晰的执行地图。

选择合适的自动化候选流程

最适合自动化的流程具备以下特征:步骤固定、规则清晰、重复执行、不需要人类情感判断。如果一个流程每次执行方式都不同,或需要大量人际沟通和情境判断,自动化的效果会大打折扣。

  • 好的候选:每天自动摘要收件箱中的新文件
  • 好的候选:将新提交的表单数据分类并路由到对应负责人
  • 不适合:需要和客户深度沟通理解需求的销售谈判
  • 不适合:需要创意和主观判断的品牌策略制定

以文件摘要流程为例

以"自动摘要新收到的文件"为例,分解步骤:检查是否有新文件 → 读取文件内容 → 判断文件类型(合同/报告/邮件)→ 按模板生成摘要 → 将摘要存入指定位置。其中,"判断文件类型"是 AI 判断点,其余是确定性逻辑。

标出决策点

绘制流程图时,明确区分两类步骤:确定性步骤(总是做同一件事)和 AI 判断步骤(需要理解内容后做决定)。Agent 在判断步骤上最有价值,确定性步骤可以用普通代码完成。

🧠 自测:以下哪个流程最适合用 AI Agent 来自动化?
  1. 与重要客户进行年度战略规划会议
  2. 每天从固定来源汇总行业新闻并生成简报 ✓
  3. 为公司设计新品牌标志的创意方向
  4. 处理需要法律解释的合同纠纷

每天汇总固定来源新闻是步骤固定、规则清晰、重复性高的任务,非常适合 Agent 自动化。其他选项都需要大量人类判断和创意。

连接工具与数据

AI Agent 的力量来自于它能调用工具采取行动,而不只是生成文字。本课介绍 function calling 和 Assistants API 的内置工具,理解 Agent 如何与现实世界交互。

Function calling 是什么

Function calling(函数调用)允许你给模型定义一组可以调用的函数。模型在对话中判断"这里需要调用某个函数",然后返回调用指令(函数名和参数),由你的代码实际执行函数并将结果返回给模型。模型再基于结果继续生成回复。

  • 模型决定"要调用什么函数"
  • 你的代码负责实际执行函数
  • 函数结果返回给模型后,模型继续对话
  • 典型用途:查询数据库、调用外部 API、操作文件

一个函数定义的例子

示例 Prompt
// 告诉模型你有一个"查询天气"的函数
{
  "name": "get_weather",
  "description": "查询指定城市的当前天气",
  "parameters": {
    "city": {
      "type": "string",
      "description": "城市名称,如'北京'或'上海'"
    }
  }
}

// 用户说"北京今天冷吗?"后,模型会返回:
// { "function": "get_weather", "arguments": { "city": "北京" } }

Assistants API 的内置工具

  • 代码解释器(Code Interpreter):运行 Python 代码,处理数据、生成图表
  • 文件搜索(File Search):从上传文件中检索信息(即 RAG)
  • 网页浏览:访问互联网获取最新信息
🧠 自测:在 function calling 机制中,谁负责实际执行函数?
  1. OpenAI 的服务器
  2. 你的应用代码 ✓
  3. 模型本身直接执行
  4. 用户手动触发

模型只决定"需要调用哪个函数并传入什么参数",实际的函数执行由开发者的应用代码完成。结果再返回给模型继续处理。

编排多个步骤

真实的 Agent 工作流通常包含多个步骤。如何组织这些步骤的执行顺序,是构建可靠工作流的核心设计问题。

三种基本编排模式

  • 串行(Sequential):步骤 1 → 步骤 2 → 步骤 3,前一步的输出是后一步的输入
  • 并行(Parallel):多个独立步骤同时执行,最后汇总结果
  • 条件分支(Conditional):如果 X 发生则执行 Y,否则执行 Z

串行模式:流水线处理

串行模式适合有明确先后顺序的任务:提取数据 → 清洗数据 → 分析数据 → 生成报告。每一步都依赖前一步的结果。设计时要考虑:如果中间某一步失败,是重试、跳过还是终止整个流程?

并行模式与条件分支

并行模式适合独立子任务:同时分析 5 个不同部门的报告,最后汇总。条件分支让 Agent 能根据情况选择不同路径:如果文件是合同,执行合同审查流程;如果是发票,执行财务核对流程。

  • 串行:有依赖关系的步骤,保证顺序正确
  • 并行:独立子任务,提升效率
  • 条件分支:处理多种输入类型,增加灵活性
🧠 自测:以下哪种场景最适合使用并行编排模式?
  1. 需要依次处理的数据清洗、分析、报告三个步骤
  2. 同时处理来自 5 个城市的独立销售报告 ✓
  3. 根据用户类型选择不同的回复策略
  4. 按固定顺序执行的系统初始化流程

5 个城市的销售报告相互独立,没有依赖关系,非常适合并行处理以节省时间。其他选项更适合串行或条件分支模式。

模块三 · 可靠与安全 Reliability & safety

让 Agent 可控

Agent 越自主,出错的代价可能越大。设计可控的 Agent,意味着在关键节点保留人类干预的能力,而不是让 AI 完全自主运行。

人在回路(Human-in-the-Loop)模式

人在回路(Human-in-the-Loop)是一种设计模式:在 Agent 执行过程中,设定特定的检查点,要求人类确认后才能继续。不是所有步骤都需要人工确认,只在关键节点介入即可。

  • 不可逆操作前确认:删除文件、发送邮件、提交订单
  • 批量操作后审查:处理完 100 条记录后,抽查 5 条验证质量
  • 低置信度时升级:Agent 遇到不确定的情况,主动请求人工判断

设定清晰的行为边界

在 Agent 的系统指令中,明确写出它可以自主执行的操作范围,以及哪些操作必须等待人工批准。边界越清晰,Agent 的行为越可预测,出错时也更容易定位原因。

最小权限原则

只给 Agent 完成当前任务必需的工具访问权限。如果任务只需要读取数据,不要给它写入权限。权限越少,意外破坏的可能性越低。

🧠 自测:以下哪种情况最应该设置人工确认步骤?
  1. Agent 从网页上阅读一篇新闻
  2. Agent 准备向 500 位客户发送营销邮件 ✓
  3. Agent 在本地临时文件夹中创建一个草稿
  4. Agent 搜索数据库中的历史记录

向 500 位客户发送邮件是不可逆的批量操作,一旦执行无法撤回。这类操作必须在执行前经过人工审查和确认。

评估与监控

部署 Agent 只是开始。持续监控它的行为、评估输出质量,并建立反馈闭环,才能让 Agent 在长期运行中保持可靠。

记录每一次工具调用

每次 Agent 调用工具时,都应该记录:调用了什么工具、传入了什么参数、得到了什么结果、花费了多长时间。这些日志是调试问题和优化性能的基础。没有日志,出问题时你只能猜测。

定义成功标准

在部署前,明确定义什么算成功:准确率达到 X%、处理时间不超过 Y 秒、用户满意度评分高于 Z。有了量化标准,你才能判断 Agent 是否达到预期,以及何时需要干预和优化。

  • 准确率:正确完成任务的比例
  • 覆盖率:能够处理(而不是放弃)的请求比例
  • 延迟:完成任务所需的平均时间
  • 升级率:需要人工介入的请求比例

识别偏轨的 Agent

当 Agent 开始重复调用同一个工具、产生异常长的输出、或者对相似输入给出截然不同的结果时,这些都是偏轨的信号。设置自动告警阈值,当关键指标异常时及时通知人工审查。

🧠 自测:以下哪项不是评估 Agent 性能的有效指标?
  1. 正确完成任务的准确率
  2. Agent 使用的模型版本号 ✓
  3. 需要人工介入的请求比例
  4. 完成任务的平均响应时间

模型版本号本身不能衡量 Agent 的性能,它只是一个配置参数。准确率、升级率和响应时间才是直接反映 Agent 工作质量的指标。

模块四 · 测验 Quiz

课程测验

恭喜你完成了 Agents 与工作流课程!以下 6 道测验题覆盖了课程的核心知识点,检验你的掌握程度。

🧠 自测:Function calling 让 AI Agent 能够做什么?
  1. 自动学习新的编程语言
  2. 调用你定义的函数来与外部系统交互 ✓
  3. 替代所有人工编写的代码
  4. 直接访问用户的本地文件系统

Function calling 让模型能够在对话中判断"需要调用哪个函数",由开发者的代码实际执行,从而让 Agent 能够与外部系统、数据库、API 等交互。

🧠 自测:OpenAI Assistants API 中的持久线程(Persistent Threads)有什么作用?
  1. 让多个用户同时使用同一个 Assistant
  2. 保存对话历史,让 Agent 在多次会话间维持上下文 ✓
  3. 加快 API 的响应速度
  4. 自动备份 Agent 的配置文件

持久线程存储了对话历史,让 Agent 在下一次会话时仍然能记住之前的上下文,适合需要跨会话维护状态的应用场景。

🧠 自测:以下哪种情况最需要应用人在回路(Human-in-the-Loop)模式?
  1. Agent 在搜索引擎中查询公开信息
  2. Agent 准备永久删除数据库中 1000 条客户记录 ✓
  3. Agent 生成一份内部分析报告草稿
  4. Agent 将一篇文章翻译成中文

永久删除 1000 条数据库记录是不可逆的批量操作,必须在执行前经过人工确认。搜索、生成草稿、翻译都是低风险操作,不需要人工介入。

🧠 自测:监控 Agent 工作状态时,以下哪种做法最有效?
  1. 每天手动检查 Agent 的所有输出
  2. 记录每次工具调用的日志并设置关键指标告警 ✓
  3. 只在 Agent 报错时才检查日志
  4. 完全信任 Agent,不需要额外监控

记录完整的工具调用日志并设置量化指标的自动告警,是兼顾效率和可靠性的监控方案。依赖手动检查或只看报错都无法及时发现偏轨行为。

🧠 自测:以下哪类任务是好的 Agent 自动化候选?
  1. 需要与客户进行情感沟通的投诉处理
  2. 每天固定时间从 3 个来源汇总数据并生成报告 ✓
  3. 需要创意灵感和个人风格的广告文案创作
  4. 需要法律判断的合同纠纷解决

定时数据汇总是步骤固定、规则清晰、重复性高的任务,是 Agent 自动化的理想候选。其他选项都需要大量人类创意判断或情感能力。

🧠 自测:在多步骤 Agent 工作流中,以下关于并行模式的描述哪项正确?
  1. 并行模式适合有严格先后顺序依赖的任务
  2. 并行模式让多个独立子任务同时执行,提升整体效率 ✓
  3. 并行模式下所有子任务共享同一个上下文窗口
  4. 并行模式只适用于两个子任务的情况

并行模式的核心是让互相独立、没有依赖关系的子任务同时执行,从而缩短总完成时间。子任务有依赖时应使用串行模式。

想要测验互动、进度自动保存的完整体验?

进入 AI 学院互动版 →

继续学习其他课程

Claude 101用 Claude 处理日常工作:写作、总结、头脑风暴、整理资料。零基础友好。 Claude Code 101在终端里用 AI 编程代理:读写代码、运行命令、定制工作流。 Model Context Protocol 入门用 Python 从零构建 MCP 服务器与客户端,连接 Claude 与外部服务。 MCP 进阶专题生产级 MCP:采样(sampling)、通知、Roots 与传输机制。 Agent Skills 入门把任务的标准做法打包成可复用的 Skill,让 Claude 稳定专业地完成。 Subagents 入门用子代理拆分与委派任务,保持主上下文干净。 AI 基础搞懂生成式 AI 到底是什么、怎么工作,建立可靠的心智模型。 应用 AI 基础把 AI 真正用进日常工作:找到高价值场景,养成可靠习惯。