🎓 OpenAI 学院 · 中文学习版 · 完全免费

Agents 与工作流

Agents and Workflows

高级4 个模块9 节课全中文讲解

这门课带你从「对话」走向「自动化」：理解 AI Agent 是什么、它和普通对话有何不同、什么时候该用，以及如何把多步骤的工作交给它自动完成。

在互动学院中学习（含测验与进度保存）→

模块一 · 认识 Agents Meet AI Agents

什么是 AI Agent

AI Agent（智能体）是能「自己分步把任务做完」的 AI。你给它一个目标，它会自己规划步骤、调用需要的工具、一步步执行，而不只是给你一段文字建议。

从「回答」到「行动」

普通对话里，AI 给你建议，执行还得你来；Agent 则能真正去做：查资料、填表单、调用其他软件、把结果整理好。它把「想」和「做」连了起来。

设定目标：你说清要达成什么
自主规划：它拆解成若干步骤
调用工具：搜索、读写文件、连接应用
交付结果：完成后把成果交给你

🧠 自测：AI Agent 和普通对话最大的区别是？

回答更长
能自主分步执行任务、调用工具，而不只是给建议　✓
只能聊天
不需要你设定目标

Agent 能自己规划步骤、调用工具并执行，把「给建议」升级为「把事做完」。

Agent 是怎么运转的

Agent 的工作方式可以理解成一个循环：理解目标 → 想下一步 → 用一个工具 → 看结果 → 再决定下一步，直到完成。这个「边做边判断」的循环是它能完成复杂任务的关键。

三个关键部件

目标：你交给它的最终结果
工具：它能动用的能力（搜索、读写、连接的应用）
判断：每一步根据结果决定接下来做什么

🧠 自测：下面哪一项「不是」Agent 运转的核心部件？

明确的目标
可调用的工具
根据结果做判断的能力
更漂亮的界面　✓

Agent 的核心是目标、工具和基于结果的判断循环；界面美观与否不影响它能否完成任务。

什么时候该用 Agent

不是所有事都需要 Agent。简单的一问一答，普通对话更快更省；多步骤、要调用工具、要自动跑完的流程，才轮到 Agent 出场。

适合 Agent 的信号

任务有明确的多个步骤
需要去「拿」外部信息或操作其他工具
你希望它自动跑完，而不是盯着每一步
流程会重复发生，值得自动化

🧠 自测：下列哪种情况最适合用 Agent 而不是普通对话？

问一句话就能答的小问题
一个需要多步、还要调用其他工具自动跑完的流程　✓
让它改一句文案
问一个定义

多步骤、需调用工具、希望自动跑完且会重复的流程，才是 Agent 的用武之地。

模块二 · 构建工作流 Building workflows

自动化一个流程

将一个现有的人工流程交给 AI Agent 来执行，需要先仔细拆解这个流程。本课教你如何识别适合自动化的流程，以及如何为 Agent 绘制清晰的执行地图。

选择合适的自动化候选流程

最适合自动化的流程具备以下特征：步骤固定、规则清晰、重复执行、不需要人类情感判断。如果一个流程每次执行方式都不同，或需要大量人际沟通和情境判断，自动化的效果会大打折扣。

好的候选：每天自动摘要收件箱中的新文件
好的候选：将新提交的表单数据分类并路由到对应负责人
不适合：需要和客户深度沟通理解需求的销售谈判
不适合：需要创意和主观判断的品牌策略制定

以文件摘要流程为例

以"自动摘要新收到的文件"为例，分解步骤：检查是否有新文件 → 读取文件内容 → 判断文件类型（合同/报告/邮件）→ 按模板生成摘要 → 将摘要存入指定位置。其中，"判断文件类型"是 AI 判断点，其余是确定性逻辑。

标出决策点

绘制流程图时，明确区分两类步骤：确定性步骤（总是做同一件事）和 AI 判断步骤（需要理解内容后做决定）。Agent 在判断步骤上最有价值，确定性步骤可以用普通代码完成。

🧠 自测：以下哪个流程最适合用 AI Agent 来自动化？

与重要客户进行年度战略规划会议
每天从固定来源汇总行业新闻并生成简报　✓
为公司设计新品牌标志的创意方向
处理需要法律解释的合同纠纷

每天汇总固定来源新闻是步骤固定、规则清晰、重复性高的任务，非常适合 Agent 自动化。其他选项都需要大量人类判断和创意。

连接工具与数据

AI Agent 的力量来自于它能调用工具采取行动，而不只是生成文字。本课介绍 function calling 和 Assistants API 的内置工具，理解 Agent 如何与现实世界交互。

Function calling 是什么

Function calling（函数调用）允许你给模型定义一组可以调用的函数。模型在对话中判断"这里需要调用某个函数"，然后返回调用指令（函数名和参数），由你的代码实际执行函数并将结果返回给模型。模型再基于结果继续生成回复。

模型决定"要调用什么函数"
你的代码负责实际执行函数
函数结果返回给模型后，模型继续对话
典型用途：查询数据库、调用外部 API、操作文件

一个函数定义的例子

示例 Prompt

// 告诉模型你有一个"查询天气"的函数
{
  "name": "get_weather",
  "description": "查询指定城市的当前天气",
  "parameters": {
    "city": {
      "type": "string",
      "description": "城市名称，如'北京'或'上海'"
    }
  }
}

// 用户说"北京今天冷吗？"后，模型会返回：
// { "function": "get_weather", "arguments": { "city": "北京" } }

Assistants API 的内置工具

代码解释器（Code Interpreter）：运行 Python 代码，处理数据、生成图表
文件搜索（File Search）：从上传文件中检索信息（即 RAG）
网页浏览：访问互联网获取最新信息

🧠 自测：在 function calling 机制中，谁负责实际执行函数？

OpenAI 的服务器
你的应用代码　✓
模型本身直接执行
用户手动触发

模型只决定"需要调用哪个函数并传入什么参数"，实际的函数执行由开发者的应用代码完成。结果再返回给模型继续处理。

编排多个步骤

真实的 Agent 工作流通常包含多个步骤。如何组织这些步骤的执行顺序，是构建可靠工作流的核心设计问题。

三种基本编排模式

串行（Sequential）：步骤 1 → 步骤 2 → 步骤 3，前一步的输出是后一步的输入
并行（Parallel）：多个独立步骤同时执行，最后汇总结果
条件分支（Conditional）：如果 X 发生则执行 Y，否则执行 Z

串行模式：流水线处理

串行模式适合有明确先后顺序的任务：提取数据 → 清洗数据 → 分析数据 → 生成报告。每一步都依赖前一步的结果。设计时要考虑：如果中间某一步失败，是重试、跳过还是终止整个流程？

并行模式与条件分支

并行模式适合独立子任务：同时分析 5 个不同部门的报告，最后汇总。条件分支让 Agent 能根据情况选择不同路径：如果文件是合同，执行合同审查流程；如果是发票，执行财务核对流程。

串行：有依赖关系的步骤，保证顺序正确
并行：独立子任务，提升效率
条件分支：处理多种输入类型，增加灵活性

🧠 自测：以下哪种场景最适合使用并行编排模式？

需要依次处理的数据清洗、分析、报告三个步骤
同时处理来自 5 个城市的独立销售报告　✓
根据用户类型选择不同的回复策略
按固定顺序执行的系统初始化流程

5 个城市的销售报告相互独立，没有依赖关系，非常适合并行处理以节省时间。其他选项更适合串行或条件分支模式。

模块三 · 可靠与安全 Reliability & safety

让 Agent 可控

Agent 越自主，出错的代价可能越大。设计可控的 Agent，意味着在关键节点保留人类干预的能力，而不是让 AI 完全自主运行。

人在回路（Human-in-the-Loop）模式

人在回路（Human-in-the-Loop）是一种设计模式：在 Agent 执行过程中，设定特定的检查点，要求人类确认后才能继续。不是所有步骤都需要人工确认，只在关键节点介入即可。

不可逆操作前确认：删除文件、发送邮件、提交订单
批量操作后审查：处理完 100 条记录后，抽查 5 条验证质量
低置信度时升级：Agent 遇到不确定的情况，主动请求人工判断

设定清晰的行为边界

在 Agent 的系统指令中，明确写出它可以自主执行的操作范围，以及哪些操作必须等待人工批准。边界越清晰，Agent 的行为越可预测，出错时也更容易定位原因。

最小权限原则

只给 Agent 完成当前任务必需的工具访问权限。如果任务只需要读取数据，不要给它写入权限。权限越少，意外破坏的可能性越低。

🧠 自测：以下哪种情况最应该设置人工确认步骤？

Agent 从网页上阅读一篇新闻
Agent 准备向 500 位客户发送营销邮件　✓
Agent 在本地临时文件夹中创建一个草稿
Agent 搜索数据库中的历史记录

向 500 位客户发送邮件是不可逆的批量操作，一旦执行无法撤回。这类操作必须在执行前经过人工审查和确认。

评估与监控

部署 Agent 只是开始。持续监控它的行为、评估输出质量，并建立反馈闭环，才能让 Agent 在长期运行中保持可靠。

记录每一次工具调用

每次 Agent 调用工具时，都应该记录：调用了什么工具、传入了什么参数、得到了什么结果、花费了多长时间。这些日志是调试问题和优化性能的基础。没有日志，出问题时你只能猜测。

定义成功标准

在部署前，明确定义什么算成功：准确率达到 X%、处理时间不超过 Y 秒、用户满意度评分高于 Z。有了量化标准，你才能判断 Agent 是否达到预期，以及何时需要干预和优化。

准确率：正确完成任务的比例
覆盖率：能够处理（而不是放弃）的请求比例
延迟：完成任务所需的平均时间
升级率：需要人工介入的请求比例

识别偏轨的 Agent

当 Agent 开始重复调用同一个工具、产生异常长的输出、或者对相似输入给出截然不同的结果时，这些都是偏轨的信号。设置自动告警阈值，当关键指标异常时及时通知人工审查。

🧠 自测：以下哪项不是评估 Agent 性能的有效指标？

正确完成任务的准确率
Agent 使用的模型版本号　✓
需要人工介入的请求比例
完成任务的平均响应时间

模型版本号本身不能衡量 Agent 的性能，它只是一个配置参数。准确率、升级率和响应时间才是直接反映 Agent 工作质量的指标。

模块四 · 测验 Quiz

课程测验

恭喜你完成了 Agents 与工作流课程！以下 6 道测验题覆盖了课程的核心知识点，检验你的掌握程度。

🧠 自测：Function calling 让 AI Agent 能够做什么？

自动学习新的编程语言
调用你定义的函数来与外部系统交互　✓
替代所有人工编写的代码
直接访问用户的本地文件系统

Function calling 让模型能够在对话中判断"需要调用哪个函数"，由开发者的代码实际执行，从而让 Agent 能够与外部系统、数据库、API 等交互。

🧠 自测：OpenAI Assistants API 中的持久线程（Persistent Threads）有什么作用？

让多个用户同时使用同一个 Assistant
保存对话历史，让 Agent 在多次会话间维持上下文　✓
加快 API 的响应速度
自动备份 Agent 的配置文件

持久线程存储了对话历史，让 Agent 在下一次会话时仍然能记住之前的上下文，适合需要跨会话维护状态的应用场景。

🧠 自测：以下哪种情况最需要应用人在回路（Human-in-the-Loop）模式？

Agent 在搜索引擎中查询公开信息
Agent 准备永久删除数据库中 1000 条客户记录　✓
Agent 生成一份内部分析报告草稿
Agent 将一篇文章翻译成中文

永久删除 1000 条数据库记录是不可逆的批量操作，必须在执行前经过人工确认。搜索、生成草稿、翻译都是低风险操作，不需要人工介入。

🧠 自测：监控 Agent 工作状态时，以下哪种做法最有效？

每天手动检查 Agent 的所有输出
记录每次工具调用的日志并设置关键指标告警　✓
只在 Agent 报错时才检查日志
完全信任 Agent，不需要额外监控

记录完整的工具调用日志并设置量化指标的自动告警，是兼顾效率和可靠性的监控方案。依赖手动检查或只看报错都无法及时发现偏轨行为。

🧠 自测：以下哪类任务是好的 Agent 自动化候选？

需要与客户进行情感沟通的投诉处理
每天固定时间从 3 个来源汇总数据并生成报告　✓
需要创意灵感和个人风格的广告文案创作
需要法律判断的合同纠纷解决

定时数据汇总是步骤固定、规则清晰、重复性高的任务，是 Agent 自动化的理想候选。其他选项都需要大量人类创意判断或情感能力。

🧠 自测：在多步骤 Agent 工作流中，以下关于并行模式的描述哪项正确？

并行模式适合有严格先后顺序依赖的任务
并行模式让多个独立子任务同时执行，提升整体效率　✓
并行模式下所有子任务共享同一个上下文窗口
并行模式只适用于两个子任务的情况

并行模式的核心是让互相独立、没有依赖关系的子任务同时执行，从而缩短总完成时间。子任务有依赖时应使用串行模式。

想要测验互动、进度自动保存的完整体验？

进入 AI 学院互动版 →

继续学习其他课程

Claude 101用 Claude 处理日常工作：写作、总结、头脑风暴、整理资料。零基础友好。 Claude Code 101在终端里用 AI 编程代理：读写代码、运行命令、定制工作流。 Model Context Protocol 入门用 Python 从零构建 MCP 服务器与客户端，连接 Claude 与外部服务。 MCP 进阶专题生产级 MCP：采样(sampling)、通知、Roots 与传输机制。 Agent Skills 入门把任务的标准做法打包成可复用的 Skill，让 Claude 稳定专业地完成。 Subagents 入门用子代理拆分与委派任务，保持主上下文干净。 AI 基础搞懂生成式 AI 到底是什么、怎么工作，建立可靠的心智模型。 应用 AI 基础把 AI 真正用进日常工作：找到高价值场景，养成可靠习惯。