返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

吴恩达:构建企业级AI Agent的最佳实践

[复制链接]
链载Ai 显示全部楼层 发表于 4 小时前 |阅读模式 打印 上一主题 下一主题

 

新手做 Agent,80% 时间搭建,20% 时间分析问题,老手正好反过来。

我最近看了吴恩达的 Agentic AI 课程,这是他的观察。

新手往往会踩一种坑:

花两周搭完系统,联调时发现第一步就错了,后面所有模块,都建在错误的地基上。

推倒重来。

以前我就是这么干的:拿到需求 → 脑子里过一遍思路 → 各模块逐个做完 → 最后串起来测试。

出现的问题是:你要到最后一步才知道前面哪里错了

更惨的是,等你改完第一步,第二步的假设可能也不对了,又要改,改完第二步,第三步又崩了……

吴恩达给出的方法论正好相反:做一步,测一步,确认对了再往下走

具体怎么做?下面用一个例子说明。

人类怎么做,AI 就怎么做

这是吴恩达特别强调的第一步,也是最反常识的一步:

大多数人拿到需求就开始思考「用什么模型」「怎么写 Prompt」「要不要用 RAG」,但吴恩达建议:

先找 5-10 个真实案例,自己当人类把这件事做一遍,记下每一步在想什么、查了什么、怎么决策的。

为什么要这么做?因为很多开发者连自己都没想清楚流程,就急着让 AI 去做。

举个例子,如果让你处理一封客服邮件,你怎么判断要不要查订单数据?看邮件里有没有订单号?还是根据发件人邮箱去猜?

没提供订单号时,你是直接回复「请提供订单号」,还是先根据用户名搜一下?

这些细节,如果你自己都没想清楚,AI 肯定也做不好

所以阶段零的价值是:逼着你把流程梳理清楚,同时这些真实案例直接变成你后面的测评集。

把人类流程翻译成 AI 流程

梳理完人类怎么做,接下来就把它翻译成 AI 能做的:

我的做法是把 Agent 拆成三部分:大脑(LLM)、手(工具)、眼(多模态)

大脑:负责思考、决策、生成文本。

:负责调用外部工具,执行具体任务。

:负责理解和处理多模态输入(如图片、视频)。

以客服邮件 Agent 为例:

第一步:打开邮件

  • • 人类:点开邮箱,看发件人、标题、正文
  • • AI:用邮件 API 读取邮箱号、标题、发件时间、正文(不可能真让 AI 去点鼠标,只能通过 API 获取数据)

第二步:判断要不要查订单

  • • 人类:看邮件内容,判断是咨询、投诉还是其他
  • • AI:用 LLM + Prompt,让它扮演客服角色,按什么原则去判断

第三步:查订单数据

  • • 人类:打开数据库,输入订单号或用户名,看有没有匹配的
  • • AI:提供数据库查询工具(API),LLM 决定查什么、怎么查

第四步:匹配验证

  • • 人类:确认查到的订单信息和发件人是否匹配
  • • AI:让 LLM 对比邮件信息和订单信息,判断是不是同一个人

第五步:组织回复

  • • 人类:先安抚理解,再提供解决方案
  • • AI:给 LLM 一个回复模板或原则,生成邮件内容

整个流程梳理完,你会发现:哪些步骤需要 LLM 思考,哪些步骤需要工具支持,哪些步骤能提前优化

一目了然。

单点验证,而不是整体开发

流程翻译完,别急着搭整个系统。吴恩达的建议是:先单点验证,做一个测一个。

什么叫单点验证?比如邮件 API 能调通吗?有没有官方 API?没有的话第三方能不能实现?

LLM 判断「要不要查订单」这个任务,写个 Prompt 在 ChatGPT 里测几轮,能做到吗?

数据库查询工具,LLM 能正确调用吗?参数传递有没有问题?

这个阶段的重点是「能不能跑通」,而不是「质量如何」。

如果某个工具根本调不通,或者 LLM 完全理解不了你的意图,那就要重新考虑方案。

别等到整个系统搭完了才发现「这条路走不通」。

等每个单点都验证通过,再用工作流编排工具(比如 n8n、dify)或者自己写代码把它们串起来,确保数据流转正常。

这个阶段可能只需要 2-3 天,就能拿到一个能跑的原型。

测评集从小到大,循环优化

原型跑通之后,就进入评估阶段。

评估阶段第一件事:建测评集,但别一开始就建 100 个,10-20 个就够了。

为什么?因为 10-20 个足以发现大部分问题,标注成本低(你要写标准答案),迭代速度也快。

怎么做?

第一轮:肉眼看几个输出
随便跑几个案例,看看输出长什么样。这一步能快速发现明显问题,比如「完全没理解邮件内容」「查了订单但没用上」。

第二轮:建 10 个测试样本
从阶段零的真实案例里选 10 个,写好标准答案,跑一遍看准确率。

假设准确率只有 40%,别慌,这是正常的。

第三轮:错误分析
把失败的案例拎出来,逐个组件检查中间数据:是邮件理解错了?是数据库查询失败了?还是回复逻辑有问题?

统计一下:哪个环节错得最多?

假设发现「判断要不要查订单」这一步错误率 50%,那就优先优化这个组件。

第四轮:组件级优化
单独拎出这个组件,改 Prompt、加 Few-shot、换模型,测到满意为止。

比如原来准确率 10%,优化后提升到 60%。

第五轮:端到端重新测
组件优化完,回到完整流程重新跑一遍评估。

准确率从 40% → 65%。还不够?回到第三轮继续分析。

这是一个循环:评估 → 错误分析 → 优化组件 → 重新评估 → 再分析 → 再优化……

可能要转 3-5 轮,直到准确率达到你的目标。

什么时候可以停下来?

有个陷阱要注意:永远在优化,永远觉得「还不够好」。

怎么办?设个「Good Enough」的阶段性目标

比如:

  • • MVP 目标:端到端准确率 > 70%(可以内测)
  • • 上线目标:端到端准确率 > 85%(可以小范围上线)
  • • 成熟目标:端到端准确率 > 95%(全量推广)

为什么要设阈值?这样可以避免陷入完美主义,让你能阶段性交付。

先上线一个「能用」的版本,再根据真实反馈慢慢改。

而且有个现象:

好问题:用户太多,成本扛不住。

坏问题:又快又便宜,但质量差没人用。

所以质量优先,成本和速度是质量稳定之后才考虑的事。


整个方法论可以总结为:

阶段零:人工模拟 5-10 个真实案例,梳理清楚流程

阶段一:把人类流程翻译成 AI 流程(大脑-手-眼)

阶段二:单点验证,做一个测一个,串起来测数据流转

阶段三:建测评集(10个 → 20个 → 50个),循环优化(评估 → 分析 → 改进 → 再评估)

阶段四:设定 Good Enough 目标,质量稳定后再优化成本和速度

核心就是:分步验证、快速迭代、数据说话

如果你在做 Agent,这套流程能帮你少走弯路。

更重要的是,它让你随时知道问题在哪,而不是凭感觉瞎改。

 

以上,如果这篇文章对你有启发,欢迎分享给更多正在学习 AI 的朋友。



这里是夙愿学长,我不喜欢跟风,只分享亲自实操过的、真正对生活和工作有帮助的AI工具、AI工作流和成长记录。

  往期精彩文章:
  终于找到让 AI 一次就输出满意答案的技巧
  写给普通人的上下文工程完全指南   
2025年必用十大AI工具(万字长文干货版)
发现了AI赚钱的真相后,老老实实滚回去上班了
AI正在把我们变成巨婴

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ