吴恩达：Agent模式将在不久的将来超过下一代模型

null

翻译

我（吴恩达）认为，今年AI代理工作流程将推动大规模的AI进步——或许甚至超过下一代基础模型。这是一个重要的趋势，我敦促所有从事AI工作的人员对此给予关注。

目前，我们主要在Zero Shot模式下使用大型语言模型（LLM），通过提示模型逐个生成最终输出令牌而不修正其工作。这类似于要求某人从头到尾撰写一篇文章，不允许回退删除，同时期望得到高质量的结果。尽管任务艰巨，但大型语言模型在这项任务上表现得非常出色！

然而，通过代理工作流程，我们可以要求大型语言模型多次迭代处理一个文档。例如，它可能采取以下步骤序列：

这种迭代过程对于大多数人类作家来说，是撰写好文本的关键。对于AI来说，这样的迭代工作流程比单次写作得到的结果要好得多。

Devin最近的华丽演示在社交媒体上引起了很大的关注。我的团队一直在密切关注编写代码的AI的发展。我们分析了几个研究团队的结果，重点关注算法在广泛使用的HumanEval编码基准测试中的表现。你可以在下面的图表中看到我们的发现。

GPT-3.5（零样本，Zero Shot）的正确率为48.1%。GPT-4（Zero Shot）的表现更好，达到了67.0%。然而，从GPT-3.5到GPT-4的进步与采用迭代代理工作流程相比显得微不足道。实际上，在一个代理循环中，GPT-3.5的准确率可以达到95.1%。

开源代理工具和关于代理的学术文献正在迅速增多，这使得这是一个令人兴奋的时代，但同时也有些混乱。为了帮助理解这些工作，我想分享一个框架，用于对构建代理的设计模式进行分类。我的团队AI Fund在许多应用中成功地使用了这些模式，我希望你也会觉得它们有用。