我们离理想的AutoGPT还有多远？

显示全部楼层

@TsingYoga 大佬帖子转载，原文地址如下

https://x.com/TsingYoga/status/1802261329115533738

AutoGPT1^[1]已经163k star了，AutoGPT的开发者雕花了一年多，但它仍然停留在demo阶段，算不上产品（即使面向开发者)。这和传统开源软件的发展轨迹相差甚远，核心原因是Agent的上限由底座模型决定

GPT4从去年到现在发布了多个版本，实测起来对支持AutoGPT的能力并没有明显变化(甚至还有版本迭代后效果变差的情况）。可以明显感受到，OpenAI并没有为Agent任务专门优化，所谓GPT4“推理能力”的提升是面向评测起来比较简单的场景(例如代码、数学题等)，而Agent任务所需的“推理能力”和MATH / SWE-Bench任务的推理能力其实完全不是一个概念。因此，很大概率纯套壳类Agent工具day1的效果就是上限

我们离理想的AutoGPT还有多远？Agent能力细数起来其实很多，例如（1）选择适合的工具并填写正确的参数；（2）复杂场景下的推理能力；（3）反思上一个失败步骤的原因从而找到更优的解路径；（4）长序列memory问题等等——本质上其实都是幻觉问题：即底座模型没有见过该场景下的MDP决策序列（数据）。数据的缺失才是原罪

目前，无论是预训练阶段还是微调阶段的Agent数据都是几乎没有被收集/重视的。互联网上的数据本质上都是“静态快照”，或者说是“结果数据”，如何产生这些数据的用户行为过程（“过程数据”）是没有被记录下来的。后者没有统一的记录格式，仅零星地存在于做埋点测试的后端，从收集到被利用都还有很大距离。过程数据主动记录的成本也极高，参考学生团队2^[2]和大厂团队的标注效率3^[3]

在缺乏规模化数据的前提下想解决幻觉问题，常见的解决方案就是（1）RAG：即参考相似任务的解路径来辅助当前任务决策 4^[4]；或者（2）RLHF：基于先前的经验来迭代优化当前任务的路径。后者没有成熟的工作（5^[5]可参考），原因是通用Agent任务场景的reward model（evaluation）是该方法的卡点。去年在Tree-of-thought和Q*的消息出来后分别有一系列工作探索了用Monte-Carlo来bootstrap成功路径的工作（太多了，偷懒只列一篇6^[6]），都有涨点但没有做到特别实用的程度，核心原因也是evaluation的（1）准确率不够和（2）无法泛化或scalable7^[7]