返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

我们离理想的AutoGPT还有多远?

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 10:21 |阅读模式 打印 上一主题 下一主题

@TsingYoga 大佬帖子转载,原文地址如下

https://x.com/TsingYoga/status/1802261329115533738

AutoGPT1[1]已经163k star了,AutoGPT的开发者雕花了一年多,但它仍然停留在demo阶段,算不上产品(即使面向开发者)。这和传统开源软件的发展轨迹相差甚远,核心原因是Agent的上限由底座模型决定

GPT4从去年到现在发布了多个版本,实测起来对支持AutoGPT的能力并没有明显变化(甚至还有版本迭代后效果变差的情况)。可以明显感受到,OpenAI并没有为Agent任务专门优化,所谓GPT4“推理能力”的提升是面向评测起来比较简单的场景(例如代码、数学题等),而Agent任务所需的“推理能力”和MATH / SWE-Bench任务的推理能力其实完全不是一个概念。因此,很大概率纯套壳类Agent工具day1的效果就是上限

我们离理想的AutoGPT还有多远?Agent能力细数起来其实很多,例如(1)选择适合的工具并填写正确的参数;(2)复杂场景下的推理能力;(3)反思上一个失败步骤的原因从而找到更优的解路径;(4)长序列memory问题等等——本质上其实都是幻觉问题:即底座模型没有见过该场景下的MDP决策序列(数据)。数据的缺失才是原罪

目前,无论是预训练阶段还是微调阶段的Agent数据都是几乎没有被收集/重视的。互联网上的数据本质上都是“静态快照”,或者说是“结果数据”,如何产生这些数据的用户行为过程(“过程数据”)是没有被记录下来的。后者没有统一的记录格式,仅零星地存在于做埋点测试的后端,从收集到被利用都还有很大距离。过程数据主动记录的成本也极高,参考学生团队2[2]和大厂团队的标注效率3[3]

在缺乏规模化数据的前提下想解决幻觉问题,常见的解决方案就是(1)RAG:即参考相似任务的解路径来辅助当前任务决策 4[4];或者(2)RLHF:基于先前的经验来迭代优化当前任务的路径。后者没有成熟的工作(5[5]可参考),原因是通用Agent任务场景的reward model(evaluation)是该方法的卡点。去年在Tree-of-thought和Q*的消息出来后分别有一系列工作探索了用Monte-Carlo来bootstrap成功路径的工作(太多了,偷懒只列一篇6[6]),都有涨点但没有做到特别实用的程度,核心原因也是evaluation的(1)准确率不够和(2)无法泛化或scalable7[7]

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ