|
昨晚,OpenAI突然发了个直播预告,表示即将发布ChatGPT Agent。这时候所有agent创业者看到估计都不得不捏一把冷汗的,注定一夜无眠,要连夜讨论对策了。 从发布会的阵容看,你也能发现OpenAI还挺重视的,毕竟Sam Altman到场了。 简单来说,ChatGPT Agent是在一个虚拟电脑环境中运行,整合此前的 Operator(可点网页、填表、交互)、Deep Research(深度调研生成报告)及ChatGPT自身对话能力的产品,支持网页浏览、代码运行、表格处理、API调用,甚至帮你写PPT、分析数据、安排行程。 上面这些介绍听着是不是有点耳熟? 是的,我们已经看过很多国内创业者的同类agent产品了,从Manus、Genspark,再到Skywork、MiniMax Agent。华人agent创业团队也已经产品从最开始的「通用」概念,卷到了对PPT、Excel等office套件垂直领域的优化,我前几天介绍过的MiniMax Agent还发展出了一次性生成带后端的网站的开发能力。 从这些视角看,ChatGPT Agent对我们来说,显得没那么模型,没那么新颖,甚至我看了些案例后也觉得表现还没那么出色。 但,这是在基础模型领域做得最出色的公司之一啊,他们也可以为了工具对模型进行专项优化。所以,抱着发展的眼光看,这次发布传递出来的真正信息是:OpenAI注意到通用Agent这个赛道了,小团队可能就别玩了,你不想和OpenAI行驶在完全相同的跑道上的。 关于产品功能
目前ChatGPT Agent已经向订阅了200美元/月会员的大冤种财神爷开放,Plus和Teams会员预计几天之后会获得这个功能的使用权限。我暂时还没用上,先给大家看看官方发布的能力和一些网友案例。 ChatGPT Agent能干以下几个方面的事: 1)自动完成多步骤任务:可以完成浏览网页、填表、下单,甚至交互“支付”等流程,系统会提前提示你确认,比如要求agent「为我规划生日餐」,它就会通过查日历了解你的生日日期、选餐厅、登录OpenTable抢座、甚至给你订蛋糕。 2)一站式分析生成文件:Agent会自动抓竞品数据→分析→输出Excel模型+PPT套件,全流程自动化,时间可能在 10–30 分钟完成。 3)支持第三方集成:支持 Gmail、Google Drive、GitHub,加上浏览器、终端、API等工具,能力模块挺丰富的。 4)任务可中断可监督:你可以随时中断、补充意见,甚至在关键动作前手动确认,全程用户把控。 5)持续任务/定期任务支持:比如“每周一生成周度指标报告”,可以让它周期执行,这也算是现在Agent产品的标配功能了。 关于模型能力和表现
和Grok一样,OpenAI为这个Agent训了新模型,新模型基于强化学习训练,专门针对 Agent 工具操作进行调优,Deep Research 用的是 o3 系列模型,这套系统在复杂任务处理上显然下了狠功夫。 在一些Benchmark上,带了上面提到的各种工具的使用后,ChatGPT Agent在很多benchmark上相比Gemini 2.5、Claude 4,以及OpenAI自家的老模型都有不小进步。 01|HLE:如果 AI 上了“人类最后的考试”,能不能不挂科?
在评估语言模型的终极大考 Humanity's Last Exam 中,ChatGPT Agent 用全部工具(包括终端、浏览器、计算环境)出战,直接拉出了 41.6% 的 Pass@1 成绩 —— 比上一代 Deep Research 的 26.6% 提升了整整 15 个百分点,也远远甩开基础的 o3 模型。 不过相比这个分数,我觉得更有趣的是在X上看到了Grok对OpenAI的阴阳怪气 02|DSBench:数据分析师的职业生涯危险了
LLM虽然擅长文字处理,但毕竟只是在预测下一个token,所以在数据建模、分析、数据科学类任务依然得靠人。但在 DSBench 这个高度贴近真实工作流的数据科学基准中,有了各种辅助工具后,ChatGPT Agent远远把人类甩在了身后: 初级的数据分析师如果缺乏洞察能力,只知道折腾数据的话,可能真的需要考虑转行了。 03|SpreadsheetBench:Excel 的战争, ChatGPT赢了微软
在职场里最“反人类”的任务是什么?很可能就是改 Excel 表格。OpenAI 给 Agent 安排了这样一个挑战:让它在近千道真实电子表格编辑题中操刀,不仅要能找数据、算公式、改格式,还得模仿人类的书写逻辑。 结果很惊人: 04|投行建模任务:它也能干分析师的活儿
在内部测试中,OpenAI 安排 ChatGPT Agent干了这么些班味满满的任务:给一家 Fortune 500 公司做三表建模、处理私有化收购模型、检查引用是否规范……这些是投行初级分析师每天凌晨两点还在做的苦活。 最终结果: 05|WebArena & BrowseComp:找信息这件事,它比Deep Research又进化了
我之前一直很喜欢各种Deep Research产品,不管是ChatGPT的、Gemini的还是最近秘塔新出的深度研究,这在我获取和整合信息的工作流中都太有用太重要了,而且我觉得AI在这方面早就干得比我好,还比我专业了。 然后,现在ChatGPT Agent又把这个能力往前推了一步。 WebArena 测试中,它在复杂网页交互场景中达到了65.4%的完成率,比 o3 模型高了几个百分点,但比人类还差点 在 BrowseComp 这个找隐蔽信息的测试里,它打出了新的 SOTA:68.9%—— 比 Deep Research 高出 17.4 个百分点 跑分看着都挺强的,但实际怎么样呢?我觉得还得再看看。 比如,下面这个X上全球阅读量最大的每日 AI 时事通讯创造者Rowan Cheun发的这个生成退休方案PPT的案例,我多少觉得有点好笑写在最后 之前一直很奇怪Agent这个显而易见的赛道,为什么好像都是国内的企业在卷,国外的主要模型公司为什么不干这事,是嫌这个领域太窄太小了,还是模型能力不到位。 现在看来都不是,现在ChatGPT Agent来了,Gemini和Claude对应的产品估计也不远了。 留给初创公司的,可能是少一些通用,多一些纵深的垂类Agent赛道了。 |