返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

一手实测:OpenAI Deep Research

[复制链接]
链载Ai 显示全部楼层 发表于 8 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;font-size: 15px;letter-spacing: normal;text-align: start;">在这个测试中,会发现 Open Research 取得了较为不错的成绩,在 pass@1 和 cons@64 的标准下,均取得了比以往更好的成绩。这里做一个信息的补充,有关 pass@1 以及 cons@64:

  • ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">pass@1:AI 在首次尝试时直接给出正确答案的概率,可以用来衡量一个 AI 是否直接可用

  • ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">cons@64:这是 AI 在 生成 64 个答案后,正确答案出现在这 64 个答案中的概率,可以用来评估 AI 的覆盖率和潜力

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">

ingFang SC", "Helvetica Neue", Helvetica, Arial, sans-serif;color: rgb(31, 35, 41);margin-bottom: 4px;word-break: break-all;min-height: 20px;">可以发现,OpenAI 发布的“以往最佳”的成绩,是 h2o 做到的,记录时间为 24年12月16日。而更新的记录则是由 Trase Systems 于 1月29日(大年初一) 发布的。也就是说,OpenAI 应该在 1月29号之前就 Ready 了这个项目。哈哈~刚好和奥特曼的 Twitter 对应上了:





对于「例子3」,ahhhhhh,我希望 用 Deep Research 来「写一篇有关 OpenAI Deep Research 的报告,你的目标受众是 AI 从业者、投资人和相关研究人员」


5分钟后,获得了这么一份报告:



可上下滑动



大家可以来评一评这篇报告:

  • 觉得写得好,请在评论区,夸我是个大聪明;

  • 觉得写得烂,请在评论区,骂 OpenAI 是个大聪明


实际上,这是 Deep Research 的第 4 次输出:在前三次中,它的输出堪称「胡说八道,离题万里」:



而在第四次中,我重新修改了提示词,加上了一些背景介绍,并且重复测试了2次,才获得较为满意的结果。这是我在第四次中,用到的提示词:「就在刚刚,OpenAI 新出了一个功能,叫做「Deep Research」,那么请你就「OpenAI Deep Research」写一篇分析报告,你的目标受众是 AI 从业者、投资人和相关研究人员」




通过上面的几个例子,发现这次 OpenAI 的发布确实可圈可点,上限很高。但在实际的体验中,也蕴藏着一些问题,包括不仅限于

  • 非常不稳定

  • 如果任务没有被描述的非常清楚,它的理解&执行可能会有比较大的偏差,就比如 OpenAI Deep Research 报告(你并无机会在中途修正)

  • 任务一旦开始,就无法人工干预(包括提前结束)

  • 无法读取用户提供的链接(至少不读取公众号链接)

  • 限额过于低:即便是 Pro 用户,每个月也只有 100 次的额度

  • ...


对于限额问题,官方也说到:“All paid users will soon get significantly higher rate limits when we release a faster, more cost-effective version of deep research powered by a smaller model that still provides high quality results.”


翻译成中文,便是:“很快,我们会推出一款更省算力的小模型,给 Deep Research 来用,那时,所有的付费用户都可以有更多的使用额度了。”


一时不知是喜是忧。




既然:

OpenAI 已经发布了 Deep Research

那么:

DeepSeek 何时发布 OpenResearch

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ