驾驭 deep research，你必须知道的 100 件事｜一次性构建出你的 deep research 个人知识体系 - 链载Ai

deep research 很可能（probable,60%--80%概率）是自chatgpt之后第二个革命性AI技术。因为它真正改变了脑力劳动者的生产力格局；
你对 deep research 的态度在本质上取决于你对技术本质的判断，对技术的敏感度与洞察；
我目前对“deep research是革命性技术”的置信度是80%，如果相反证据出现，我自然会贝叶斯更新我的推断；在相反证据出现之前，我建议你对这项技术予以足够重视。能花 100 小时在这上面，就别只花 99 小时；
对改变了生产力格局的deep research，你的个人知识体系越全面，理解就越深，使用就越好。通过这篇文章，我把自己脑子里关于 deep research 的知识和经验全部敲出来，希望帮你更全面深入地理解 deep research 到底是什么，为什么重要，如何使用，如何改变生命；

why

2025年是agent之年。根据openai的agi分级框架，chatbot/知识模型是L1 agi，reasoning model/推理模型是L2 agi，而agent/任务模型是L3 agi；

今年，openai 已经陆续推出chatgpt tasks、operator 和deep research 这三个 agents。tasks 是基础的任务提醒，operator 是直接操作浏览器，与真实世界互动，deep research是帮专业人士做研究；
前两个几乎无人问津。但是，对于 deep research，如果你不是干体力活的，真的没理由不关注一下，除非你端的是铁饭碗，而且是最稳的那种?；

what

deep research（深度研究）是一个功能，一个模型，一个以“研究”为专业的AI agent（智能体/代理）。openai的官方广告语是：你的个人研究助理；
最先推出deep research功能的是 google gemini，发布于2024 年 12 月中旬；然后是openai（25 年 2 月），紧接着是 perplexity；
grok3 推出的是deep search（ai 搜索，更接近推理模型版本的 chatgpt search），不是 deep research（本质是 ai agent）；
google deep research底层模型是gemini 1.5 pro，全名叫“Gemini 1.5 Pro with Deep Research”。虽然 google在搜索上有近 30 年技术积累，但由于模型基础性能拉跨，导致输出结果和openai deep research 有数量级差距；
google deep research 会在用户提出问题后自动制定多步骤研究计划。系统先生成一个分步研究方案供用户审核，可根据需要修改，然后用户点击“Start research”开始执行。获得授权后，Gemini 会像人类研究者一样反复执行“搜索-阅读-分析”循环：利用 google 搜索查找相关内容，读取网页获取信息，再根据新发现调整搜索策略。这一过程会持续数分钟，期间 gemini 持续完善对主题的理解，发起多轮检索和推理，以确保覆盖话题的各个方面。整个浏览和思考过程在后台自动完成，无需用户干预。基本上各家的 deep research 都是这个流程。
google deep research的特点是在搜索上大力（结果没有奇迹）：通常浏览上百个网站，阅读上千个网页，提供的研究报告带上百个参考文献。很唬人，不明觉厉。但是，openai deep research 出来后，这一套就不灵了，经不住内容质量上的鲜明对比；
perplexity 推出的 deep research 基本属于蹭热点、找存在感，相当于“挂羊头卖狗肉”，质量差到没人用，不建议浪费时间；
google ai 会员 20 美金/月，支持 6 人家庭共享，deep research 不限量；perplexity ai 会员 20 美金/月，也不限量；openai 20 美金的 plus会员，每月 10 次限额；价格差异一方面是成本差异巨大，一方面是质量差异带来底气；
deep research 本质上在做一件事：主题研究。这件事对本科生来说有涉及，对研究生来说是关键能力，但是，大多数人做不好。AI 在这件事上展现出的实力，让人类用户震惊、感慨，思考自己智力活动的价值（包括形而上的意义价值，更包括形而下的经济价值）（人的智力活动当然有价值，但必须重新调整自身智力活动的定位，只能做到 ai 能做到的程度，那就危险）；
决定deep research 效果的，不是“如何做研究”的步骤方法流程技巧（模型的系统指令很简单，o3的基础智能极强，不需要你教它如何做研究），而是底层的 reasoning model。这也是为什么 o3 驱动的 deep research 效果惊人；

openai deep research

openai deep research 是 2025 年 2 月 3 号推出的，开始时是 200 美金/月的 pro 用户独享。pro 用户独占使用 3 周后，openai 把这个功能普及到 plus 用户，后续会普及到免费用户；
deep research 发布后，由于是pro独占，我思考了 5 分钟，然后升级到 200美金 pro 会员。今天，使用了接近一个月后，我可以这么说：除非我娃没钱吃饭了，否则我会一直用pro（我自己没钱吃饭也会开pro）；
使用 chatgpt pro 的难度不低，不是200 美金问题（舍不得在“软件”上花钱的人，在其他地方花钱可能很豪气），而是视角问题（到底是软件？是工具？还是待你整合到工作流、为你创造价值、甚至金钱价值的智能体？），以及网络技术问题（openai 无良降智）；
使用 pro，需要极高的agency（能动性）：要有与openai斗智斗勇永不妥协的能力和意愿，要心态开放到至少开一个月试试智能时代全新工作学习体验；
pro用户每月限额120 次，plus 用户每月 10 次，免费用户每月 2 次（暂估）；
pro、plus和免费用户使用的 deep research 功能是一样的，只有限额的次数区别，没有性能区别；
每月限额并非以自然月份划分，而是以你升级会员的具体日期划分；
openai deep research的底层模型是尚未发布的满血版 o3，是针对互联网浏览特别微调的一个特殊版本；
我的 deep research 的总结是：o3reasoning model + search= deep research magic。与常规的 ai 搜索不同，deep research 的重点是深度，而非时效。你提出研究需求，deep research 会帮你把互联网翻个底朝天，而且吃透这些材料，为你私人定制研究报告。
口诀：快问快答，用ai搜索；系统调研，用 deep research；
我把 ai 搜索分为三个层级。L1 是gpt-4o+search，搜索信息、综合多个信息源内容，给出一个整体回答；level 2o3-mini+search，加上了推理能力，如果问题是需要思考的，需要多步骤的推理过程，最终给出一个权衡、分析后的结果，就用o3-mini；level 3o3+deep research，难度提高到研究级别，输出结果为上万字的研究报告；
换一个时间角度：如果一个问题是人工用几分钟可以解决的，用gpt-4o+search 就够了；如果一个问题是人工用几十分钟可以解决的，用o3-mini+search；如果一个问题是人工用几个小时、甚至几天才能解决的，用 deep research；
在信息来源上，deep research 可访问所有公开网页，包括网上的图片、pdf、文档，也支持你上传自己本地的图片、文档；

how

既然限额是20或120次/月，那么，怎么就算“一次”？只要有研究进度条开始走动，就正式启动了deep research阶段，算一次研究；
一次deep research流程分为两个阶段：对齐需求阶段，正式研究阶段；
你提出研究需求，chatgpt 会重述它的理解，并针对不明确、表达模糊、你没想到的地方提出问题（clarifying questions），你需要一一确认；这个“对齐需求阶段”可能会重复一轮或多轮；
可惜的事：即使不对比研究阶段，只是需求对齐阶段，人类往往就和 deep research 这样的 ai 拉开了差距；
对齐需求阶段使用的不是 o3 模型，而是你在 model picker（模型选项卡）里面选择的模型；一般情况下，建议你选择 o1 模型，其次是 gpt-4o 模型；实际差异不大，因为正式研究都是o3 模型，而在理解需求这种简单任务上区别不大；
你可以在提需求时上传自己的资料：word、PDF、md、图片，作为deep research 的参考材料；
正式研究开始后，一般耗时5～30 分钟，长度根据任务难度而变化。我目前研究时长最长的，是让 deep research 用一个报告解读芒格 100 模型，耗时 36 分钟，报告 5.7 万字，质量惊人；
对 deep research 会话中，页面右侧有一个类似CoT 的侧边栏，展示了本次研究的全部信息源、以及具体的分步骤研究过程。就好像你站在一个真人研究员身后看他做研究：思考——搜索——阅读——思考——搜索……
deep research 本质是 agent，deep research 任务是异步任务（对比之下，chat 是同步活动）；你交代完之后，模型开始干活，你该干嘛干嘛，网页可以关掉，app 可以退出，研究在服务器远程运行，完成后会推送给你；
报告生成后，你可以在原始对话中继续提出新的研究需求，模型会保持对之前研究的记忆，但本质上是一次新的研究（不会在原始报告上修改，会重新生成新的研究报告）；
研究报告除了文字之外，还会插入表格、图片、图表等促进理解的内容形式；未来，你会看到AI 自动生成的数据可视化、示意图等；

deep research 对参考文献的引用，精确到“行”。点击报告内的参考文献链接，原始网页上实际被模型做了高光标记。目前受限于浏览器，一般人看不到这个精确引用而已；

deep research 精确引用这一点，在论文写作等场合堪称大杀器；

openai 官方一再强调，即使 o3 模型很强，但 deep research仍然可能有幻觉，因为模型目前不会主动去辨别网络上信息源的真伪，仍然受到“garbage in, garbage out”法则的制约；
但是，主动辨别信息源质量高低、信息真伪，对推理模型来讲这本身不难（truth-grounding，事实接地技术），会在功能迭代中解决；
正因为如此，你可能需要限定模型搜索使用的语言和资料范围：只有英文关键词搜索，只采纳英文资料。如果这个主题是国际范围有关注的，你应该这么做；
目前的一大局限是无法接入付费资源（数据库、学术期刊）和私人知识库等非公开信息，但这可以解决；
但是，如果你研究的主题只有中文资料，你或许应该限定模型只用中文关键词搜索，只采纳中文资料；
研究报告数万字，直接在 chatgpt 页面阅读体验并非最好，无法高光划线，无法记笔记。最简单的方式是剪藏到 readwise reader 这样的阅读器软件，另一种方式是使用“chatgpt to markdown”chrome 插件导出为 md 文档，然后用 typora 转换为任意格式，例如可以导入微信读书 app 的 epub；
我做了不少 deep research 测试，我的结论是研究报告的质量(内容丰富度、研究广度、信息质量、报告结构和语言清晰、参考文献等)超越了 99% 的人类产出，有人调研行业专家的反馈是每份报告让专家亲自来做的话耗时至少 10 小时，但这个数字可能保守了；我认为更接近的表述是 “就像有一个专业研究员为你工作了一周，然后写出完整分析报告”；
相对于人类产出的传统知识媒介（文章、书籍、podcast 和视频），deep research 报告的信息密度、结构化程度、质量、丰富度、个性化程度，都碾压传统媒介一个数量级；一个顺理成章的结论：多读 deep research 报告，尽可能多读；
举个例子，我昨天做了一次 deep research，发现它在一个主题的研究质量上竟然比 steven pinker 在《理性》那本书里面同主题内容的质量还高。不是 steven pinker 不行，而是他也是人，人类认知的局限性导致他也看不到只有 deep research 才看到的东西；
deep research 的一个典型应用场景：针对书籍生成导读报告；不取代原书整本书阅读，但绝对会让你更快更好地读透那些值得阅读 5678 遍的好书；
从今以后，读完任何一本值得读的书，都要 deep research 一下！20 万字的一本书，假设阅读 6 小时（每天 1 小时一周读完），然后 deep research 一下，用半天研究阅读报告，整理 logseq 笔记，然后再和chatgpt 多轮对话…… 10个小时的效果，可能抵得上以前几十甚至上百个小时……满打满算，生命被延长了一大截；
我在书籍解读上的测试，使用英文信息源 vs 中文信息源，原理上 garbage in garbage out, 结果上“差之毫厘，谬以千里”。以《百年孤独》深度研究报告为实例，同样的 prompt，同样的 o3 模型，同样的研究主题，只有一个区别：一次研究指定全部用英文信息源，另一次研究指定全部用中文信息源，其中一个不忍卒读；
deep research 运行在人类认知能力金字塔的信息综合层面：不需要创造力，不需要创新，不需要创意写作，就是非常朴实地、把有价值的信息找出来，全部读完，然后用结构化、清晰有序地方式把海量高价值信息整合成一篇高质量研究报告；

这件事难度不高，从“信息综合”的要求层次来讲，按理说研究生水平的人就能干；但是，充分展示了当 AI 达到一个智力水平后，发挥出人类无法企及的信息获取、加工处理等算力优势时，会有多么恐怖。从这个层面会看到，deep research 只要在信息综合层面超过一个临界点，就会让人类同等层级的智力劳动（达不到创造级别的）价值暴跌；
deep research 的system prompt其实很简单，只有两个工具：browser 浏览器和 Python。browser 只做三件事：搜索、阅读、引用。Python 只做数据处理、表格呈现。但是，当底层模型的语言能录与逻辑推理能力足够强大时（如 o3），只需要极简的认知活动（搜索-阅读-引用，不需要显式定义复杂的主题研究流程），就能制造人类无法企及的出色结果；
deep research 的威力发挥，需要充分运用你的想象力，以及你在自身领域的专业知识。发现随着想象力的打开，一手经验的积累，deep research 的强大变得越来越显著；
19名领域专家对 openai 和 google deep research 报告的评价结果：有 7 人（37%）认为 openai deep research 达到了“经验丰富的专业人士”水平；有 10 人（52%）认为 openai deep research 产出的报告至少需要花费自己 10 小时以上才能完成；

how good

deep research, is the new search。 deep research，会和 google 一样，从一个名词变成一个动词：“有问题？deep research 一下！”。背后的本质，是最优质的智能成为一种廉价、人人唾手可得的资源（智能时代的本质）；
deep research，作为 ai agent 的杀手级应用，是直接提供产出，直接对标人类生产力和价值创造活动，是普通人应当战略重视、充分掌握的最强生产力技术。这也是 openai 首次在 blog 里面用预期经济价值、人类专家工时来衡量新功能，这个改变很说明问题；
openai在agent方面的愿景是打造“超级助理”，能胜任人类专家才能完成的分析研究工作。很有可能这件事在2025年底就会发生（勿谓言之不预）;
所以，每天，deep research一下；每天，阅读一份 deep research 报告或同主题内容（例如本文）。