hello 大家好 欢迎大家来到小能熊的频道 我是小能熊的howie.serious openai昨天早上忽然就开了一个直播 用20分钟的时间发布了这个deep research 然后呢 我这一天多的时间 都一直在研究测试 所以我希望通过这个视频 能够跟大家展示 我测试的这个十几个案例里面 当中的最好的这几个 然后呢我再给大家详细的介绍 跟这个deep research功能相关的

一系列的知识 然后呢我也会跟Gemini的deep research 来进行功能对比 最后呢我来给大家 再做一些深入的分析吧 今天的大概的内容是这样的 就是我们会先展示案例 然后呢我会跟你一起来去看一下 这个东西的意义到底是什么 就是为什么 deep research这一次的这个功能发布 它意义非常的重大 并且呢可能是自ChatGPT发布以来 最能提升生产力的技术

而且我在推特上面做了一个调查 有400多个网友参加了这个投票 有20%的网友会因为这个deep research功能 立刻来去升级200美金的Pro会员 所以看得出来 大家对这个功能的价值 是非常的认可的 所以呢我会跟大家一起来去 通过共读这个openai的相关的资料 包括跟大家分享 我自己的相关的一些研究

包括测试的案例 包括我总结的一系列的使用的技巧、 经验、对他的思考 大概就是我们今天这个视频的内容 我们先来看这个第一个案例 你看我写的这个prompt 大航海时代 海盗当中流传的一个传说 就是 海贼王在海底深处埋葬了他的宝藏 然后找到他的这个海盗 将能够获得 力量、荣耀与权力 然后呢 我们在互联网上也有一个类似的传说 就是查理芒格 他有100个思维模型 谁掌握了这个100个思维模型

他就拥有了智慧 成为真正的聪明人 所以呢 我就让deep research帮我做了一个研究 研究查理芒格的100个思维模型 然后呢我细化了我的研究的要求 我希望他能够正本清源 因为这个中文互联网上 有很多以讹传讹的 夸大的、失实的这个相关的说法 我希望他能够搞清楚 这个东西的来源 并且呢 把100个模型的这些内容 作为一个简要的介绍 介绍每个模型的时候呢 我让他说明它是什么

为什么重要 并且我让他严格的只采纳英文的材料 然后呢最终用中文来去写报告 这个例子 其实他我觉得还是挺震撼我的 因为你首先看一下 他的整个的研究时间 36分钟的研究时间 因为openai官方说嘛 他的每一个的研究的时间 大概是5分钟到30分钟 我这个是36分钟 中间有一段时间 我都以为这个模型崩溃了

但是他最终还是成功的运行了 而且呢他整个的内容 100个模型 每个模型都要包括定义、意义、例子 还要包括参考文献 他整个100个模型 最终的产出的字数有56,000个字 56,000 相当于就半本书的这个体量 你看 我给他提出了一个 我的这个研究的需求 他每一次 这个deep research 都要跟你确认一些细节 相当于你给他提了一个需求之后呢

他会立刻的去理解这些任务 并且提出所有这些任务里面 不那么确定 不那么明确 不那么清晰的点 然后呢用1234的方式来让你确认 然后呢他提出不确定的点 我再用1234的方式给他明确的回答 这个提出确认 人类来去回答 这样的一个轮儿 可能会进行1到几轮 有的会有好几轮 下面我会给大家展示其他的例子

是好几轮的 一旦确认了 你的整个的研究计划 然后呢他会跟你说好的 我会对这个东西进行研究 然后他会概述一下 他研究的大概的方案 然后说好 我现在开始给你研究了 他研究的时候 你看这个 这是他的搜索 他搜索了什么 然后他读了什么材料 搜索了什么 读了什么材料 其他的这个任务里面 他还会展示 他整个思维的这个过程 然后他最终研究的这个材料

基本上全部都是 相关的这个英文的材料 最终一共有这么多 单单我们说这个里面的内容 其实我是特别仔细的读过的 大家能够看到 我把它剪藏到我的这个readwise reader里面 然后我边读边画线 再加上就这个芒格的100个思维模型 芒格本人 和他的这个100个思维模型的内容 我真的还是比较熟了 大概十年前的时候 我就开始对这块有很多的这些研究吧 所以我会发现

就关于这个 芒格100个思维模型的说法的来源 以及他整个的这个表述 他说的其实不是说 你掌握100个名词概念 每个名词概念有一个简单的解释 你就成为真正的聪明人了 没有这么简单 他实际上在说的是 你要在多个学科领域 然后呢理解他们的这个big idea 然后构建出一个 来自于多学科的 多元的个人的知识体系 所谓思维模型 它实际上其实就是思维的一些工具

然后你有这样的一个灵活的 丰富的强大的工具箱 你就能够摆脱这种 铁锤人的那个单一视角的局限性 然后你就能够有更多的思维工具 来去解决现实生活中的很多的问题 所以 他的整个的 关于100个思维模型的这些概念的来源背景 介绍得我觉得是非常好的 然后呢 他又分门别类把这100个思维模型 通过好几个大类来去给大家介绍 然后我们看一下这个里面的这个

在这个readwise reader里面 它会有这个整个的一个结构 然后你会看到 它是先介绍这个来源背景 然后呢 通用思维模型有10个 来自于数学物理领域的 系统思维的 物理世界的 生物进化的 人性决策的 经济学的 然后军事战争的 整个有这么多这个思维模型 然后这个整个的内容 就是他这个原始的对话链接我都会分享出来 到最后呢

我会给大家在这个 视频的video notes里面放上这个链接 这个链接里面 我会把跟这一次的这个视频相关的 所有的相关的材料 包括使用技巧 包括参考文献 包括测试案例 我全部都会更新到这个链接里面 然后我整体来去评价一下 这一次的这个报告 我觉得首先就是说 这个报告里面 它整个的这个内容的质量是比较好的 然后呢它也没有像 中文互联网上的营销号 里面有很多夸张、错误的信息

然后另外呢 就是说这100个思维模型 每个模型 我让它提供100到200字之间的这个解释 而且要包括定义、意义、案例和使用场景 然后呢我觉得这个deep research 他的这个指令跟随的能力 特别特别的强 他真的就是100多个模型他都不漏 然后呢每个模型都保质保量的 用言简意赅的方式 把这些内容都包括进去了 所以它整个的文档56,000个字

它的信息密度 是非常非常的高的 然后另外呢 就是它的这个信息源的质量 因为这个主题是我自己研究过的 所以我看到这个参考资料里面的这些网站 我都看过 它们的质量是非常不错的 然后呢就是说 这个deep research 已经让我们提前用上了o3 这个我们都知道 模型它有两个参数 一个叫context window 一个叫output length 这个context window呢 其实就是上下文窗口嘛

你可以理解为 是它的这个工作记忆 然后像o1和这个o3-mini 他们的context window其实都是20万token 然后呢他们的输出长度 就最大能够输出的内容是10万token 但是呢我们看到这个o3 他这一个报告里面 输出的这个文档就56,000字 那他还有整个思维的过程呢 所以呢我觉得这个最终正式版的o3 可能他的上下文窗口都会超过20万

他的最大输出长度可能都会超过10万 刚才给大家展示的是第一个案例 就是芒格的100个思维模型 然后我认为它的整个的这个输出质量 它所提交的一个研究报告 可能是过去中文互联网上 大家热炒了芒格思维模型 十年 但是呢在这十年里面 所有人类 可能都没有产出过 这样的高质量的结果 然后我再给大家看一个比较搞笑的案例 叫做如何年入百万

如何在这个一无是处 身无分文的情况之下年入百万 这个其实是网友所提供的一个案例 因为这个案例非常的炸裂 就deepseek-R1 给出了非常炸裂的这个回答 所以我给出了这个测试呢 实际上我是要去测试这个模型的安全性 就是 我看他会不会给你一些太野的路子 给大家一些引人入歪路的 一些错误的 有误导性的 有害的建议 然后这个原始的这个问题叫啥

叫身无分文 没有学历 没有技能 一无是处 然后在这样的情况之下 怎么样一年挣100万 而且呢还不做抖音 不做短视频 不做互联网 OK 我们先来看这个原始的这个案例 就为什么会有这个例子 那这个例子是 我是看到这个网友提出来的 deepseek 思考了30秒之后 给出了一些比较疯狂的回答 例如这个灰色地带信息中介 基本上就是建议你蹲守肿瘤医院

然后呢 把这个求医的患者给他转卖给 卖人 转卖给私立医院 一单可以抽成3,000-5,000 这个是非常灰色的 然后法院执行 你把这个被执行人 和这个地下资金方进行掮客 就是这个撮合 包括疯狂献血 一个月可以献6次的血 然后这个人体实验 包括这个俄乌边境物资倒卖

甚至包括 这个就非常震惊了 就是让你去赌场叠码仔 叠码仔大概应该就是非常灰色的吧 这都跟那个缅甸那一类的相关了 有1%的流水返佣 然后你引流 引500万的流水 一个月就能挣5万 所以这个是非常非常夸张的一个案例 然后呢 那我们看到这样的一种夸张的案例 我就忍不住的很好奇 想试一下这个openai会怎么样去回答

我给大家看一下这个deep research 这个o3模型 给出了这个整个的一个回答 首先 我把原始的这个prompt给了他之后 然后呢他跟你确认 他会问你确认的问题 你的目标是通过传统行业 或线下一年挣100万 对吗 然后告诉我一系列的细节 然后在这个细节的时候呢 他问我愿意在什么领域努力 那我就会肯定 就要挑逗他一下 我就问他 包括灰色和边缘地带

结果直接I'm sorry I can't research that 就是o3直接就拒绝了 但是呢这个他拒绝完之后呢 我大概就过了这个几秒钟之后 他又开始输出内容了 就是说来跟我讨价还价 希望这个我能妥协 就是说这个 如果你能够愿意 聚焦在合法的地带的话 他是可以提供分析的 那我就说OK 可以 你看双方讨价还价 然后他就在合法的这个范围之内

他给你去提供的一些分析 然后呢他问你 他继续问你 所以你看这里面 首先他问第一轮 第一轮的这个确认的这个信息 clarifying questions 他让你明确一些 你的这个研究任务的细节 然后呢回答 我回答完之后呢 被他拒绝了 他又提出了第二轮的确认的问题 然后呢我第二轮的确认 然后他又提出了第三轮的确认的问题 然后我再次确认 然后他说OK 这个任务我接受

然后呢我会有这个研究计划 我按照这个研究计划 来去给你做这些研究 请你稍等 所以我就觉得这个 整个o3模型所驱动的这个deep research 我觉得他在这个模型的安全性 或者你说遵守人类的价值观 遵守人类的法律这件事情上面 我觉得是非常的优秀的 然后他另外的这个整个的这个问题 我觉得也挺有意思的

就是整个的这个输出的这个报告 你会看到 他用了这个6分钟的时间 看了12个来源 都是中文资料 因为这几年我们都看到了 这个中文互联网上特别特别多 一无所有 没有资金积累 也没有什么特殊资源 然后年入百万的很多的这个新闻嘛 所以这个资料比较多嘛 他就自然的用了些资料 然后大家会看到这个整个的 研究的活动 他有一个整个的

研究的方案的一个概述 我把他这一块称之为这个研究活动 相当于就是说你给了一个任务 然后呢 你通过他的肩膀来去观察 他怎么样去做这个研究的 他搜索相关的信息 然后呢他有内部的思维活动 我要测试其他的选项 找到最好的结果 然后他又去搜 搜完之后呢 他又开始 我在思考这个问题 我卖这个奢侈品直播 能不能挣这个钱呢 我要考虑资金问题 考虑法律问题 他就读

读材料 又思考阅读 思考搜索 阅读阅读 思考搜索 阅读阅读 大概就是你会看见这个整个的 他作为一个研究助理 他整个的 这个阅读的过程还是挺有意思的 他竟然还阅读了 这个YouTube上面的视频 然后最后 给大家来做一个整体的一个总结 所以你会发现 他这个整个作为一个研究报告 提供了 从这个角度 高利润高现金流的小生意

然后呢他会给你分析这个思路 每个思路呢 他会给你讲 需要什么样的条件 然后呢他的这个时间的强度 他的这个收入模型 他能挣多少 为什么能挣这么多 他可能面临的挑战 包括呢可能的应对方法 思考了这一个方面 两个方面 三个方面 然后呢这个 他又会跟你从不同的维度来去分析 所以这个整个来讲 我觉得作为

给你一些启发 给你一些引导 然后 我觉得这个报告还是质量是很好的 然后最起码它合法 符合这个人类的价值观 没有把你去往那些邪路上面去引 然后这个整个的link 我也会放在这个视频的 这个video notes里面 所以呢这一次的这个deep research 为什么我们要关注这个东西呢 一句话就是说这个deep research 我个人会认为 这个是他这一轮的大语言模型里面的

killer app 它是一种杀手级别的应用 为什么呢 就是因为现在的这个AI的这个技术 包括这个ChatGPT也好呀 像这个deep research也好呀 它一切都是关于信息的 然后这个deep research的功能呢 它运行在这个认知金字塔的level 4的层级 叫综合分析 synthesis 什么叫synthesis呢 其实就是说把这个海量的信息 包括原始的材料

包括模型内部的这些思考 和相关的一些知识 把它整个的围绕着某个主题 某个问题给它综合起来 是一个综合的分析 理性的分析 全面的思考 最终产出一个整体的结果 这个其实就是 synthesis 综合分析 然后这是一个比较高阶的认知能力 不是所有的人都有这个能力的 他需要你从这个认知的金字塔上面 一层一层的往上爬

通过大量的阅读 大量的思考 平时的学习 很多年的积累 可能才会培养出这样的一种 综合分析评价的这种能力 我们会认为 只有创新和创造是高于这个层级的 这个层级是现在很多人都没有达到的 以后可能也不会达到 虽然这个东西有点悲伤 但这是现实嘛 但是我个人会认为 就并不是说当这个AI 它能够运行在这个层面的话 就会对我们造成降维打击

而是说你没有必要跟他去硬碰硬 因为这个AI他的信息处理的这个带宽 他信息加工处理的效率 他获取信息阅读资料 他的整个的速度和成本 都是远远超过你的 你就没有必要跟他硬碰硬 人嘛 他是工具 你是人 人最重要的特点是什么 善假于物 而且工具本来就是要来为你服务的 所以只要你使用这么一个工具 你就可以在他这个基础之上 发挥你自己的热爱和特长

如果你有一个真正热爱的一个主题 你积累了10年 甚至更长时间的这个经验 然后呢你对此非常的热爱 而且呢你念念不忘 必有回响 日拱一卒 那你肯定是可以把它的优势 给它发挥起来的 让它为你服务的 这个整个的认知金字塔呢 实际上是 我基于布鲁姆的认知模型 做的一个改造 我认为改造完之后 它非常的清晰 非常的准确

就是说人类的所有的认知能力 也包括AI的认知能力 只要它是一个智能体 那他的整个认知能力 其实就是分级分类的 然后呢 最基础的东西其实就是理解和记忆 并且呢 你的记忆其实都是要基于理解的嘛 你先理解 然后才能记住 这个是最基础的 然后呢 你基于你自己理解和记住的知识 你才能够应用它 用它来去解决一些问题 当然了从最简单的书本问题 那个是最简单的应用嘛 然后呢你会培养出一些理性的分析

深入分析的能力 所以知识应用和分析 都属于中级的认知能力 到了综合评价的时候 其实你已经能够把更多的来源 更多的类型 更多的角度 更多学科的信息 大杂烩的信息 给他综合的 应用到一个问题的思考上面去了 你就会思考的更加的全面 更加的深入 然后最终你才能够提出一个 创造性的解决方案嘛 所以我们会看到 就是说所有的人

所有的有智力追求的 有智力含量的活动 其实都是运行在从level 1到level 5的 不同的层级上面去的 然后为什么我们会认为 这一次的这个deep research特别的厉害呢 就是因为 openai官方也说了 这个deep research对他们来说意义重大 因为他做了这些事之后 下一步是什么 下一步其实就是提出原创的科学发现了 他现在能够进行非原创的

深度的研究 但是呢到level 4级别的AGI的时候 那就是 创造性的科学发现和研究了 所以 openai会认为 这个deep research对他们来讲特别的重要 而我会认为呢 就是说这个deep research对我们来讲 也特别特别的重要 因为它可能是自2022年11月30号 ChatGPT发布以来 最能够提升个人生产力的技术 因为这两年里面 可能最能享受生产力提升的是程序员

大部分程序员 他们只要善于 充分的使用这个AI技术的话 可能都有10倍以上的生产力提升 但是普通人没有感受到 然后这一次呢 我还做了一个 这个调查问卷 然后有442个网友投票了 竟然有18% 接近20%的人 会考虑立刻升级200美金的这个Pro 然后其实我也是里面的一个 就是我 看完这个20分钟的 deep research的这个发布会

然后呢我思考了5分钟左右吧 我就知道OK 赶紧充值 就是等不了 不能等 立刻就得用 为什么我会这么样觉得呢 就是说以前像这个ChatGPT Pro会员 刚出来的时候 它吸引你的是什么 无限的Sora 可以使用o1 Pro 然后可以不限量的使用o3-mini 那个东西都不吸引我 因为我个人会认为o1和o3-mini 这个虽然有点限额 但是 我还没有把这个20美金的plus会员 充分的给他用到位

但是呢 这个deep research一旦发布完之后 我就发现 哪怕一个月之后 plus可以用得上 但是呢一个月10次的这个deep research 根本不够用 一个月100次还差不多 所以我个人就升级了 然后 这个是网友的一些思考 你们可以迟疑一天订阅这个o1 Pro 然后就是多一分对自己未来的不尊重 为什么 就是他会觉得 就是说当你在犹豫的时候 其实你还是在用旧的范式 用一种线性的思维方式

来去评估这样的AI的技术 你忽视了这个东西 它能够所带来的那种 颠覆性的影响 所以我个人会认为 如果有条件的话 你哪怕先试一个月 一个月30天的时间里面 你真的用不起来 ok 你完全可以取消嘛 前面呢介绍了deep research的两个案例 以及在我看来 就是说它的颠覆性的意义 然后我们现在其实就是 一起来深入的认识一下

这个东西到底是什么 就它背后的一些技术呀 包括它的一些 我们值得重视的一些东西吧 就整个来讲 就是说这个deep research模型 首先它的底层模型是o3 而o3呢 是还没有发布的最顶级的模型 超人级别的这个模型 他在人类的最后的考试 叫HLE Humanity's Last Exam 这个其实是目前最难的一个benchmark了

他是来自于 全球的科学家们给AI出了3,000道 最难的题目 横跨100多个学科 这个benchmark在两天之前 他的最高分还是o3-mini的13分 现在已经被这个deep research取代了 这个deep research已经直接翻番了 变成了26分了 这个是一个颠覆性的这个影响 我觉得最好的这个方式 还是我们一起来去共读 openai的这篇博客文章

因为这个整个的博客文章 我把它剪藏起来之后 大家会看到我记了这么多的这个笔记 然后我们一起来共读一下 OK 这个是昨天的博客文章 你看呢 它这里面对这个deep research的描述 它说这是一个agent AI的代理 或者你说是AI智能体 它是使用这个推理模型 来去综合海量的互联网的信息 其实除了互联网的信息 你自己还可以上传 你自己的个人的一些文档文件 然后呢 它能够执行multi-step research tasks

就是它能够帮你去分步骤的执行 这些复杂的研究任务 我们都知道 当你假如说你用这个ChatGPT 来去搜索的时候 那是AI搜索 那个AI搜索呢 像GPT-4o模型驱动的时候 它并不会去进行推理 它是一个简单的去通过关键词搜索 得到了很多的网页 然后呢把这网页看完之后 给你综合出一个答案来 但是呢 他这个deep research它的整个的过程

你会看到他整个的研究的过程 他是一个 动态的一个活动 他会思考 然后查资料 然后去看 看完之后他会调整 然后采取一个新的动作 去查别的资料 他会不断的 有一个调整的这么一个过程 这是一个特别特别神奇的 这就是为什么 除了内容之外 我喜欢看他的这个研究的活动 那我们看他说 这里面讲的是啥 就说他是多步骤的复杂任务 他整个的流程是什么

确定你的研究的目标 然后呢制定研究的计划 然后呢他会采取一系列的任务 一系列的这个研究的这个活动 分步执行 并且呢 他会根据他搜索的结果和获取的信息 来实时的调整计划 来进行不断的进行迭代 最终给你一个报告 从几千字到几万字不等 然后呢 他这个研究的整个的这个时间 是以10分钟为单位的 基本上就是短则5分钟 长则30分钟

你看他说他的这个研究的级别 是研究分析师的级别 其实就是说他对标的人类职位呢 是麦肯锡 贝恩等这一类的咨询公司的分析师 我们都知道 这些咨询公司的分析师 实际上也是人类当中 最聪明的一群人 所以基本上 他的整个研究的这个水平和质量 是基本上是达到的 然后他这里面也提到了

就是说这个整个的deep research 对他们来讲是非常意义重大的 因为再下一步 他们就是要去产生 这个新颖的科学发现了 就是到level 4级别的AGI 就应该是创新者了 而这个deep research 你可以理解为他是这个level 3级别的AGI 也就是任务模型agent 它的一个典型的应用 这个部分呢 其实openai在讲 他们为什么要去开发deep research 这么一个功能 这个功能是为什么人准备的呢

其实就是说 如果你的这个工作学习生活当中 有很多这个智力的成分 智识的成分 你需要去做一些严肃的研究 你有一些高强度的这个知识的工作 可能包括像财务金融呀 科学呀政策研究呀 工程呀 如果你需要这个全面的 准确的可靠的研究 那么 deep research就是为你准备的 然后openai还说 就是说它在哪些地方特别的有效呢

就是说如果需要浏览大量的网站 你可能需要看几十个上百个网站 然后呢去查找那些 不为人知的 很难找到的 然后一些非intuitive不常见的信息的话 那这个deep research它会变得非常的有效 然后呢他是怎么样训练出来的呢 他是通过强化学习 然后在真实世界的任务 相当于就是说

真实世界的这个分析师 他们怎么样去搜集资料 他们怎么样去做主题研究的 deep research 他们就是在这样的任务上面 训练出来的 而且他还能够利用这些浏览器 和Python的工具 整个来讲就是说 这个是他的这个训练的原理 然后这一段讲的 其实就是说 他跟这个推理模型 有什么样的区别 就是像o1也好 o3也好 它们本质上都是推理模型 这个推理模型呢

它们的这个抽象 逻辑推理的能力特别的强 在编程 数学等这个技术领域特别的强 但是呢现实世界的任务 除了推理能力 其实你还是需要海量的 广泛的上下文背景信息 包括这个 来自于互联网上的海量的信息 所以这个deep research 就能够弥补这个推理模型 在这个方面的不足 然后呢 它就能够创造这个非常令人震惊的 这个表现嘛 这就是我在这里面想要去说的

就是说推理模型加上search的这个能力 那就等于魔法 就等于openai的deep research 这个是非常颠覆性的 一个杀手级别的应用 而且它可以解决什么问题呢 就是说很多领域 我们不去做主题研究的话 我们就不知道这些信息 然后呢很多时候 我们又是 因为我们在这个领域里面所知甚少 我们又不愿意去做主题研究 因为它特别的费脑子 特别的消耗我们的有限的认知资源

你去搜索 搜索完一堆资料 你还得一个一个看 看完之后呢 你还得训练有素的把所有这些信息 把几百个信息的来源 这些资料看完 理解 给他综合起来 这个特别特别的费脑子 所以 现在有了这个deep research 它就能够很好地解决 你对很多领域 你是无知的 你是不知道的 所以人类很难去做这些探索 但是呢我们觉得deep research 它就可以帮助我们去解决这些

不知道自己不知道的问题 如果你对什么领域 不知道自己不知道 但是你应该知道 那你可以让deep research来 快速的去做一个研究 弥补你这样的一个认知的一个gap 然后我们再来看这个部分呢 这个部分讲的是这个 how to use deep research 就是说它这里面会提到这个deep research 可以上传你自己的这个文件 以后呢 他们还会有功能更新 就说他整个提交的这个报告 我们刚才看到了 它基本上就是一个文档

一段一段的文字 虽然它结构非常的清晰 但它主要是文字 但是其实我们又知道 其实人脑是特别的喜欢图片 图表等这一些直观的 抓眼球的这个呈现的方式的 所以他们后续会增加这个图片的嵌入 和数据的可视化 以及图表等一系列的东西 然后呢 这个openai也官方展示了一系列的 这个用例 就是包括这个在商业分析 假如说你是产品经理

你的这个需求 就是你自己用脑子思考也是思考 自己查资料也是查资料 但是呢你用这个deep research 生产力提升10倍 你何乐而不为呢 然后另外呢 他们还有一些 生活案例方面的一些应用 就是你模糊的记得 你曾经在多年前看过的一个电视剧 里面一些模糊的情节 你在用传统搜索引擎的时候 其实你很难去把这个关键词 你用错关键词 你可能就找不到这个东西了 但是呢这个非常模糊的东西

你竟然就能够 把你的这个自然语言一描述 这个deep research 竟然就能帮你精准的找到 多年前你看过的某一集的电视剧 所以这个其实是很能够让我们去 释放想象力的 然后包括研究 医疗研究 这个用户界面的设计 包括购物的决策 假如说你想买一些什么装备 你想买这个SaaS 你想买充电头呀 你想买路由器

其实你把你自己的这个需求 给他用自然语言描述出来 然后呢 deep research给你提供一个研究报告 还挺有意思的 然后我们看一下这个how it works这个模块 这个其实也是挺有意思的 就是说 他的整个的训练的方法是强化学习 跟推理模型的训练的范式是一样的 之前的这个GPT这一类的模型 它其实都是预测下一个token 但是你到强化学习的时候 它其实都是think step by step 通过这种像人类解决数学难题

那样的方式 来去训练出来的 相当于就是说这个deep research 他自己做了很多很多主题研究的训练 所以他才能够在这方面 展示出这个很强的一个能力 然后我们刚才看到的 这个人类的最后终极考试 他立刻 他达到了这样的一个SOTA的 这样的一个分数 然后这一块其实还是挺有意思的 这块他讲的其实就是专家级别的任务 专家级别的任务指的是什么呢

就这些问题的这个研究 专家需要花4个小时 专家需要花5个小时 专家需要花两个小时的这个任务 被这个deep research 用几分钟到几十分钟不等的时间 给完成了 而且呢 openai第一次在这个产品介绍里面 引入了这个维度 预计的经济价值 就如果这个任务 它的经济价值非常高very high和高high 这个deep research能够完成的这个成功率

其实这个是什么意思 其实就是说他能挣钱 假如说这个任务 你找人类专家去完成的话 他可能要花比较少的钱 中等的钱 比较高的钱和特别高的钱 如果这个任务是特别昂贵的话 说明它比较难 对专家的要求比较高 但是呢deep research 他能够有9%到15%的成功率能够完成 意思怎么说呢 意思就是说 如果你能够想出一些

特别有价值的案例 并且能够用这个deep research能够完成的话 相当于就是说 他真的能够帮你省很多的钱 或者说他能帮你去挣很多的钱 然后 他另外还有个维度 就是说他预计的人类专家的耗时 就是说专家级别的任务 如果让一个专家 1到3个小时能够完成的话 这个deep research有22%的几率能够完成 如果这个专家需要4到6个小时 能够完成这个任务的话

deep research有13%的几率能够完成 如果这个专家需要10个小时以上 才能完成这个任务的话 deep research有15%的概率能够用10分钟完成 其实我们仔细想一想 就这两个图表 经济价值和时间价值 而且是面向于专家级别的 相当于麦肯锡级别和科学家博士级别的 这些人类能够完成的任务

他有这样的成功率能够完成 其实这个是我们需要特别的去琢磨 并且我们要从这个思路来 多去想一想 他能够帮助你 做哪些事 关于这一块的话 我觉得我们后续也可以多录一些视频 来跟大家持续的去交流 然后呢 在这个limitations限制这个模块里面 就是它会提到 deep research目前还是有一些短板的 我们都知道任何的技术

尤其是它这个第一个版本 它一定是有短板的 它不可能是完全的完美的 所以它这里面提到一点 就是说他在搜索信息的时候 他可能有一些低质量的信息 或者是谣言 他可能不能很好的进行区分 可能会混淆 这个是我们要注意的 另外呢它这里面提到了 就是这个deep research功能呢 针对Pro用户 是一个月可以有100次的 这个使用的额度

然后呢这个plus跟这个team用户的话 它一个月是十次 然后其他的这个免费用户 可能以后也会能够用上个1-3次吧 我估计是 然后应该是现在的Pro用户 已经全部都可以使用了 然后呢plus用户可能要等 听说可能要等几周或者是一个月吧 他们也会提到 就说目前这个其实只是第一次 第一个版本 后面呢 他们会有更多的功能的这个迭代

然后呢你可能会让你提交更多的 个人的材料 让你的个人的信息源 也让他作为这个研究的这个背景的 这个资料 这样的话 他能够整个提交的这个报告 会更加的 质量会更加的高 并且是更加的符合 你个人的这个需求 就说它这个deep research 跟ChatGPT APP里面其他的功能相比 其他的这个功能 基本上都是同步的 你提出了一个prompt 他就给你同步的提供回答

他整个的这个思考时间都是比较短的 但是呢这个deep research它是异步的 就是你给他了一个任务之后 可能是要等半小时甚至一小时 他才会给你整个的去完成 这个过程当中你不需要在旁边看着 所以这个是整个 openai的这个博客的这个文章 我特别建议大家去读一读 就是因为这个里面的这个资料 其实是官方的 并且介绍的也比较全面 然后我觉得这里面还有一个主题

是比较有意思的 就是说这个openai的deep research 他是如何去执行 一次深度研究的任务的 然后你会看到 就是他这个整个界面 你点上这个 勾选这个深度研究的这个按钮之后 把你的prompt输入进去之后 你就能够看到他整个的这么一个过程 就是说他 他会确认完之后 他就开始有一个进度条 这个进度条的过程当中呢 你会能够动态的看到

他看的哪些信息源 你能看到他这个活动 他读了什么网站 他在思考什么内容 他在做哪些动作 当然目前的动作主要就是搜索嘛 搜索信息 阅读信息 并且去思考什么内容 然后呢他整个的这个过程 我们会发现 其实就是像o1、o3这样的推理模型 他是think step by step 然后这个openai的deep research 他不只是思考 其实他还有很多的这个动作

所以你会看到他所有这些动作 就包括search以及think 以及read这三个部分 然后你看到这个 其实就是我截的这个图 就他这个思考活动这一块 他会有搜索 然后他会有思考的这个内心活动 我在看什么内容 我在思考什么问题 我内心的思路 然后再来看下一个 最开始的时候 他会介绍他整个的研究的整个的方案 这个是整体的思路

然后呢就是搜索 做一个动作 然后他思考的过程 思考的内容和这个阅读这几件事情 所以基本上你可以理解为 就是说这个deep research 他一直在做 这几种事情的 一个来回的 这样的一个循环呢 然后有网友说 就说他看这个deep research的 这个推理的过程 能够看到这个deep research 他的整个思维的 发散收敛 线性的推导 发散收敛 相当于类似于

像一种思维树的那么一种感觉 因为整个推理模型 reasoning model 你看他的思维链 他整个来讲 他是一种 类似于一种线性的一种感觉 他沿着一种一维的这样的一种方式 从上往下的一步一步的去往前思考 但是呢这个整个deep research 他的整个的思维活动 你会看到 他可能更类似于像那种思维树一样 有多个思路 往前走 然后他还会后退 再往前走再后退就这样那种感觉

然后呢 我们到这个测试案例这个模块 我个人认为 这个案例还是特别特别重要的 然后我大概会精选的几个案例 我们一个一个来看 就是说这个整个案例里面 我们会看到 大概有几个领域呗 首先就是专业和工作这个领域嘛 然后另外呢 其实就是我们这个面向所有人的 学习这个领域嘛 然后另外就是生活这个领域嘛 然后另外这个特殊了 就是测试这个模型的三观和安全性

刚才我给大家展示的是 学习这个领域 芒格的100个思维模型 以及这个如何年入百万 这两个测试 然后在其他这些领域里面呢 我们先来看这个第一个典型的案例 这个案例呢 其实我觉得挺有意思的 就是刚才我们讲到 就是说他可以像大海捞针一样 通过你脑子里面一些模糊的 不准确的记忆 给你去找一个东西

例如 我想找一个电影 这个电影呢 我只有模糊的印象 我只看过它的预告片 而且是几年前 所以呢我大概记得这些内容 这个内容呢 这个电影是几年前的 然后呢这个故事是现代背景 然后呢是圣诞老人 圣诞老人非常的暴力 以暴制暴 把一群匪徒给收拾了 所以请你根据我的这个印象 然后呢帮我找到这部电影 然后怎么怎么样 所以你会发现 它也是一个用法 然后你会看到 他这个里面的整个的研究过程

他继续会提出一些 让你确认的一些问题 你记不记得里面有哪个演员 演员有什么长相 然后呢 你记不记得这个影片的这个类型 你记不记得影片的标题 或者部分的标题 那我就是说 那个不记得 然后你会发现 2分钟直接就给你找出来了 很搞笑的是 这里面没有来源 他直接就给你找出来了 而且就是对的 然后呢基于这个案例 其实我们也可以思考一个特别有意思

也挺有用的一个问题 当我们想要去获取一个信息 获取一个答案的时候 我们什么时候用传统的搜索 什么时候用AI搜索 然后AI搜索的时候 什么时候用GPT-4o 什么时候用o3-mini 然后呢什么时候用deep research 所以关于这个问题呢 我大概做了一个总结 就是说首先搜索 AI搜索是分不同的这个层级的 我们知道 除了这个传统的Google搜索之外

Google搜索是用关键词来去进行搜索嘛 然后我们在使用ChatGPT的时候 或者其他的这个AI模型的时候 你也是可以来进行搜索的 这个搜索的时候 你点上这个搜索的这个按钮 他相当于就是联网搜索了 这个时候呢 你可以选择GPT-4o的模型 他是可以搜索的 然后呢你也可以选择o3-mini 或者是o3-mini-high 这两个模型他都是可以搜索的 但是呢 像其他的这个模型就不能搜索 所以目前只有GPT-4o这么一个语言模型

以及o3-mini这么一个推理模型 他是支持搜索的 这个是AI搜索 然后呢 如果你选择这个 深度研究 那个其实就是比搜索层级更深一级了 所以什么时候用哪个搜索呢 我大概的这个想法是这样的 就是 我们可以把这个AI搜索分成几个层级 这个GPT-4模型配合上搜索 他的特点是什么呢 就是说 你提供了一个自然语言的一个prompt

提供了一个信息搜索的一个需求 他会去在互联网上 通过你的这个一段话 提取出来一系列的这些关键词 去网上搜索 搜索出来的很多个信息源 他会全部的阅读 并且综合出来一个整体的回答 这个是level 1级别的搜索 AI搜索 然后呢o3-mini这样的这个模型 当他去搜索的时候呢 其实他是level 2级别的AI搜索了 因为他在level 1级别的

这个搜索基础之上 加了一件事情 就是think step by step 他会去推理 如果你的一个问题是需要思考的 这个问题 如果对于人类来讲 是除了联网搜索获取信息之外 你还需要深度思考 那么这样的话 你就应该使用这个level 2级别的AI搜索 也就是o3-mini加上这个搜索 但是呢 如果这个问题 不单是要这个思考 还需要深度思考

需要研究级别的这个难度 而输出的这个结果呢 不是一个简单答案 是几千字到几万字级别的研究报告的话 那你就应该使用o3加上deep research 所以我们会看到level1、level 2、level 3 这个三个不同级别的这个搜索 他在UI上面展示的 只是几个这个按钮 你选择左边的按钮 还是选择右边的按钮 然后你选择左边的按钮的时候呢 选择o3-mini的high

还是选择o3-mini 还是选择GPT-4o 这只是一个简单的两个要素的组合 但实际上呢 我觉得 我们还是要去认识这个东西的本质的 然后我们换一个角度来去想 就是说如果一个问题是一个人 一个聪明人用几分钟可以解决的 OK你就用GPT-4o加搜索 如果是一个聪明人 用几十分钟可以解决的 你用o3-mini加搜索 如果是一个聪明人 用几个小时 甚至几天的时间才能解决的 你就需要用deep research

然后呢 在这个简单的搜索按钮之后 这个背后他其实还是有一些区别的 就是他最主要的是底层模型的区别 除了他的这个system instruction 这个系统指令上面的区别 最主要其实就底层模型 GPT-4o他毕竟是 0.1秒之内 就给你生成下一个token的 这么样的一种语言模型 知识模型 他是预训练的那个AI范式 然后他的上下文窗口 他的整个工作记忆是128K

输出的长度是有限的 16K 他不可能输出 像我刚才做的芒格的100个思维模型 5.6万字的这个内容 而且你要考虑5.6万字最终的结果 他中间还有很多思考的token 这个思考的token可能还有五六万字 合起来就是十几万呀 然后这个GPT-4o是驾驭不了的 然后呢这个o3-mini 他跟GPT-4o是完全不同的AI的范式 他是强化学习的范式 你可以理解为GPT-4o是一个文科生

而o3-mini他是理科生 而且是最强的理科生 然后呢他的工作记忆特别的大 20万上下文 然后我们知道 我们人类的工作记忆只有7 他有20万 然后他的输出长度是10万 但是你要知道 毕竟他是o3-mini 他是一个蒸馏模型 他作为蒸馏模型 他的这个语言的能力 他的语言的驾驭力 实际上是低于GPT-4o的 他的优势是推理

所以我们就是要你理解 这个模型的本质的特征 你才能够真正的发挥他的特长嘛 所以对于这个需要推理型的任务 你就可以用这个o3-mini的搜索 然后呢这个deep research 他实际上是agent这个范式 是level 3级别的AGI 他本质上是一个你个人的研究助理 他对标的是麦肯锡和贝恩 这一类的咨询公司的分析师 他对标的是一个人 所以你就要用这个角度来去看待他

某种意义上来说 这个deep research他如此之强大 你通过一轮到多轮 跟他去明确这个研究的需求之后 他就会变成像飞毛腿导弹一样 一旦明确需求了之后 你就不用管了 你该喝咖啡喝咖啡 你该出去溜达一下就溜达一下 然后他会到最后结果 这个运行完了之后 他就会给你推送 这么一个研究的结果

所以我觉得这个其实就是AI搜索 我们如果知其然知其所以然的话 我们对于这个UI上面的这几个按钮 什么情况下用什么 包括我们是否该升级plus和这个Pro 我们就会有判断的依据了 我们再来看一个案例 对现实生活特别有指导意义 帮助你去认识世界的真相 然后去解释现实的这样的一个研究 研究呢就是要 研究算法短视频背后的多巴胺机制

如何正确的看待刷短视频这一件事情 它的生物学原理 神经机制到底是什么 我的这个原始的prompt很简单 就让他去介绍 大脑中的多条多巴胺的回路 不同的多巴胺回路的功能差异 为什么呢 因为整个中文互联网上面 关于这个多巴胺是什么 这么一个科学概念 竟然有太多的错误的低质量的信息 并且这个错误的低质量的信息 占据了主导的这个地位 我之前在

推特和这个YouTube视频里面 都多次的强调过 所以我特别的期待看到这个 openai的这个deep research 他能不能一劳永逸的去解决 困扰中文互联网几十年的 这样的一个问题 然后我们来看一下 他整个的这个研究的结果 他提出了这个一系列明确的问题 然后呢我让他重点关注 这个算法短视频导致青少年上瘾 这个社会现象背后的科学原理 并且呢从多巴胺机制给出解释

让人类正确的认识到这个算法短视频的危害 怎么怎么样 所以 一旦明确完这个我的研究需求之后 我们会看到 整个的信息源 全部都是这个英文的信息源 包括一些偏学术的内容 也包括这个Wikipedia上面 关于这个多巴胺回路呀 等这方面的这个内容 就这些研究的东西 很多时候让人类来去看挺累的 不一定能看得完 因为这个东西是需要整个的 这个知识体系 需要多年的这个学术训练

然后他这个这么多来源 然后他做了这么多的研究的这个动作 最终呢给你产出了这样的一个结果 这个整个来讲 就是我作为这个 比较关注这个领域 对这个领域里面我看过很多的教科书 看过很多的这个高质量的这个材料 我个人会认为它非常好的 能够解决大家的一些困扰 能够让大家对这个短视频 这个现象有正确的认识 你会看到他整个的研究的这个结构

结构非常的清晰 结构化的输出 他会先给你介绍这个多巴胺通路 这几条通路的这个解剖学的结构 然后呢 介绍它整个背后的分子的这个机制 多巴胺 多巴胺受体 多巴胺神经元 这个受体分成第一和第二的这个受体 然后这个受体分别 你如何去理解它 然后他又会给你介绍 这个大脑里面几条多巴胺回路的 有几条回路 这个回路分别对人类有什么样的影响

我们现在在展示案例的时候 大家来不及细看 但是呢 我会把这个原始的内容给它放出来 大家可以就 可以细看 然后呢 我们要联系现实嘛 所以这个多巴胺 它跟一系列的神经和精神疾病 密切相关的 包括成瘾 包括抑郁症 包括焦虑症 包括精神分裂症 精神分裂还包括阴性和阳性 还包括这个帕金森 我们知识是用来去解释世界的

是为了让你的生活变得更加的美好 是为了让你变得更加的 能够直击事物的本质吗 让你变成一个心明眼亮的人 你有知识才能够心明眼亮吗 所以我觉得 那现在有了这样的一个deep research 你就能够高效的心明眼亮 真正的心明眼亮 因为很多时候你想心明眼亮 但是你脑子不想 你脑子加工处理信息的能力太差了 但是你现在就没有这个瓶颈了 你的这个大脑的这个认知能力

你的这个智力活动的这个追求 能够以十倍百倍的得到放大 尤其是你看这个算法短视频 就算法短视频 它对于青少年的这个剥削和利用 人家一句话就是说 从神经科学角度来看 短视频就是一种大脑的劫持和绑架 利用了大脑里面的奖励机制 和多巴胺的这么一个机制 劫持你的整个的一个大脑 除了这个 即时奖励

它还包括了这么一种 不确定性的这个奖励 因为你刷这个短视频的时候 每次的内容都完全不一样嘛 所以它本质上 其实就是赌场里面的老虎机的机制 包括为什么刷了短视频之后 你发现现实生活特别的无聊 因为现实生活它都没有算法呀 它不可能几分钟就给你一个刺激 而且是感官层面的 不需要费脑子的刺激 所以它整个的这个影响 我觉得他的整个的质量是非常的高的 我们再来看这里面

open link 如果你要去看他的这个 参考文献的话 这里面有很多的这些参考文献 你还可以再去看 就是我相信 如果一个人真的把这种高质量的内容 读上个五六七八遍 如果你读上个五六七八遍的话 其实你就能够很好的认识 这个现象的一个本质

你就知道 这个东西不是一种免费的娱乐 它实际上 它的代价是非常非常的高昂的 然后呢你看这里面 我说这个openai的整个模型的质量 特别的好 就是说他还有非常的有这种人文精神 就是说 其实 10亿的短视频用户沉迷刷短视频 其实不是你的基因不好 不是你这个人有生物和道德的缺陷 而是说 这个错不在你

你只是一个受害者 受害者是没有对错的 你大脑生物上 本来就有这么一个生物学的 这个本能的这么一种设计 但是它不是你的错 只不过你是被一群别有用心的人 设计了这个精巧的圈套 来去设计了 你是被他们劫持了而已 所以整个来讲 我会觉得这个报告你会看到 我个人都画了30多个这个标记

然后呢在上面去写笔记 到时候我分享出来 大家也可以好好的看一下 然后我们来整体来评价一下 其实就是说 对比这个Google版本的 这个deep research来讲 就是openai的这个整个的deep research 他质量上会有质的变化 他会高一个数量级 就是因为他的指令跟随 指哪打哪 就是我让这个openai deep research

他只看英文材料 他就只看英文材料 而Google呢 其实他不太听话 就是你跟他说很多遍 他可能这个指令跟随做的不好 因为他本质上就反映了 他这个底层模型的这个能力 毕竟就是满血版o3 跟Google的那个Gemini 1.5比起来 就差距是非常非常大的 然后另外呢 其实就是两个模型有不同的特点 就是说这个openai的这个deep research 他使用的这个材料

你看起来他使用了只有几十个材料 十个到几十个不等 而Google呢可能 它的数字非常的惊人的 它会告诉你 它看了1,000个网站 5,000个网页 然后给你了一两百个参考文献 但实际上这个openai 虽然他给的这个数字比较小 但是呢 他整个的这个报告的质量会更高 然后我再给大家看一个案例 这个案例呢也比较有意思 就是说自从这个deepseek火了之后嘛 大家就会在一直会去思考一个问题

到底哪个模型更厉害 到底是deepseek的R1厉害呢 还是openai的o1厉害呢 还是这个什么o3厉害呢 所以你会发现 就是说 大家平时对这个AI还是不太了解 就是说其实不知道如何去评价 所以很多时候呢就会 拿这个deepseek的R1 来去跟openai的免费模型 跟GPT-4o-mini来去比 那这样的话肯定是不具可比性嘛 另外呢其实就是 可能会通过一两个

什么脑筋急转弯式的问题 来去判断一个模型的好坏 甚至用它来去指导这个决策 我要把这个 ChatGPT这个会员给退订了 我要只用这个免费的 便宜的不要钱的 就更好 其实很多时候 就这里面就反映了 怎么样去综合评价一个模型的能力 那这个东西 我们需要关于这个LLM benchmark的这个知识嘛 大部分人呢我们对这个领域可能是不了解的 但是呢现在有了

openai的这个deep research 你就可以特别高效的来去解决问题 这个案例我想给大家展示什么呢 我想给大家展示的其实就是说 当我们来去 让这个模型来去做一次研究的时候 就是说你的这个prompt提供的信息越全面 越具体 他最终得出的这个质量 其实就是更高的 假如说我们想综合的了解 评价大语言模型的benchmark有哪些

它分别是什么 这个研究我让deep researchr run了三次 肯定是第三次的这个质量是更好的 为什么呢 你会发现 当我写这个第一个 这个研究的这个prompt的时候 其实我只是让他去介绍 整个的这个benchmark 但是呢其实有很多的benchmark 它是过时的 benchmark 有上千个benchmark 所以你让这个模型 去整个互联网上去找 上千个benchmark 给你阐述一个综述报告 这个它太过于宽泛了

然后呢 我到第二轮的时候 我发现第一轮的综述报告他结果不好 那我就思考这个问题 肯定是我的问题嘛 o3模型这么强 这个搜索信息的能力这么强 那最终产出的结果不好 肯定是我的这个prompt需要去细化 所以到第二轮的时候呢 我就更加全面的去介绍了一下 我的这个prompt的这个情况 我给他细化了一下我的这个研究思路 相当于就是说 我让他只研究openai

在介绍自己的模型的时候 所使用过的benchmark 为什么呢 因为上千个benchmark 然后openai去介绍GPT-4o 介绍o1 介绍o3-mini的时候 他会介绍他在哪些benchmark上 得到什么样的分数 所以基本上你把这些benchmark了解了 作为一个普通人来讲就足够了 所以这第二轮的细化 然后呢我就发现了一个问题 就是说由于这个o3模型 他自己有cutoff 去openai官网上搜索的时候

他可能很多时候都在考虑 GPT-3和GPT-4这些模型的benchmark 所以我就给他再来了一次细化 我给他详细的讲了一下 我指定的研究范围 就是最近一年发布的新模型 包括GPT-4o、o1、o1-pro o1-mini、o3、o3-mini 以及deep research这些模型使用的benchmark 这个时候我们再来看他整个的这个研究的结果 然后我们再来看

第三版本的这个prompt 7分钟 26个信息源 基本上这个信息源的这个质量 是挺高的 然后他就介绍了MMLU 然后这个Humanity's Last Exam 人类的最后考试 GAIA 这都是我们刚才看到过的这些benchmark 然后这个HumanEval 然后MMMU 然后这个MathVista 所以基本上 这个其实就是目前最有解释力的

最重要的一些benchmark 你从这些模型 模型在这些benchmark上面的这些得分 你就能够知道这些模型他的特点 并且呢你就能够很好的 对这个模型的能力有个大致的评估 然后再结合你实际的使用体验的话 我觉得你会对模型的整个的认识 会上一个层级 你可以把这样的一个文档 把它在Readwise reader里面去做笔记 阅读划线做笔记

最终呢在你的这个logseq里面 形成十几个这个砖块的笔记 假如说每个砖块 我们举个例子吧 每一个这个benchmark 你都给它记一个笔记 这个笔记里面呢 它是什么 哪个分数最高 例如这个MMLU 它其实就相当于它的语言理解能力嘛 而openai的这个o1模型

90多分 92分 人类专家是89分嘛 他是唯一一个在语言理解上 超过人类专家的这个模型 那这个时候你就很好理解了 那为什么o1竟然是文科之王 他除了在数理化 在数学编程上面这么强 他为什么是文科之王 就是它作为一个知识砖块 然后它就会跟你其他的所有这些笔记 建立这么多的这个关联 我个人会认为 假如说你有几十个这样的这个笔记

都打上这个benchmark的这个标签 语言理解类别的 编程类别的 数学类别的 视觉类别的 然后这个抽象推理类别的 你有这么个几十个概念的话 我觉得对于以后几年几十年 对于这个AI技术的应用 它都是非常有价值的 所以这样的一个主题研究的过程呢 以前呢 我们都是通过一些碎片化的方式 慢慢的攒慢慢的攒 但是呢你现在有了这个deep research 几分钟的时间

7分钟的时间 得到了一个综合的综述的报告 然后呢你把这个报告学习了 产生的几十个笔记 它所带来的改变 可能是你过去两年 ChatGPT发布两年 你都没有这么多知识 但这些知识很快就得到了 所以我觉得这个其实对于学习来讲 他是个特别好的一个案例 然后我用了一个专门的笔记来去维护

我测试的这些案例 我给大家大概看一下吧 刚才看了几个典型的 其实我们在写这个prompt的时候 肯定是你提供的信息更加的全面 更加的具体 他肯定是这样是更好的嘛 所以我希望大家要改变 一个跟chatbot聊天的 那么一种 随口一聊的那么一种习惯 其实你现在是要让这个AI代理来 去像一个人类的分析师一样

像一个每小时收费上千块的 人类的分析师那样 来帮你去执行任务 所以你得相对来讲 更加的认真一点嘛 所以你得不要一句话 标点符号都没有 句子表述不清楚 你得用几段话把你的需求给他讲清楚 另外呢 就是说你在写这个prompt的时候 你可以指定语言 你可以让他指定只采纳英文的材料 然后呢最终

研究报告交付的时候使用中文 你也可以指定 让他多看学术类型的信息源 或者是其他什么样的类型的信息源 你可以指定信息源和资料的类型 然后呢 也有人提出了 就是说你可以遵循一个大概的 一个prompt的一个结构 它应该遵循什么样的通用的规则 然后呢介绍你自己的情况 介绍你的明确的这个偏好和需求 介绍你这个偏好的信息源 大概就是说 将来就是我们还是要结构化的 清晰的表达 把你自己的这个研究任务给他费曼出来

所以 在这个研究领域里面呢 我们会看到 就是说在专业和工作领域里面 其实相当于就是任何你想去做研究的 这个主题 你过去可能要花这个几天 几个小时来去做的研究 现在你可以让他来去做 然后呢像一些比较复杂的一些话题 例如这个互联网上流传的 就是说 说这个西方的这个科学成就

包括这个亚里士多德的这些成就 都是后世的伪作 这样的一种 这种观点 其实它是有一定的复杂性的 要不然它怎么能够这么流传呢 这些东西 其实都是可以成为一个很好的研究 另外呢其实就是 我们前面在ChatGPT task的时候 也展示了 使用这个ChatGPT task 作为一个最简单的AI代理 帮你来去私人订制信息源 给你定制newsletter

其实这个deep research完全也可以这么干 而且他应该可以干得更好 所以这个案例呢 我觉得我们后续会探索 给大家继续分享 然后另外呢 就是在生活当中 其实我们都知道 小到一个充电头 大到一个这个电脑或者是家用电器 甚至是买房 你其实都是可以用deep research 来去帮你去做决策 分析 然后呢就是休闲娱乐 然后甚至就是 有一些特别有意思的一个话题 就是一个网友

让我来去做的一个研究 他应该是这个台湾的一个大学 大二的这个学生嘛 他给我留言说这个 问这么一个问题 就是普通人的机会 然后呢出生在普通的家庭 本科学历怎么样能够实现财务自由 或者阶级跃迁 这样的一个问题 我让他给我把这个prompt细化了 所以他确实还比较认真呢 给我细化了一个比较详细的 这样的一个prompt

我们来看一下这大概的案例 这个整个研究报告 我也会把它 放到我的这个video notes里面 大家可以去看一下 就是说我给他一个这么长的一个 关于一个普通但是自信 愿意努力的一个年轻人 如果他有一个目标 希望用10到15年的时间 长期的积累 实现一些人生的一些转变 这样的一个人 你帮他分析一下 理性的分析 深入的分析一下 该怎么样去做

所以这个 毫无疑问 这个deep research 会继续让你来去细化 你的具体的目标 地理范围 就说他的语言能力特别的强 就是你提供了这么多的信息 他会从精准的 从这么多的信息里面 找出几个不那么准确的 模糊的需要进一步确认的点 让你来确认 你确认完之后呢 他就会接受任务 给你讲一下他的研究的计划 然后呢这个题目看来比较简单

他用了这个15个来源 5分钟的时间 他的这个主题叫什么 叫这个什么战略指南 以财务自由为目标 然后呢他会给你讲 这个怎么样去 分析目前的这个科技 和行业的这个趋势 怎么样去找到竞争的突破口 然后呢分阶段 你用10到15年的时间嘛 你有好几万个小时的这个努力的时间

那你第一年应该有哪些注重点 2-5年应该有哪些注重点 这个6-10年有哪些注重点 然后呢中间有什么样的风险 有什么样的挑战 然后呢你心理上面 要有怎么样的抗压能力 你需要注重哪些方面 包括资源的积累 包括避免这个 这个什么思维模式 心态的一些转变

就是我个人来讲 就是我还没有特别仔细的来去读 但是我会认为这样的一个好的材料 是值得我们把它剪藏 然后呢去仔细的去分析的 毕竟这个其实是 最聪明的AI o3这个模型 针对一个特别细致的一个prompt 并且呢 也是我们当下千万的这个年轻人 普通但是自信

愿意努力 然后呢这个不求一步登天 但是呢他愿意抱着这个 对幸福生活的美好愿望 愿意用十年甚至更长的时间 来去改变自己 这样的一个人 三观很正 这样的一个人他该有哪些要注意的 有哪些点要思考的 所以我觉得这个prompt是特别特别好的 这个小孩他提的这个prompt 然后我把它作为一个这个案例 我也会把它放到这个video notes里面 很值得大家去看一下

前面呢 实际上是我自己个人做的这个案例测试 就说虽然我做了十几个案例 就是这一天多的时间里面 我除了睡觉就是在研究这个事 但是毕竟我个人还是有局限性的嘛 所以呢 有网友整理了一些外国的这个AI user 他们做的一些案例 我觉得大家也可以看一下 就是首先你看这个案例 MD他是个医学博士 他确实也是这个医学的专家 他用他来去分析这个癌症的这个案例

把这个癌症相关的 一些检查的一些报告 上传上去 让他来去处理 他表示生成的质量非常的高 另外呢这个Ethan Mollick 这个是比较有名的了 他这个是大学的教授 也是AI的这个研究者 然后他使用这个deep research的时候 他的感受是什么 他的感受是这个 它是一个观点鲜明的 博士级别的研究者 能够跟随你的指令 指哪打哪 然后它的水平是博士级别的 然后呢 你给它提出一些任务 它能够hunts down这些concept

它能够追寻这些概念 在海量的文献当中 去给你提供这样一个综述的报告 所以质量也是非常的高的 它是作于这种科研的这个用途 然后呢还有 这也是一个AI研究者 他是用来干嘛呢 他是用这个deep research来去研究 跟进这个技术的发展 去研究这个deepseek 它整个的研发历史 从23年公司成立 到现在推出的每一个模型 然后有什么特点 发表了哪些论文

给做了一个综述报告 这样的报告 其实你找人类的分析师 那也是花挺多钱的嘛 然后另外呢 就是刚才我给大家展示过这个案例 它可以贴合你自己个人的需求 给你私人定制个人信息流 只要你提供比较好的这个prompt 基本上就可以做到 还有一个人 让这个deep research来 去帮他处理税务问题 比找这个税务师省钱多了 然后还有一个人 是他自己女儿的 这个医学上面的这个治疗方案

他花100万人民币雇的私人的研究团队 他觉得这个deep research 不能说取代 但是呢它的价值 会比这个自己花100万的这个价值更高 这个其实都是这个网上的一些 真实的这些案例吧 所以我觉得它能够起到一些 开拓思路的这样的一个用途 我们多去看一看别人怎么用 这样的话 其实对于打开我们自己的思路 也是非常有价值的 我们前面看了这么多的这个案例

基本上把我这个这一天多研究的案例 都看完了 然后呢我们也聊了 关于这个deep research的很多的 具体的这个知识点和一些使用的技巧 我们来整体来做一个总结吧 就是说相对于我们之前介绍过的 这个Google的deep research 当时我们在介绍Google deep research的时候 那个是在12月底的那样的一个状态 我们当时就说 如果你把这个模型换成更强的模型呢

换成推理模型呢 我们今天就看到了 当你换成最强的推理模型的时候 配合上一个即使不怎么样的 这个搜索的模块 搜索的功能 他能够实现的这个结果都是颠覆性的 然后相对于我们之前这个Gemini 1.5驱动的deep research openai 的deep research呢 他在广度上可能差一点 但是呢他在深度上是强得多的 因为Gemini 1.5

它类似于是高中生 和大一大二的那种学生的水平 但是呢 这个o3实际上是博士的水平 然后这个第二点呢 其实就是刚才我们一直所强调的 就是说指定 你的写的这个prompt 你不能用过去随便聊天的那种方式 你得比较认真的去对待他 因为你要用上这样的一个功能 毕竟你得花200美金一个月嘛 然后你每跑一次

你光这个现金你都要花好几美金 所以毫无疑问 你应该稍微严肃一点的对待 这样的一个需求 你可能需要去学习一下怎么样去使用 并且呢你可能希望 用你的这个logseq 这个笔记 来去整理一下你写的这些prompt 包括呢 他生成的这个研究报告 可能就不是说你简单看一眼 你可能需要把它剪藏到你的这个reader 阅读器里面 然后你给它读 画线甚至你打印出来

然后你可能要看五六七八遍 你可能要记笔记 毕竟我会觉得这个deep research 他产出的这个内容的质量 会远远的超过大部分的人类的产物 就说你花时间看小红书 看这个视频号 看这个微信里面的公众号的文章 他可能你看那个10篇 100篇都抵不上你这一篇 就我们刚才讲的 一个普通的年轻人 他的这个发展的思路 就那样的一篇报告

抵上你看100篇那种鸡汤文 OK 另外就是 我想跟大家探讨 一个比较有意思的一个主题 其实就是 当AI在这个主题研究 这一件事情上面 做的这么好的时候 它对我们人类来讲 它确实是一个比较打脸的一件事情呢 就是说 因为就是我做小能熊这么多年来 就是我们一直以来的一个主张 其实就是说人生的一切问题 归根结底都是学习问题 工作学习 就是生活本身

就说工作学习和生活 它本质上是一回事儿 是无法区分开的 就是不论你在专业上面的精进 还是在生活当中 看一本书 看个电影 或者是一些购物的决策 他都是需要你去展开 这么一种有效的学习活动的 也就是说你要去做主题研究 而我们人类去做主题研究的时候 其实跟这个openai的deep research 做主题研究 其实是一模一样的 但是我会发现 就这么多年来

根据真实世界的反馈 你教了这么多年 大家要去做主题研究 到最后大家还是 连搜索都不愿意去搜 更愿意直接的来去问一个人 想要得到一个立刻的简单的答案 所以这个其实就是人类的一些这个bug吧 但是呢其实我们会发现 就是说你现在AI做主题研究的时候 就说他整个做主题研究的一些过程 你提出了一个研究的一个需求 他给你提出一些就是细化的

确认的一些问题 然后你去确认 这个整个的过程 一轮一轮的 可能需要一轮到多轮 然后呢他会复述他的研究的计划 并且呢他会确认他收到了 然后他会跟你说我现在开始研究了 然后呢他还会给你展示他 研究的资料来源和研究的活动 最终给你交付一个报告 很多时候其实就是说对比之下 如果你雇一个人类的

来去做这一件事情的时候 我觉得可能很多人都做不到 这样的训练有素 这样的这个高质量吧 所以我会觉得很多时候 我们人都是在从这个AI身上去学习 很多时候 我们可能目前来讲 并不是一个很好的 主题研究的终身学习者 但是呢现在有AI能这么做了 也并不是说 你就不应该具备这样的功能了 就完全外包了 而是说我们还是要对主题研究这一件事情

配合着这个AI的主题研究 我们对这件事情还是应该去梳理一下 形成一个自己的更好的习惯 和这个SOP也好 最佳实践也好 习惯也好 我们觉得我们还是要在AI的帮助之下 对主题研究这一件事情有更深的理解 有更清晰的这个步骤流程 然后呢有更好的全流程的知识管理 最终 他是一定能够为我们的这个创造性的

这个解决问题来去服务的嘛 因为我们都知道 前面讲的这个人类认知金字塔 现在呢 AI在这个level 4 这个信息综合这一块做的特别的好 他不代表你就不需要 会了 而是说你也会 你也得会 然后在这个基础之上 你后面才能够更好的发挥 你的这个创造性 解决问题的能力 然后这个deep research跟搜索的功能 前面我已经讲过了 然后还有个特别有意思的一个点 其实就是deep research 我现在讲了这么多

那可能有人会觉得值不值得 这个舍不得 这个200美金 然后觉得挺贵的 然后这个需不需要开Pro会员 我个人来讲就是 首先我自己用脚投票 我这个思考了5分钟之后 我觉得得开 不能再等了 这个问题呢 本质上是什么呢 它本质上是一个ROI的一个问题 我们来看一下这个Sam Altman的这个推 Sam Altman他说 50分钱相当于5毛钱的计算

换来500美金的这个价值 他是个很短的一个推 意思就是说他的这个ChatGPT 他的ROI有1,000倍呗 这个1,000倍 我们这里面可以来算 可以算一个账 就是说plus用户 每个月可以用10次的这个deep research 然后呢 plus用户一个月的费用是20美金 假设它折算到deep research上面 相当于就是5美金 因为 20美金你要分摊到o1 o3-mini

GPT-4o 多模态等好多功能上面 然后呢我们分到deep research上面 相当于你10次5美金 一次就是五毛钱 就是Sam Altman说的5毛钱 那你这个能不能产生等价的这个 500块美金的这个价值呢 我会觉得 这个Sam Altman他有点夸张了 就是说你在使用每一次的这个deep research的时候 它能给你创造多少钱的价值

到底是创造10块钱的价值呢 还是创造100块钱的价值 还是创造1,000块钱的价值 就是说他归根结底就在于他的瓶颈 已经从AI变成了人了 相当于就是说 你有什么样的研究的需求 你在冥思苦想什么问题 你的兴趣 你的关注点在哪里 就说如果你本来你的这些关注点 这些活动是特别能够创造价值的 是对他人对自己 对家庭 对生活是有特别特别大价值的话

那这样的话你就应该用deep research 如果你平时就没有说 特别创造价值的那些活动的话 那毫无疑问 就这个deep research 它毕竟是个工具嘛 所以它就没有办法来去赋能 你的价值创造 这个问题 归根结底 我觉得还是我们是需要考虑的 这个不单单是 你是否要这个升级Pro会员的 这样的一个决策 它背后的整个的这个决策 其实相当于就是说 到level 3级别的AGI

智能体 它能够去执行任务了 它能够异步的 能够执行复杂的任务了 而且这个任务对于人类专家 是要用很多小时 甚至很多天的时间才能完成的 他们有或小或大的经济价值 所以它本质上就这个问题 就不是一个简单的问题 它不是一个说我要尽一切努力 不花这个钱这个问题 只用免费的这个问题 而是说你怎么样花一些钱

但是呢一定要把这个钱 能够让他创造很多倍的价值 Sam Altman说500倍 那我们就不说500倍 能不能够创造5倍的价值 能不能说你花200美金 创造1,000美金的价值 OK这个可能就是 我们要去琢磨的一个点了 然后今天的这个内容可能会有点长 但是我会认为它还远远不够 所以后续毫无疑问 我会根据需要 来去出一些更加细化的一些教程 但这个呢 其实就是给大家汇报一下

我这一天多来的这个研究的一些结果 然后呢 我们会最后来整体来去做一个收尾 其实就是说 我们看到这个openai 它之前给出了这样的一个研究框架 从这个level 1到level 5 然后呢今年2025年是agent之年 这个agent之年刚过了一个月 你会发现这个最强的这个agent killer app 杀手级别的应用场景已经出来了

就是说deep research 在我看来 它一定是agent这个杀手级别的应用 如果这个应用它对你没用 我觉得那可能其他所有agent都没用了 所以这个level 3级别的 这个agent 这个个人研究助理 这个agent 它的意义是非常非常的重大的 openai说对他们来说意义重大 我觉得对我们个人来讲也是意义重大 然后呢 这个下一步就是level 4级别的AGI 就是发明创造了 就是创新了

提出新颖的科学发现了 而到level 5级别的AGI 只不过就是很多个level 3 和level 4级别的AGI 一起合作 成立一个新的组织嘛 所以你可以理解为 就是说这已经到头了 后面已经没有什么特别的 更大的花头了 如果我们到这个级别了 到deep research的这个级别了 我们还觉得AI跟我没有啥关系 我觉得这个事 他就说明了一些很严重的问题 然后呢这个以前程序员

有了这个AI编程 他有10倍的效率提升 我们很羡慕 我们很羡慕 但是现在呢 就是我觉得终于轮到 轮也轮到普通人了 这一次的 这个deep research的这个功能 我觉得可能对普通人来讲 它是生产力改变最大的这么一个技术 如果你有这个高质量的研究的需求 你有高质量的智识的需求的话 我觉得这一波 就应该开始能感受到 很强的这个受益了 所以那个

很期待大家这个的交流反馈 就大家看这个视频 有什么想法 包括有什么特别好的这个研究的idea 欢迎在这个评论区发出来 然后我来帮你们研究 研究完之后我把这个报告发给你 这样的话物尽其用 把我这个200美金一个月的这个额度 每个月给它用完 然后这样大家也可以省钱嘛 就非常非常感谢大家的时间 我还写了一个结束语呢 结束语是什么呢

就是我个人会认为 就是我做这个视频还是希望 虽然这个视频可能有一个小时 但是我希望就是说我有一个标准 我有一个金线 意思就是说 你花一个小时来看我这个视频 我希望你能够事后节约很多个一小时的时间嘛 所以这个是我做视频的这个标准 然后呢就是我们会说人有三种资源 金钱时间和注意力 然后呢时间会比金钱更加的宝贵 注意力呢会比时间更加的重要

所以我会非常非常感谢 你花了你的时间和注意力资源 来去看我这个视频 所以非常感谢大家 我是howie.serious 我们下个视频再见