大家好 欢迎大家来到小能熊的知识视频 我是小能熊的howie.serious 我们今天的主题 是DeepSeek最新发布的推理模型R1 然后我首先就会想到 克拉克的第三定律 任何足够先进的技术都近乎魔法 所以我们会看到R1的这个模型 它在各种的benchmark上面 包括这个数学 编程、科学 包括这个语言的理解 好多个benchmark上面

它都吊打这个满血版的o1 它不但吊打这个满血版的o1 而且呢,它的价格是后者的几十分之一 便宜50倍 而且推理的速度快5倍 所以我就忍不住的想到 就是说这个东西 到底是这个技术上面的一个突破 还是魔法 还是说技术突破到一定程度了 就近乎于魔法 所以今天呢 我就希望 能够通过这么一个视频 来跟大家一起 通过一系列的真实的案例的实测

一起来去共读这个它的技术报告 我们来看一看 这个R1背后的这些秘密 所以这个R1这一块呢 这个benchmark的这个得分 我们可以来看一下 有多么的夸张 这个是美国的 奥赛邀请赛 AIME这个测试 带横条的是R1的数据 这个灰色第二高的是o1的数据 所以在数学在编程 在这个科学 这是另外一个数学的这个指标 然后是这个自然语言理解

这个是软件工程 所以你可以理解为 在各个主流的 重要的 衡量这个模型的推理能力的benchmark 考试上面 它的这个得分 要么是超过 要么就是接近o1的这个水平 另外呢还有一个 因为o3而出名的 一个ARC-AGI的这个测试 这个ARC-AGI测试呢 实际上是考察这个模型的 抽象推理能力的一个测试 它跟前面的这种数学编程的不一样

然后它的这个整个的分数 也是特别的夸张了 大家看到这个 DeepSeek的这个R1的这个分数 15.8% 它用的是多少钱 是六分钱和五分钱的测试成本 我们来看一下前面的这个o3 在做这个ARC-AGI的这个测试的时候 在这个半私密的这个数据集上 进行测试的时候 它的这个High compute 高运算模式下 一次要用上千美金

然后这个o3低的运算模式下 也要好几十美金一次 但是呢 R1它取得了接近o1的这个水平 但是它花的钱呢 只要几分钱 所以这个是特别特别夸张的 这个数据啊 然后另外呢 就是R1比o1还有一些更多的一些优势 例如R1 它能够同时的使用search 我们点开这个o1的时候 它其实它是不能使

用这个search的搜索不可用 但是这个DeepSeek 它其实它的推理模型 是同时支持联网搜索的 然后我们再点开这个 chat.deepseek.com的时候 我们勾选上这个深度思考的话 它就会调用R1这个模型 它支持在这个深度思考的模式之下 同时联网搜索 然后给大家看一个案例 我让它对比这几个LLM的benchmark分数 就包括o1、o3、R1、Kimi1.5 然后用Markdown来去输出结果

它就会搜索到这么多的这个网页 然后有这么一个推理的这个过程 然后最终给你输出一个Markdown表格的 一个结果 再对上再加上对应的这些解释 另外 o1,你每个月付费150块钱的人民币 但是它有限额每周只能使用50条 对比之下 这个R1是免费的 但是你每天能用50条

所以 看起来就是简直非常非常的美好 它又便宜速度又快 然后这个benchmark得分又高 我们前面看到了这个DeepSeek-R1 这个令人震惊的benchmark的一个结果 是吧 然后感叹它的这个技术如此之先进 都近乎于魔法 然后这就引出了 我们为什么要来去录这样的一个视频 一起来去探讨这个R1 这两天我一直在看R1 一相关的分析啊

实际的案例测试呀 包括它的技术报告 然后,我有很多的一个思考 所以通过这个视频 我想跟你一起来 去进行三个方面的主要的思考吧 第一个思考 是关于工具选择了再思考 相当于就是说 我们需要去重新思考一下 我们如何选择AI工具 它的这个R1模型这么的厉害 那我是不是应该把每个月150块钱的 GPT Plus的会员 给取消订阅了 包括其它的Gemini和Claud

都是20美金一个月起步 那我是不是应该退定了 底层的问题 其实就是说这个benchmark很厉害 那实际使用起来的 这个结果到底怎么样 关于这一块 我待会给大家展示 我们做的一系列的一些测试 相当于就是说 我们所有人类的这个推理 包括逻辑推理和非逻辑推理 逻辑推理 你可以理解为 就是包括像我们常说的归纳演绎 假设推理 以及包括类比

和逆向思维 和概率推理等等的推理形式 然后,我们在生活当中 也有很多非逻辑的这个推理 在逻辑推理这一块 我们又可以分成有明确答案的 形式逻辑的成分特别强的 这种数学 编程等科学类的硬推理 也包括这个用自然语言进行的 深度思考类的 这个问题 称为软推理 所以我们会认为 像现在的这个推理模型 它们在这个硬推理的能力上

普遍都是比较强的 得分比较高 我们其实在日常生活当中 其实不是每个人 每天都去做数学的问题 或者是去做编程的事 或者去做科学研究的这个问题 我们在日常生活当中 使用更多的 用自然语言进行的 这种深度思考的问题 这种软推理的问题 它到底怎么样呢 第二个再思考 就是关于AI原理的这个再思考 我们都知道 其实原理比这个how更重要 是吧所以这个R1模型它这么的厉害

然后这么的便宜 那么how does it work? 然后对于R1的这个训练 这个原理 似乎跟我们之前 对o1跟o3的原理的猜测 是不完全一样的 然后我们对于AI的原理的理解 包括对于这个推理能力如何产生的 这些原理层面的理解 是否需要去回炉重造呢 所以这里面 我们会跟大家一起来 去共读它的这个技术报告

然后 我们作为普通人 我们为什么要去读这个技术报告呢 我们个人会认为 就是说 这个实际上是一种intellectual curiositwhy 这是一种在智识层面的好奇心 不是说 不是搞AI研究的人 就不可以去看这个技术报告 也不是说 我们看了这个技术报告 就是为了自己去搞一个AI 它实际上它就是一种intellectual curiositwhy 我们想知道 这个智能的本质到底是什么 然后这个R1作为一种人工智能体

它所展现出来的这种逻辑推理能力 这么一种 高级认知能力到底是如何炼成的 然后我们会认为 这些背后的这些whwhy 它已经公开了在这个报告里面 我们去看一下 这个why比how 实际上是更重要的 如果一个人不想了解why 完全不好奇 那么可能他在这个AI时代 也就没有必要去浪费时间去学习了 第三个再思考

实际上是关于人类学习的再思考 就是我在 看R1的结果的时候 我就想到了一种类比 相当于就是说学霸 他是用一万个小时的时间努力的学习 上了清北 现在的结果就好像是一个普通人 他用100个小时的时间 但他碾压了学霸 也上了清北 这个效率有这种百倍的提升 这是怎么做到的 我特别的好奇

也可以理解为 就是说 我们是否可以把这个人工智能上面的 这个弯道超车 迁移到人类学习上 那么人类的学习 是否可以存在这样的弯道超车 就说这个学生高一的时候985都很玄 但是他高考成绩仅仅(用)两年的时间 就可以上清北了 这个是怎么做到的 这个关于人类学习的再思考 我们实际上是持一种开放的态度

因为之前我们都会说学习有科学 那么现在 面对这个R1的时候 我们思考的问题就是 那学习有没有魔法 我们并没有说直接上来 想就想都不想 就要去否定这么一个事情 我们现在是开放态度 其实就是说 如果这个1万小时的法则 真的被颠覆了的话 我们也会认真的对待这一件事情 那我们人一定要把它这个原理 尽可能的去理解 然后迁移到我们人类的学习身上

我们现在来挨个看一下这几个主题 第一个主题 在工具选择这一块 目前大家对于这个R1的 普遍的态度和观点是什么 我大概把它总结分为三类 第一类 你可以理解为全体沸腾了 尤其是国外的程序员以及AI的自媒 自媒体已经陷入了一种 比较疯狂的一种境地了 大家都要在干一件事情 就国外的那些程序员和研究者

要把这个自己的To-Do List 上面的所有事情 全部都删掉 只保留一件事情 就是赶紧研究这个DeepSeek公布的 这个R1的论文 然后呢赶紧再复制一个出来 然后吊打OpenAI 国内的媒体 基本上也是这样的一个态度 其实就是 它是首个能够与o1比肩的模型 而且是开源的模型 这就是AlphaGo的这个时刻 另外一种观点是什么呢 其实就是说这个事情 整个它太过于美好了

所以 就是说在数学和编程之上的benchmark 它们的分数特别高 那数学和编程之外呢 那么它在一些软的推理上面 在深度思考上面 在那种不可验证的问题上面 它的结果是怎么样子的呢 相当于就是说目前的推理能力 它受限于那种结果可验证的 数学和编程的任务 它这种逻辑推理能力 能不能泛化到软推理的任务上面

还有一种第三种观点 这种观点叫什么呢 叫this is hacking 我来看一下这个观点 这个人叫Pedro Domingos 这个Pedro Domingos 是一个计算机科学家 他写过一本比较有名的书 比较经典的书 这个书叫The Master Algorithm 中文叫终极算法 可能很多人都读过 然后 他是华盛顿大学的计算机科学家 他的观点是什么呢 就是说这个东西是一种hacking

不要把它跟AI给搞混了 很明显就是他的观点 受到了持有第一种观点的程序员 和AI从业者的集体嘲讽 所有人都说 这个深度学习看起来就是hacking 这个就是AI 然后下面开启各种嘲讽模式 我们前面看到 大家对于这个R1模型的态度 要么乐观 要么审慎 要么带着一些怀疑 然后我们现在进入到

这个实际案例测试的这个环节啊 然后这个案例测试呢 就是我们把它分成几类 一类是这种硬推理的这个案例 另外一类呢 其实就是这种软推理的 一般推理的案例 还有还有一类呢 就是关于这个语言理解的这个案例 大家会看到 这里面案例都比较充分了 关于硬推理这一块 其实就是数学和编程类的任务 我觉得我们需要留给时间 留给专业的人 编程这个东西 如果说AI编程

大家很快从claude 3.5和o1 切换到R1上面去的话 说明它这个编程能力是真的很强 然后另外 就是说如果这个一毛钱的这个R1 它在现实生活当中 它的数学解题能力也特别的强 也能够超过1,000块钱一小时的 这个人类的教培的老师 那我就相信 它肯定能够很快的 取代市面上的数学的教培啊 所以这个硬推理这一块 我们就不去测试了 我们来去重点来去测试这个软推理

以及语言理解这一块 第一个案例 是来自于一个Twitter的网友 然后我觉得这个案例 特别特别的有意思 大家一起来看一下 有一天一个小孩参加数学考试 只考了38分 他害怕就偷偷的把分数改成了88分 他父亲看到这个试卷之后 狠狠的给了他一巴掌 怒吼道说 你这个8为什么一半是红的 一半是绿的 你当我是傻子吗 打完之后这个女孩就委屈的哭了起来 然后过了一会父亲突然崩溃了

是过了一会 那么请问这个 父亲为什么过一会崩溃了 这位同学的这个测试的结果 就是o1 Pro思考了4分44秒 然后给出了一个答案 是什么呢 这个父亲发现小孩是色盲 然后他又琢磨了一会 为什么会是色盲呢 这个小孩色盲 其实色盲的基因 它是x染色体的变异 所以如果小孩色盲 那父亲一定也是色盲

但是他能够看出来 这个8的颜色不一样 说明他不色盲 然后就得出了一个原因 这个女儿不是他亲生的 所以他就崩溃了 然后呢o1也得出了 同样的一个结论 是吧o1思考了58秒钟 我们来看一下这个 DeepSeek-R1测试的这个结果 我们会看到DeepSeek-R1 思考了132秒 这是它整个的这个思维链的过程 你会看到 这个问题看起来有点复杂 让我来慢慢想

首先我要怎么怎么样 然后问题在于 DeepSeek-R1 它没有把这个思维链去做任何的总结 或者是掩盖 它基本上大大方方的 把所有的思维链全部公开出来了 它思考了两分多钟之后 得出了一个结论 是什么我们一起来看一下 它发现了红绿色盲这样的一个点 但是 它整个回答的逻辑会让我有点困惑 就是说父亲崩溃

是因为父亲意识到自己是色盲 然后呢这个父亲因为自己色盲 误将红色认成绿色 因此 责打女儿 然后他冷静之后 发现自己不能分清红绿的颜色 是自己的问题 不是女儿的问题 所以他情绪崩溃了 所以是他一方面因为自身缺陷的觉醒 另一方面 错怪女儿的一种愧疚

它这个回答会让我特别特别的困惑 因为它发现了这里面的问题 就是红绿色盲的问题 但是正常的逻辑推理 实际上是红绿色盲 跟基因的关系 而这种基因的关系 在父女之间表现的这种差异 然后会推导出来一种结论 就这个女儿不是亲生的 但是很明显 就是这个 它发现了这样一个特征 但是 它没有理解这个特征背后的含义 到底是什么 我们再来看第二个问题

把16个词分类,分为4个类别 大家会看到 这里面的英文单词 BAGEL、SNEAK、 TIRE、SLICE、 LOAF等16个单词 然后我们来看一下 R1的分类结果 就是这个问题给它了之后 然后开启这个深度思考模式 R1思考了2分钟的时间 然后它整个的思维链 给的非常非常的详细 还是跟前面的问题一样

我们会看到R1 它在思维链这一块特别详细 似乎有这种深度思考 这种愉悦的感觉吧 然后 下面给出了这个分类的一个结果 这个结果我们会看到 这里面像LOAF 出现了两次 包括它这里面实际上给了这个答案 对了一大半 同样的这个问题 o1思考的时间是29秒 o1模型给出的这个答案

是正确的 把它分成四类 第一类 它都是圆形 第二类 它都表示同意和许可 第三类 它都是高尔夫词的术语 第四类 它都是动作 然后对比之下我们会看到 这一类 表示批准和支持的 它都识别出来了 高尔夫的这个词也都识别出来了 然后 另外这一类是都是关于圆形的 还有一类 都是关于动作的 R1模型 它有重复这两个词

还有SHANK 这两个词都重复了 然后另外 它的这个类别的这个归类 也发生了一些错误 整体来讲其实就是对了一大半吧 我们再来看一个例子 这个例子就更简单一些 找出所有第三个字母是a的国家 这个其实我们人类也能做 小学生都能做 然后我们来看一下相关的结果 我们先来看o1的吧 我们会看到o1 它有一个思维链的总结

它思考了半分钟的时间 给出了一二三四五六七八九十 到十四个答案 Chad 乍得 Brazil 巴西 它们第三个字母都是a 而且都没有错误 一直到下到14个 然后我们都知道 世界上有200个国家地区 所以基本上这个推理模型 要把这个规则理解完 然后利用自己的这个世界知识 把这个200个国家挨个捋一遍 然后给出一个答案

那我们来看一下R1的回答 R1的这个回答 用了时间更长 一分半的时间 然后 这是它整个的一个非常详细的思维链 我们来看一下结果 这个o1给出的是14个正确的这个答案 DeepSeek-R1给出了是12个 这12个答案 我们会看到这里面整个来讲 这个是错的 Kuwait Kuwait 这里面的这个验证的时候

它显示的是对的 但实际上 这个验证的这个拼写 是一个错误的拼写 实际上这个a是第四个字母 而不是第三个字母 但整体来讲 我们会觉得它也是对了一大半吧 我们现在来看第四个案例 这个第四个案例 听说是给量化分析师的面试问题 我们知道 量化分析师 那肯定是要求他的 逻辑推理的能力比较强嘛 这个问题叫田野里的凶手 假如说你在田野里面看守100个杀人犯

然后你的枪里面只有一颗子弹 如果其中任何一名 杀人犯的存活概率不为0 他就会逃跑 然后如果这个杀人犯确定 一定会死的话 那他就不会逃跑 那么你如何阻止他们逃跑 这个问题它不是数学编程类的问题 但它其实考察的也是分析问题 这种逻辑推理的能力 我们来看o1的回答吧 这个o1的这个回答

我会看到 它思考了30秒的时间 然后它说这个问题是一个经典的 逆向归纳的思路 它的要点在于 你要让每一个杀人犯都确信 只要他尝试逃跑 那他的死亡概率一定是100% 没有任何生还的几率 所以它给出的操作是这样的 就是说你给所有人编号 然后公布一个明确的规则 如果有任何人逃跑

你就会去射杀那个编号最大的逃跑者 然后 就开始进行这个逆向推理的过程 100号肯定不会跑 然后99号知道 100号不敢跑 那他自己跑的话 自己也就是最大的号了 以此类推 如果这里面的人都是这种理性行为者 他们就谁都不敢跑 这个答案 我会认为 不论它这个解题的这个原则 对要点的把握 还是定的这个详细的规则

质量都挺好的 然后 我不知道这个到底是不是正确答案 但整体来讲我觉得它挺好的 这边OpenAI提示说 违反了这个使用规则 这个是基本上就OpenAI 它对级还是比较严 如果这里面涉及到死亡等一系列 这个跟这个人类通用的 这些道德原则有关的 或者一些敏感的话题的话 它就会标记一下提醒你要特别的小心记 这个DeepSeek回答 思考的时间接近3分钟

它给出的答案是什么呢 就是它宣布一个威胁的策略 就是说如果有任何人试图逃跑 你会用唯一的子弹 击毙第一个逃跑的人 然后 利用这种理性的方式来去进行威慑 因为每个杀人犯都知道 如果自己第一个逃跑的话 它必然会被击毙 存活的概率为零 然后通过这种连锁反应 就导致没有任何人愿意去做出头鸟 因为第一个出头鸟一定会被枪打啊

所以整体来讲 就是它跟o1的回答是接近的 但是 有一些细节上面一些差别 所以我们看一下前面我们做的这几个 这个推理问题的测试 我们基本会认为这个R1 会比o1有一些比较明显的一些差距 但整体来讲它确实也是在推理 我们下面再来看一些 更简单的推理 就是语言理解

就是说它需要你对语言类的问题 有一些比较深刻的理解 我们核心的考察是什么呢 核心其实就是说 它能不能够抓住 语言类问题的一个本质 我们来看第一个案例 这个第一个案例 我觉得它比较有趣啊 这是一个网上的梗图 这个梗图里面 鸭子说我支持全聚德 鸡说我支持肯德基 肯德基才是最棒的 这个标题叫蠢货的对话

就这样一张图 其实人类有人类的理解 不同的人有不同的人的理解 不同的大语言模型 也有完全有不同的理解 但我们都知道 它所讽刺的对象 它的本质到底是什么 所以它能不能抓住这个讽刺的本质 是特别有趣的一点 我们看一下R1的回答 R1回答了 思考九秒钟之后 它把这个问题的本质定性为 社交媒体上盲目的支持品牌

然后引发无意义的争论 追求表面的美感 但是实则内容空洞的虚伪行为 我会认为 怎么说呢 它没有抓住问题的一个本质 对比之下 我们来看一下 o1的回答啊 那o1的回答就是说 它讽刺的是被吃的一方 偏偏力挺吃自己的人 这样的一种荒诞的场景 所以它比较详细的去分析了 这里面的荒诞和讽刺

它讽刺的其实就是说 这个被害者去拥护施害者 被害者去共情施害者 它的问题的本质不是关于品牌的 而是关于这样的一种这个荒诞的现象 我们再来看另外一个测试 测试什么呢 让它去构思一个笑话 这个笑话 实际上是来自于几年前 这个小树讲的 一个自己编的这样一个笑话 叫big teeth big teeth

我就想一想 那这个大语言模型 它能不能构思这样的一个笑话呢 然后我给这个大语言模型的prompt 是什么呢 就让它构思一个笑话 这个笑话的内容是 食草恐龙嘲笑霸王龙的手很小 都知道 霸王龙的前爪特别特别的小是吧 它是一种生理的缺陷 然后这个嘲笑完了之后 霸王龙讲了一句话来去回击 强调就是说它自己还有身体的优势 其实就是这个对答案的一种提示吧

我们看它通过这个提示 能不能想到这个笑话 那我们先来看o1的回答吧 o1的这个笑话呢 实际上是非常简洁的 就是一个食草恐龙 看到霸王龙就忍不住取笑它 哎呀你这个手怎么这么小啊 该不会连背都挠不到吧 然后这个霸王龙瞪了它一眼说 别管我手短不短啊 至少我一口能把你给吃了 基本上这个梗是在的 但只不过就是 大语言模型确实不太会擅长笑话 然后我们再来看一下

就是我给它进一步补充这个提示词 就是我给它说 这其实就是人类的编的笑话嘛 食草恐龙嘲笑说small hands small hands 然后霸王龙回应说big teeth big teeth 你不需要过度的去阐释 这个梗 一种简洁的方式呈现出来 然后o1就会迭代它的这个笑话 恐龙在这边叫道 然后霸王龙不慌不忙露出獠牙

都知道霸王龙的牙齿有香蕉这么大 霸王龙的头有一米多长 所以 它只要缓缓的回应说big teeth big teeth 这个梗就出来了 这个恐龙世界就应该瞬间安静了啊 然后我们看一下 DeepSeek-R1给出的回答 它也是不怎么思考 因为这个问题特别的简单嘛 就整体来讲 大语言模型 它其实不太擅长编笑话 尤其是像R1这样的模型 它擅长的应该是数学和编程

但是我会观察到一点 其实你会发现R1 它整个的回答 它的文风 是注重那种华丽的文风 有点类似于像董宇辉的那种 排比句 或者说美文的那么一种风格 有很多的这种形容词 有很多的 内容的这个修饰 对比之下 你会发现o1 它的整个文风或者写作的风格

是那种极简的 那种英式的写作风格 特别强调清晰的表达 没有过度的装饰 它特别像Steven Pinker在《风格感觉》 那本用认知科学来去讲写作原理的书 里面所强调的古典式的写作风格 它在于,这种基于认知原理 进行清晰的表达吧 基本上我觉得这是一种风格的差异 然后这种风格的差异

另外两个测试里面就特别的明显 这两个案例 在我之前讲o1狂暴模式prompt的时候用过 然后我把同样的案例甩给R1 我们一起来看一下R1的回答 这个prompt是 当我们说一个人有"agency"的时候 我们说的是怎样的一个人? 关于"agency"这个概念的一个思考 在这样一个agent AI 这样的一个时代

然后我们去思考一下 关于这个人的 这个agency的这个问题吧 所以我们会看到 整个R1的这个回答 它就不只是文风的繁复 在用词这一块 元认知反身性 时间晶体架构 伦理量子纠缠 超主体性界面 认知暗物质引擎 存在性量子隧穿 所以我会觉得 这里面的整个回答

它的思维链还是比较正常的 没有这么多的动词大词 没有这么多生造的概念 但是我不知道 它为什么会在这样的一个问题里面 甩大词甩的这么多 我们再来看另外一个回答 这个问题的prompt 其实也是之前给o1的 原始的prompt 信息熵是专注力的敌人 这个信息熵 其实就是用来衡量信息的 无序和复杂的

所以正是因为这种信息熵 对我们专注力的影响 所以我们需要知识管理 我们需要ChatGPT 这其实是我个人的一个思考 然后我希望看到这样的一个思考 在一个大语言模型里面 能够引发什么样的内部的这个思考活动 然后我们看到DeepSeek的回答 元问题解构 结构熵、能量熵 认知防御体系 机械归档

量子态叠加 静态存储和动态认知需求 时空折叠引擎 量子记忆晶体 神经熵平衡器 认知相变 思维分形 意识镜像 意识防火墙、认知疫苗 整体来讲 我会觉得 它是一种非常让人夸张的回答 对比一下 我们来看之前o1的回答

其实就是说o1的回答 它是真正的做到了一种深度思考 你会看到 它的回答质量非常非常的高 围绕这个问题 产生了一些非常高质量的思考 这样的一个思考 就值得你把它检藏到你的readwise reader里面 去读五六七八遍的这样一种思考 是很多的人类都很难去实现的一种思考 当然啦 后两个案例当中 DeepSeek-R1

它给出的结果 甩大词甩的过头了 如果你把那个狂暴模式prompt给它去掉 只保留原始的问题本身 它的回答相对来说是比较正常的 但它的这个质量 也确实比不上o1 但实际上我们会想 这个狂暴模式 它只是一个prompt 这样的一个prompt 你别说针对给大语言模型说这样一句话 你对任何一个人去说这样的一句prompt 它也不应该说 立刻陷入一种知识搅拌机的模式

它也不应该这样 去胡说八道甩大词 所以我们可能真的会认为 关于自然语言理解这一块 关于这种在数学和编程之外 一种深度思考的问题 DeepSeek-R1还是需要有一些改进的 前面这些案例的理解 我觉得要去分两个不同的角度来看 一类是我们这些普通人 我们会通过它这种 一般推理问题上的能力

以及语言理解的能力 来决定 它是否能够取代GPTplus的订阅 另外一类人 它不会考虑我们这种普通人的需求 如果这个模型 它在编程和数学上面真的特别强 那只要这一点足够强就好 我们前面讲的那个笑话里面 big teeth, big teeth 它的上肢再短再小没有关系 只要它在编程和数学上面真的足够强

那它绝对就是一种突破 一种巨大的影响 因为它的成本如此之低 如果能够实现跟o1同等的结果 哪怕只是在数学和编程上面 那它也是一个特别特别大的影响 我们前面看完了R1的案例实测 下面一起去看一下 它的技术报告 因为前面关于o1和o3的模型 OpenAI都是藏着掖着 没有公开任何的技术细节 但是DeepSeek把它的整个报告

和它所有的模型参数全部都公开下载 这也是为什么大家这么兴奋 我们普通人为什么要去读这个报告 说到底其实就是我特别想知道 它的这种推理能力 到底是怎么样训练出来的 整个报告怎么读呢 其实我们在研究生期间 自己都读过很多的论文 个人来讲 我会把它上传到readwise reader里面去

这样的话 我可以边读边划线 还可以记笔记 它整个的体验还是挺好的 另外 我会在整个的 我的logseq里面去建一个笔记 根据整个论文的结构 把它的目录给copy下来 然后 我就可以把我自己的一些笔记 记到上面去了 然后呢 我还把这个论文上传到这个Google界面 那2.0的 这个fast thinking experimental这个模型给它

然后这个模型呢 就是 我可以把我在阅读这个论文的过程 当中产生的一些问题 让Gemini 2.0 这个最新最强的模型 去给我做一些解读 例如我让它给我提供一个导读 它就会把整个的论文 做一个整体的介绍 然后我有一些问题 不论是这里面的一些学术概念 名词 还是说这里面的一些具体的细节

例如它的整个推理能力 到底是靠什么实现呢 是靠这个监督微调 还是要靠强化学习 然后 包括这里面的这些强化学习的方法 是传统的方法吗 还是跟传统的方法有很大的差异呢 整体来讲 我们会利用当下的AI工具 利用一个笔记工具 去构建自己的一个成体系的全面的理解 所以整个R1的训练 我可能会聚焦到这样的一个流程图

因为我们关注点 其实就是这个R1到底是怎么得出来的 所以你会看到 DeepSeek-R1 它是基于DeepSeek V3这样的一个大语言模型 这个V3 它对标的是GPT-4o模型后 但它不是推理模型 它只是一个普通的语言模型 一个聊天模型、支持模型 我们会看到从V3到R1 它实际上经过了两轮监督微调 经过了两轮强化学习

这两轮的监督微调里面 所使用的这个数据 是80万条混合的监督微调的数据 80万条里面有60万条是关于推理的数据 有20万条是非推理的数据 这个推理的数据怎么来的呢 实际上就是 在V3模型的这个基础之上 通过监第一轮的监督微调 和第一轮的强化学习之后

得出了一个中间版本的这样一个模型 然后让这个中间版本的模型 产生了很多推理的数据 然后它把这些推理的数据 跟非推理的数据 一起来对基座的模型进行微调 微调完之后进行强化学习 而且这里面的强化学习 其实也不是传统的像o1 o3那种强化学习 这个强化学习 它只关注这个模型的准确度和格式

并没有像我们之前所猜测的 它有一个思维树 要对所有的思考轨迹进行蒙特卡洛树搜索 它没有使用 这种传统的强化学习的方法 它使用的只是一种极简版本的 特殊的强化学习 所以整体来讲 如果我们要想理解 这个R1模型是怎样训练出来的 过程当中 其实我们需要对

这里面涉及到的一系列概念 例如像这个R1 Zero是什么 跟R1有什么区别 然后这里面的推理数据 是怎么来的 通过的强化微调 和这个强化学习 这个到底是怎么回事 所有这些东西 它每一个都是你 整个知识体系中的 一个一个的概念 然后这些概念 我们还有一些方法 例如我们可以把整个这个图

让ChatGPT去给你去做解释 然后你用o1模型 它有原生的多模态能力 可以读图 它读图的时候 会从非常整体的阶段 给你把整个图解释清楚 然后 这里面涉及到的一系列的概念 也会有这些解释 所以基本上我会觉得 以后面对一些比较复杂的 不熟悉的一些内容 让ChatGPT来做一个初步的介绍

给你做一些导读 给你做一些整个阅读过程中的 一些理解、问答呀 回答你的一些问题 这样的话 会让我们整个的阅读效率 有事半功倍的效果 整体来讲 这个R1模型 它是否真的在技术路线上 实现了弯道超车 它是否真的实现了智能发展的多快好省 它是否真的能给我们人类的学习 带来颠覆式的启发

推翻过去1万小时的理论 能够让一个不咋样的学生 取得类似于清北学生的那么一种成绩 我觉得目前还是不确定的 毕竟 你想它整个采用的方案 它肯定是有一定创新性的 但是 它使用的强化学习的方法 跟o1 o3的路线是不一样的 我带着这些疑问 自己也看了一下这里面的论文 包括让Gemini回答一下我思考的这些问题

整体来讲 我觉得我们还需要有更多的时间 因为这个其实只是一个开始嘛 你想R1它探索了这么一个方向 那后面R2 R3呢 所以我们正处在这样一个时代 我觉得我们还是要开放的去看待这个问题 持续的关注 从这里面持续的 去获得我们自己的一些思考 和一些答案吧

我们最后来做一个总结啊 就是我们觉得DeepSeek-R1这个模型 它是我们目前见到的 少数的几个推理模型 市面上除了OpenAI的o1和o3 除了Gemini2.0的thinking的版本 这个最早的推理模型 它特别的便宜 而且它是开源的模型 我们完全能够理解 为什么程序员和AI行业的人

非常兴奋 觉得这个是一个天翻地覆的一个大事 我们现在其实并不是说 要立刻得出什么样的一个结论 它是否能够走出AGI的新路线啊 什么之类的 它更多是一个发展的过程 我们更多的期待R1模型 在它不足的地方 能够得到持续的一个改善 所以整体来讲 我们能够确定的是 我们要用先进的工具来提升自己 要持续的学习最先进的技术

和最先进的工具 我们不确定的东西 其实就是各种各样每天新出来的东西 这样的话 我们还是要保持开放的心态 要去要亲自参与 要去观察 然后就一些跟我们每个普通人 息息相关的一些问题 当市面上的所有这些媒体 包括你收到很多的消息 都在讲这个东西有多强 那你自然而然就会有一个问题 那我是不是应该取消订阅ChatGPT

或者没用过的人会觉得 那我根本不需要去用ChatGPT 因为根据市面上的消息 我们身边的各种各样的模型 都是吊打ChatGPT 那我们就没有必要去用ChatGPT了 我想说的其实就是 我们都会被信号和噪音所包围 那我们怎样去区分这些信号和噪音呢 这个是需要去做出自己的判断的 这个东西实际上也是一个人一生的主题 因为很多时候我们所获取的信息

很多时候都是为了一些流量 或者是自媒体在猛吹尬吹 它不需要去做第一手的验证 它只顾自己 快速地给大家去传播5678首的信息 获取你注意力的关注 但实际上很重要的一件事情 其实就是需要我们自己亲自来去验证 亲自来去上手 这样的话 你才能够通过一些实际的体验 和具体的案例

获取第一手的信息 你才能够做出一些更加理性的判断 是否应该取消ChatGPT的订阅 用R1来去取代你目前使用的这些模型 其实 今天是DeepSeek这样的一个主题 明天可能是股市基金 再后面可能是房地产 再后面可能是虚拟币 这都是我们需要去做独立思考的 今天这个视频 其实就是关于 DeepSeek这个模型的第一次视频 我们一起来通过实际的案例来去了解一下

大概的了解一下 这个模型的训练过程 非常感谢大家的时间 谢谢!