ChatGPT Projects：RAG 和embedding 的底层原理｜07/12 days of openai

hello 大家好欢迎大家来到小能熊的知识视频我是小能熊的老陈今天这个视频呢讲的是OpenAI 12集连续剧的第七集他发布的是什么呢其实后面从第七天开始每一个功能的发布都是我们之前没想到的因为我们之前所有想到的东西包括Sora呀 o1呀包括live video呀都已经在前面都发布完了所以我还是挺期待后面八九十十一十二的这个projects功能呢其实也是没想到

但是呢其实是一个很大的惊喜我非常的喜欢所以今天呢我会跟大家来去谈一谈这个projects的功能然后同时呢我觉得我们理解这个功能背后的why 其实是非常重要的而这个projects背后的这些技术包括embedding和rag 这些技术的原理我是想跟大家主要来去聊一聊的这个视频的前半段呢我会跟大家来去demo一下我周末体验的这个projects功能

包括上传文档呀包括管理文件夹呀包括管理对话呀包括模型选择呀然后另外呢就是后半部分我们会跟大家来谈一谈这个东西的原理而谈这个原理的时候呢我今天大概梳理了一下因为我不是用这个我的这个logseq笔记结合obsidian的展示来给大家讲这个东西的嘛所以大概我们会涉及到一系列的这些概念而我觉得如果我们在这个视频看完之后能够对这里面涉及到的一些概念呢

包括这里面一些比较重要的思想 OpenAI的embedding的技术呀和embedding背后的这个big idea 核心思想我觉得这样的话这个视频就会对大家有一定的帮助我们先来看一看这个发布的内容就是说这次发布的内容很简单哈哈每次发布的内容都很简单但是它非常的强大大家会看到这个其实就是它这projects的界面嘛这就是我的这一系列projects 你看到这里面我有一个两个

三个这么多个projects 我觉得还挺好玩的就是我做了一些实验然后呢你可以在这里面新建一个项目假如说你新建一个test 新建的这个项目之后呢你在这个项目里面你可以给他设计一个颜色来做区分然后呢这个项目里面的这个模型是可以任意的去选择的然后你可以在这里面跟他正常的对话聊天嘛但是这个你看这边projects里面多了一个项目文件

相当于你可以把你的各种文档呀图片呀和代码文件上传然后呢你也可以去添加一系列的这个自定义的prompt 自定义的指令然后呢你所有新的聊天都会出现在这里而你过去以前的聊天呢你也可以把它移到这里面的项目里面来 OK这就是这个projects的全部的功能了但是呢这个OpenAI为什么要发布这个projects呢我觉得归根结底就是因为我们以前跟ChatGPT 它只是chat

我们只是聊天然后呢我们一个主题的内容假如说一个主题跟ChatGPT聊一个idea 假如说海德格尔他提出的“向死而生”的这个思想我会跟他去持续的去追问我第一次让他去解释一下这个概念解释下这个思想然后呢我会把我的一些自己费曼的内容或者我自己脑子里面的一些想法跟他聊一聊聊完之后呢我们会跟他进行持续的追问然后呢一旦我有一个另外的一个想法了我就会开一个新的窗口

为什么呢每一个chat 就是我跟ChatGPT交互的一个最小对象然后如果是一个新的主题我一定会新开一个chat 为什么呢因为我以后不管什么时候假如说一年以后我想继续再聊一下这个海德格尔再想聊一下这个向死而生这个idea的时候呢那我肯定我就会找到我一年前的这个对话在这个对话基础之上跟他继续的去聊因为你跟他聊一个新的对话的时候呢

ChatGPT我们都知道他所做的事情只有一件其实就是生成下一个token 而它生成下一个token的时候呢它除了模型里面的万亿参数它还会考虑这一次对话里面前面的所有的内容这就是为什么我们会以对话为最小的单位每有一个新的主题我就会新开一个窗口但是呢同一个窗口里面我们不会给他放很杂的东西我们会给他持续对话因为我觉得我们人跟ChatGPT之间的对话它是非常非常有价值的然后呢我经常会把这个对话直接剪藏

然后在我的这个readwise reader里面我们继续的去画线和回味说到底真的你看剪藏过来了我就可以画线笔记很多时候我们跟别人对话的时候首先不一定会这样的卓有成效其实你就画完了之后你也记不得这个短时记忆一下子消失就过去了所以我觉得这也是一个特别有用的一个技巧然后呢我们以前都是以对话为单位的但是现在你发现不一样了我们可以以项目为单位的

还有人说这个没什么了不起不就是一个对话文件夹吗第三方客户端例如TypingMind 他们很早以前就支持文件夹了但是我想说的是 OpenAI亲自来做这个对话文件夹他却做的不一样它叫projects 所以我们来看一下这个projects里面呢一共几个主要的点它可以上传文档附件它可以自定义prompt 它可以把新对话和历史对话都给它放进去目前呢对话的内容还不会被检索到

但是我相信以后肯定是可以被检索到的然后呢还可以选择各种模型当然啦目前o1模型它只支持图片还不支持文档和联网但是我相信以后也会支持的目前呢你只要涉及到这个检索的任务它都会自动切换到4o的模型所以我们来结合我的这些实例给大家来看一下吧我们先看一个我自己的一个例子自己的例子是什么呢你会看到我把我的25万字的文稿

全部都以5个文件的形式上传到项目文件夹里面去了然后给大家看一下这边聊的内容我就问他了一句话我说你从这个项目文件当中你能知道关于作者的哪些信息然后你会看到ChatGPT生成的回答它就不是从它模型里面已有的参数里面来回答而是呢它会利用我上传的文档的内容来进行回答你看他怎么说的小能熊在GPT时代的费曼学习法简称小能熊学习法

它这里面提到什么对学习的深入探讨作者对学习有非常深刻的见解哦我当真了哦然后呢这个科学思维和跨学科背景然后呢这个重视个人知识体系的建设就是我们的这个学习方法对个人知识体系的构建是把它放到第一位了然后呢它这里面还写的非常的具体你看第三章里面的内容把这个很细节但是很关键很重要的东西被它重点提出来了然后呢这里面提到作者的逻辑清晰

引人入胜深入浅出我当真了他还提到了这个书里面引用了大量的像大语言模型的原理包括从哲学、心理学等各个角度来去探讨所以我会觉得就是说GPT它真的把我上传的25万字以飞速的时间给它看完然后呢我以后问它任何一个跟文稿有关的内容它就会直接的检索出来很有意思然后我们再来看另外一个项目我把savage的50万字的文稿

它这里面会提到说这个使用的文件数量巨大回复的质量可能较低我觉得它比较谦虚实际上回答的质量非常的高目前来讲作为一个外挂的知识库它可能是有一个容量的限制的它目前没有显示出来我觉得以后可能会显示并且这个容量应该会不断的扩大很有可能我们假如说一个亿如果他能够容纳一亿文字的或者是几千万文字的体量对于OpenAI的基础来讲这时候问题了后面我们会提到

所以我跟他来去对话的时候我会问从这些书稿当中你能得出关于作者的什么信息你看教育背景职业经历学习和思维的研究从认知心理学语言和科学教育等很多角度来去探讨这个学习然后这个教育的理念包括文化和社会的观察就是说他从这个文本当中他把这些很细节但很重要的信息他都全部提取出来了然后呢我会让他介绍

这个书里面的一个具体的知识点叫学习五元素目前这个《学习五元素》的训练营正在开展大家有兴趣可以去了解一下你看他介绍的其实非常的详细而且还有相应的来源然后呢我还让他详细的介绍整本书的理念然后呢我还让他介绍一下从书里面提取出来的案例他实际上分布在书的从头到尾的各个地方但是呢他能够很好的提取并且组织成一系列的主题兴趣的

习惯的实践的工具资源的情感的很多维度非常非常的厉害我们再来看这个事这个是我给他上传了一本书的电子版然后你会看到他这里面 RAG的提取的这个效果因为这本书它是以38个小课程的这个方式来去组织的嘛我让它提取非常的精确我让他详细介绍某一课里面的内容他介绍的内容基本上把所有的内容全部提取出来了然后我来上传一个图片让他解释

这个图片里面的内容相当于整个逻辑学的框架结构跟这本书内容的关系回答的非常好质量非常的高然后呢我又问了一个我自己的问题因为我们从小都学黑格尔的这个辩证法嘛我的意思其实就是我们实际上中国的学生都没有学过逻辑学这个是一个很大的一个问题我让他谈一谈这个辩证逻辑跟上面的整个逻辑学的体系的关系也回答的非常好所以我们这个是demo嘛我就不跟大家去谈这个具体的细节了所以我觉得就这种场景呢

其实我相信以后使用起来会非常的强大例如假如说你可以建一个project 叫我的家庭然后呢把你跟家庭相关的所有的信息水电气呀网络呀然后每次交费的信息你跟他一句话说一下他就更新了假如说你上个月这个修了什么东西或者是上个月交了这个煤气费吧然后你让他下个月提醒你我觉得相关这些所有这些信息一旦你放到这个projects里面去然后你用文档的方式来组织也好

你用对话的方式来跟他更新也好然后你就有了一个真正的助理了以后你问他我们家Wifi密码是多少或者是我们问他一下其他什么信息他就直接可以从这个项目文件里面提取出来然后直接告诉你了这不就是跟一个生活助理一样吗然后工作上其实也是这样的我举了这几个例子其实都是工作和学习的场景呢后面就看大家的想象力了嘛然后这个prompt这个东西我其实根本就不想去demo 你看我开始试验的时候昨天我都没有去写

这里面的自定义的prompt 因为它实际上跟这个任何一个GPT助理的prompt 是没有什么区别的我们来看一下这个整个项目跟这个GPT助理有什么异同你看你GPT助理其实你也是制定一个指令然后呢你也可以上传知识库然后它也有一系列的功能整体上来讲我觉得其实跟这个GPT助理还是比较像的但是它多了一个对话的这个文件夹对话文件夹是这样你在project里面进行新对话当然可能直接就能进去了

然后你也有老的对话你也可以把它转移过去假如说我这边有一个关于embedding的这个讨论这个老的对话你就可以把它移到对应的这文件夹里面去然后你点开他就进来了所以我觉得就这个功能都很好去讲如果大家以前用过GPTs的话其实就是挺像的他们都支持外部的知识库都支持这个系统指令都支持工具但是不同点其实就是模型多了你可以选择任意的模型就以前的GPTs 他就默认给你用了一个GPT-4o这个模型

但现在呢其实你可以使用像o1这样的模型了然后也多了一个对话管理的功能目前可以说projects 其实就是GPTs + 对话管理 + 模型选择然后我们觉得其实重要的还是来去谈一谈这个背后的why的问题也就是说我们希望我们不只是会用这个功能知道这功能是什么如何用我们更重要的是知道它为什么能够如此高效快速的精确的去提取你过去的所有的知识以及这个项目

它的整个原理上是怎么样它是如何运作的所以他就会涉及到很多的这个概念然后我想说的是就是我们在GPTs里面上传这个项目文件它实际上是一种RAG的技术什么叫RAG呢我们来看一下其实就是提取增强或者是说检索 retrieval嘛就是记忆的retrieval 就是叫提取嘛然后你也可以说这个电脑里面的retrieval 你可以说是检索它是检索增强的生成你可以理解为它就是把搜索跟生成这两个技术

给它加起来我们以前的GPT的生成呢你就是它模型里面有什么知识它就怎么生成而如果你使用的这个RAG技术你把你自己的文档上传上去之后呢他就会把这个文档切成一个一个的小块然后把这一个个小块一个文档块把它变成一个高维空间当中的一个数字的向量然后呢他就去检索这个向量当你去问他说你从这个文件当中你能知道

跟作者相关的哪些信息的时候他就知道你是要让我去检索这个文档而不是说利用模型已有的这个知识那模型已有的是对你肯定一无所知嘛他就会去幻觉去随机生成但是呢他先去检索的时候他就会从这个海量的数据当中去检索出精准的跟你的问题相关的那些文档然后呢基于那些文档来去给你去生成这个对应的这个回答这个其实就是RAG这个技术

所以我们会看到GPT里面的项目文件它实际上其实就是用这种方式来去自定义一个属于你自己的这个项目而RAG的这个搜索retrieval 跟我们Google里面的关键词搜索实际上是不一样的假如说我们在Google关键词里面去搜索我们假如说搜索rag 它其实就是关键词的这个搜索嘛谷歌会去匹配这个关键词嘛但是呢你在这个项目里面

让他去搜索的时候他实际上是搜索这个文件里面的这些内容然后呢他的搜索他就不是关键词的匹配我给大家举个例子就是说当你在这里面假如说我们搜索一个什么呢语言学当你在这个GPT里面去搜索历史对话的时候他的历史对话你看这里面提到的很多的这些他都没有出现这个关键词但是呢它也会精准的给它识别出来为什么呢因为GPT的搜索它就不是去关键词匹配了

而是说它去根据语义来去搜索为什么呢因为GPT模型整个来讲其实就是说它在语义理解上已经达到这种最高的水平了嘛最高的这种状态了嘛所以你在GPT里面去搜索历史对话也好还是说项目里面的搜索也好它其实都是语义层面的匹配这就非常的强大然后呢它整个的这个搜索的过程呢实际上跟一个东西密切相关叫什么呢叫embedding 叫嵌入 embedding这个东西呢

叫嵌入 embed本来就是相嵌的意思嘛它实际上是什么呢实际上就是把你的一个一个的字词句子给它嵌入到一个高维度的语义空间里面去然后呢以一种数字向量的形式来去展现出来这个呢是 3B1B那个Youtuber 他做的一个知识视频里面的一个截图实际上呢这个是ChatGPT的语义空间

GPT-3是12,288个维度 GPT-4呢是3,076个维度实际上是非常高维度超级高维度的一个向量空间但是为了给我们人类来展示嘛他就简略化的用这种三维的空间来去演示大家实际上知道这是一个只能靠想象的一个千万维度的一个向量空间在这个语义空间里面所有的字词所有的token 它都会变成一个数学向量然后呢像这个man woman nephew niece

相近的这个词语义相近的token 它们就会方向一致位置接近所以你会看到这里面的语义关系甚至可以做减法 woman减去man 相当于就是侄女减去侄儿他们这个相减的时候得到的这个向量也好然后他们就是平行的就是相似的所以你会发现GPT本质上来讲他在他的这个万亿维度的整个的模型的空间里面你跟他所有的对话他生成的每一个token

其实都是这样的一个高维度的语义空间里面的一种语义的运动就好像我们实体我们作为一个物体在三维的物理空间运动一样然后呢你所有的语言你跟GPT所有的话包括GPT生成的话假如说GPT生成的是所有不能杀死你的东西都会使你更强大它这里面的每一个句子在生成的时候都在它的这个embedding的空间里面在不断的进行运动

这就是我觉得GPT这个事情它非常非常神奇的地方非常非常伟大的这个地方所以这个embedding 其实也是非常值得大家把它作为一个概念来去在你的logseq里面去建立一下所以embedding 假如说以GPT-4为例吧它就是3,072个浮点数组成的一个数字向量来表征一个token 然后呢在这语义空间里面两个数字向量他们之间的距离呀方向呀所有这些信息就体现了

原来的这两个词之间语义上的相关度所以GPT模型它在具体的用注意力机制来去处理这些语义的关系处理这些语言文本之前它就先要进行embedding 然后呢把你的所有的文字转化成这种向量的表征然后呢再在他的高维的GPT的这个模型内部进行上万次的矩阵的相乘最终就会得出了这个东西所以我们来看一下

这个embedding背后的那个big idea 什么叫big idea呢其实就是核心的思想其实你想一个理论也好一个概念也好包括深度学习深度学习的big idea是什么很多时候大家说深度学习我知道这个词呀如果我们去费曼的时候我们除了要费曼这里面的定义具体实例的时候我觉得我们特别重要的一件事情是要去讲这个东西的big idea是什么那深度学习的big idea是什么呢就是用神经网络的方式来去模拟和创造一种人工的智能

而为什么要用神经网络的方式呢是因为我们要用模型来去模拟人脑的运作方式所以深度学习背后的整个的big idea 其实就是什么呢就是我们用数学的方式去构建的人工的神经元它跟人脑里面的生物的神经元没有什么本质的区别它们的运作原理是一样的它们都能从数据当中去主动的去学习所以像GPT这样的一个神经网络没有什么本质的区别

这个其实就是深度学习的big idea 当你从这个层面上真正的把握住深度学习的本质之后你会发现我们现在整个的AI的深度学习的革命来自于深度学习的技术那就说明什么说明人工智能去模拟人脑智能的时候他得到了非常大的进步非常的成功反过来呢为什么我一直会强调我们人的学习和教育一定要充分的去借鉴深度学习里面的进展呢

是因为我们过去人脑如何运作的时候很多实际有很多的理论有很多的说法然后我们国内的情况更多是依赖于主观经验主义嘛依赖于前科学时代的一种主观经验嘛没有什么科学概念没有什么科学理论嘛但是就是因为你没有科学理论你才会有各种教育和学习的乱象嘛才会有各种奇形怪状乱七八糟的学习方法和这个教育理念嘛但如果你用科学的光芒来去照射的话你会发现哦

那我们仍该如何学习我们应该如何教育一个孩子其实深度学习的这些原理这些技术会给你很多很多的启发最起码你知道GPT模型预训练是基础那预训练基础说明什么说明任何脱离海量阅读的学习都是违背科学的应试的方式那就是违背科学的然后你用教培的方式去学英语那就是完全错的南辕北辙你不可能通过往北去然后有效的到达南方那时候你会绕很大的一个弯子包括这个整个的GPT的模型告诉我们预训练是基础

然后呢o1模型告诉我们告诉我们强化学习是关键我们只有在预训练的基础之上形成了很强大的通用智能积累了很多的世界知识然后呢我们才能通过少而精的强化学习的后训练通过这种微调来实现这种清出于蓝而胜于蓝的效果我觉得有这种思想的指导那我在不论是自己终身学习还是在这个教孩子的学习的时候才有这种科学方法的指导嘛这就是为什么我要跟大家去分享这些东西

然后另外呢就是你会看到OpenAI 它使用了embedding的模型大家其实是可以去它的官网来去看的它官网里面都有了我这边有一个截图就是现在目前GPT-4实际上是3,072个维度然后之前呢 GPT-3的时候他用的是第二代的embedding模型维度会更高一些然后可能更贵吧 12,288个维度然后后面呢他就维度就不断的降低到1,536-3,072维度

所以整个来讲就是说embedding的这个idea也好还是RAG这个idea也好它们本身都是非常的简单但是非常非常的强大的而就是这么一种强大的思想强大的技术它最终让我们得到了这些不论是GPT里面的这种特别好用的语义搜索的功能它其实也是一种去检索这个embedding空间里面的这个内容

还是说我们现在特别好用的这个项目的这些功能这都是背后的原理我相信大家看完这个视频之后你后面再去使用GPT的这项目功能的时候就会有更深更好的理解这样的话我们用起来也会效果更好好这就是我们今天的视频的内容非常简单非常感谢大家的时间谢谢拜拜