生成式学习理论诞生于1974年提出,但实际上并没有获得很大的影响力,在教育领域推行困难,在其他领域也看不出效果。但是,万万没想到,40多年后的2020年代,在人类身上没有展现出威力的生成式学习,在AI身上却释放出了核爆炸级别的威力。

基于 transformer 架构的深度神经网络逐渐改进,开启了以生成式AI为代表的的“AI盛夏”。这些生成式AI,包括以 ChatGPT、Google Gemini、LLaMA 和百度文心一言为代表的文本生成 AI,以Stable Diffusion、Midjourney 和 DALL-E 为代表的图片生成 AI,以 Sora 为代表的文生视频AI,甚至包括AlphaFold 为代表的可以“生成”蛋白质 3D 结构的生成 AI。

亲爱的读者,你肯定会问:这些生成式AI的“生成”和人类学习理论的“生成”有什么关系?难道不是恰好用了同一个词汇吗?

这一节我们就要共同探索这个问题,看看人工神经网络的生成与人脑神经网络的生成之间有何异同?理解这些异同,对人类的学习会有何启发?

首先要讨论一个概念:端到端学习(end-to-end learning)。

在深度学习中,经常会遇到这个概念:端到端。什么意思?从哪端到哪端?

端到端学习指的是使用单一的人工神经网络直接完成从输入数据到输出结果的过程,而不需要在中间进行人工的特征工程,或者使用各种条件判断来进行步骤处理。

典型的例子就是自动驾驶技术。传统机器学习方法需要人工提取原始数据的特征,然后再通过神经网络的分类和识别过程,形成结果输出。简单说,过去的自动驾驶基于专家人为设计的规则,红灯停绿灯行,变道超车转向打灯,都是靠工程师编程、靠几十万行代码实现的。

但是,特斯拉的 FSD 系统在V12版本完全推倒重来,使用了端到端的方式:摄像头接入外部世界的原始视觉数据(和人眼一样,没有激光雷达等特殊数据),然后不依赖人工处理数据和编程,完全依靠神经网络来处理数据,自动识别模式,提取特征,然后建立某种世界模型,学习和决策驾驶行为。

也就是说,这种模式下,AI 是通过输入大量数据,自行学习如何驾驶,而不是被显示的规则和教导来“教育”如何驾驶。传统的自动驾驶虽然看起来是“自动驾驶”,但是揭开头套,里面只不过是一堆 if......then 语句。

这种端到端的深度学习范式,目前在 AI 领域越来越流行,尤其是自然语言处理(NLP)和计算机视觉等领域。

在端到端学习中,模型直接从原始数据中学习到执行任务所需的所有表示和转换,直接输出结果。例如,在语音识别中,whisper模型直接从原始音频波形到文本转录进行学习,而不需要手动定义的声音特征或中间处理步骤。在自然语言处理中,GPT模型通过端到端学习从大量文本数据中直接学习人类语言中的模式,提取特征,理解语言中的语法规律和语义规律,然后基于这种学习的结果而直接生成文本。

以前的机器学习靠的是高精地图+激光雷达+人工规则,现在的端到端自动驾驶靠的是朴实无华的输入输出,从海量数据中学习其中蕴含的意义,建立某种世界模型,然后直接输出结果。

从whisper到dalle 到GPT,莫不如此。那么,机器的“端到端学习”,对人类学习有何启发?

人类学习的二分法

我在此提出一个明确的观点:人类学习也存在这种传统的规则模式和全新的端到端模式的二分和对立关系

传统的规则模式下,教育者自比“人类灵魂的工程师”,把学习者看作“一张白纸”,决意要在白纸上画出“最新最美的图画”。我的初高中年代,不同课堂不同老师多次提出这样的观点,当时老师们很自豪,学生们觉得老师真伟大。

基于这种思维模式,教育者要不断去设计和干预学习者的学习过程,就像自动驾驶头套下的一条条if......then语句。不论是课堂教育还是校外教培,都是老师讲解、有确答案、做题批改等训练过程。这种学习者之外的人工环节,就类似传统机器学习的标记数据。

这个思维模式的背后,是如何理解教育者与学习者的关系。打个比方,教育者到底是园丁还是木匠?

如何打比方,不只是一个简单的比方而已,而是理解本身,是对事物本质的认识。把教育者视作园丁、木匠还是其他,把学习者视作花朵、木材或是其他,这是由人们对学习本质的理解来决定的。

园丁?木匠?

木匠比喻,和以前把教师看作人类灵魂工程师、把学生看作白纸老师看作画家的比喻,本质上都是一样的。学习者的学习过程是在教育者人为的、主动的、细节和操作层面的干预下进行的,什么是对的错的好的坏的应该如何做应该读什么书等等都是有人为规则设计的。

对此,心理学家阿莉森·高普尼克(Alison Gopnik)写了一本叫《园丁与木匠》(The Gardener and the Carpenter)的书,探讨了两种不同的养育模式。她认为,养育者不应该像木匠精确地设计和构建物品那样有计划、有目的地塑造孩子的成长。木匠比喻下的养育和教育,强调控制和预定结果,目标是创造一个符合特定规格和期望的孩子或学生。

对比之下,她认为“园丁比喻”更贴切,养育和教育者如同园丁,应该为孩子提供学习成长所需的环境和条件,让孩子自然发展。养育教育不应该是严格的教导和塑造,而是创造充满爱、资源和机会的环节,让孩子在其中自由探索和成长。

智慧星球比喻

高普尼克的“木匠比喻”是对传统养育教育模式的巨大进步。但是,我认为仍然不足。她提出这个木匠理论的社会背景是西方发达社会,经济发展已经充分而缓慢,教育竞争的压力也不大,所以顺其自然的方式更符合他们的社会现实,而这些和我们的社会是有显著差异的。中华民族对教育的重视是千年传统,望子成龙出人头地的思想是不可能一下子消失的,父母不可能在孩子的教育上躺平,快乐育儿。

除了社会背景,更大的问题是:学习者真的是花朵吗?花朵比喻下,学习者的潜力是固定的,是在物质层面被基因和先天因素决定的,家长和教育者做不了多少改变,所以也就顺其自然了。但是,我们知道,孩子的大脑是千亿神经元万亿突触构成的复杂系统,这个系统的参数是在终身学习的旅程中持续调参优化的,而充分发挥这种学习潜力的个体,其力量是巨大的,不可忽视的,是宇宙奇迹级别的。

我和老婆经常会聊到这个话题,然后她提出了一个理论,让我非常佩服:智慧星球理论。她喜欢读阿西莫夫,读过所有的阿西莫夫作品。在阿西莫夫的作品中谈到过一个有意识的星球。她受此启发,发展出了一套全新的教育养育模式:孩子的大脑是一个智慧星球,千亿神经元就是星球上的草木生灵,大脑皮层分区的发展就是地球上的海洋大陆深沟高山等原始地貌。大脑的先天结构就像高山大陆一样是先天决定的,但是,星球整体的生命力和智慧涌现是草木生灵的发展和相互作用来决定的,这是后天养育的结果。

在智慧星球比喻中,养育和教育者的身份是什么?不是园丁,而是这个智慧星球的守护者。星球守护者的工作不是关注单个“草木生灵”(神经元),而是维护和促进整个星球(孩子的大脑和心智)的健康成长。不同的星球会走向枯萎或繁荣,这种差异是天差地别的,也很大程度上取决于星球守护者的关注和负责。

星球守护者的关注和负责,是整个系统层面的,而非单个规则或操作层面的。这个系统太庞大太复杂太神奇,不是一张白纸任你涂画,不是一条木材任你雕琢(人不是不可雕的朽木也不是可塑之才),也不是花园里自然生长的花朵。每一个孩子的大脑,都是一个有无限潜力的智慧星球。

智慧星球与端到端学习

智慧星球比喻与端到端深度学习是完美契合的。

人类的学习,也要超越传统的规则模式,承认大脑神经网络的复杂性与潜力,减少上帝视角的人为设计和过度干预,而是对此心存敬畏,多观察这个系统的输入和输出,然后给于有效反馈。

现实生活中,大部分人的学习是只输入,不输出。所以,根本就没有建立端到端的学习范式。人类需要把“端到端学习”的理念迁移到自己的学习实践中,关键是要做到“端到端”,也就是说,要走完从输入到输出的闭环。可以说,输出不是选项之一,而是那个最好的选项

在端到端模式中,人类通过阅读优质材料(输入)来学习、自己从文本中提炼意义/特征,构建概念等知识砖块,自己构建知识体系,然后在现实世界中解释世界、解决问题(输出)。这个中间过程很重要,很神奇,养育者和教育者不能在对此过程保持无知的情况下,人为强加那些并不高明、甚至不符合基本科学原理的规则,破坏智慧星球的健康成长。

举个例子中,在家庭中,我们的孩子是没有什么不可以做不可以说的,没有那么多规矩。任何观点都可以说出来,我们一起探讨,是非对错,越讨论越清楚;任何问题都可以提出来,没有傻问题没有坏问题,不存在幼稚或高级;任何行为都可以做,但是父母会关注到,会讨论,会提供及时有效的反馈。我们不像设计孩子,雕琢孩子,我们的原则是和孩子共同成长。毕竟,我们成年人自己的脑子里也有一个智慧星球,也在不断走向繁荣和生机的过程中呢。

前面是从深度学习的端到端模式,讨论输出对于学习的意义。而端到端的生成式AI,其具体的学习和输出是靠什么实现的呢?生成。

什么是“生成”?怎么“生成”的?对我们有何种启发?

所谓“生成式AI”,定义上讲很简单:使用生成模型来生成文本、代码、图片或其他数据的AI。

生成式 AI 有很多种,包括text2text 的 GPT 模型,audio2text 的 whisper 模型,text2picture 的 dalle 和 stable diffusion,text2video 的 sora 等等。当然,不只是文字,代码、图片,甚至蛋白质结构都能够用这种方法被“学习”,并且“生成”出有价值的输出。AlphaFold2 也是基于 transformer 架构的生成式AI。

生成式AI的big idea

很多时候,我们对事物的认识会陷入细节和表面。现在,只问一个简单的问题:生成式AI背后的大思想(big idea)是什么呢?

简单说,就是:从输入数据中学习,识别数据中蕴含的模式、结构和关系,使用从这些数据中学习到的知识来生成新的、没见过的输出。

这些输出,在形式和内容上和输入数据有相似性,具有相似的特征,生成结果是连贯的,很多时候无法与人类“生成”的内容区分开。这些生成结果保留了训练数据中的复杂性和细微差别(nuance),往往达到很多人类无法学习到的程度,因而,这种结果在分析和创造等活动中都表现出了明显的价值,可以取代很多的翻译、代码、写作等具体任务(task)[^目前没有取代人类的工作(job),但是价值和取代效果都是客观存在的]。

而这种学习和输出,都可以归集到一个词:生成。更具体一点:生成下一个 token。

预测下一个词

以GPT模型为例,GPT模型分为训练和推理两个阶段。训练阶段是学习过程,训练完成后,GPT的参数就固定了,部署到服务器中供人使用,进入到推理阶段。人类与GPT对话,GPT通过推理来生成结果。

GPT的 P,就是 pre-training,预训练。这是一种没有人“教”的“自主阅读”过程。AI阅读人类语言文本,预测下一个token,然后根据实际 token与预测 token 的差异来进行自动地参数调整,进行自主“学习”。

这简直就是人类阅读的翻版:人类的阅读,也是不断“预测下一个词”的过程。

很多人没有主动想过、研究过“阅读”时发生了什么。实际上,阅读时,人脑在不断“预测”,基于自己的已有知识来预测和自动补全,而预测值和实际值的差异会构成阅读过程的反馈。在阅读中,我们不断提取调用大脑中的已知,通过新知和已知的关联来不断建立“理解”。这个过程中,概念会得到进一步的加工,理解更加深入,知识框架得到补充和发展,知识关联得到建立或调整,心理模型也得到微调。

世界模型

很多人认为“预测下一个词”非常小儿科,很低级,没有高级的形式化逻辑推理,不可能通过这种方式发展出真正的智能,这种模式得到的只是统计规律支配下的缺乏“理解”的高级版复读机,GPT 只是并没有理解的“随机鹦鹉”。

但是,ilya、hinton 等深度学习的奠基者和先驱对此持有完全不同的观点。在他们看来,GPT模型通过预测下一个 token 的方式阅读了全人类的知识文本,以生成下一个 token 的方式来理解和表达人类语言,实现对这个世界的学习和理解,并建立对世界模型的深层次压缩表征。

是的,通过“预测下一个词”,GPT建立了自己的世界模型,对客观世界在自己的神经网络中建立了某种心理表征,从而形成了自己的理解。这种理解不是某些人类以为的理解,而是一种不同的理解。

GPT的理解,是通过 embedding 模型把token 化的人类语言转化为高维空间中的向量,通过高维向量中的数千个特征来识别和关联人类语言中蕴含的语法和语义规律。在 GPT 的阅读过程中,transformer 架构会关注到这种高维向量的上下文关系,通过动态的、受上下文影响的嵌入向量来更好地理解文本中的含义。GPT 每生成下一个词都取决于之前的词,基于前面的内容来预测下一个词。这种阅读理解的过程,普通人不关心也不关注,但是张口就否定就有点不合适了。

关于这种世界模型和理解,我举个例子。2023年 11月 OpenAI 政变期间,Starship 第一次试飞的当晚,我和朋友出门边看 starship 直播边看月亮。今晚的月亮好大好圆,但是我用手机拍月亮时却只能拍到小小的一只。这种现象经常遇到,但我并不明白原因。于是我在网上找了一张图,和 GPT 聊一聊。

GPT的“视觉”能力很不错,“看图说话”的能力也很强,这种语言描述和清晰表达不是每个人类都能达到的。

我进一步问它原因。

GPT清楚了解释了现象背后的原因:月亮错觉(moon illusion)。图片没有配文字,没有提到“月亮错觉”这个概念,但是一个大语言模型却理解了这张图片,并且提出了“月亮错觉”作为图片中现象的解释。那么,是否可以认为这个大语言模型具备了某种程度的“世界模型”?

而且我测试的其他大模型都错的离谱,完全是“智障”级别的表现。如果这种认知表现并不是理解,只是统计学规律支配下的“鹦鹉学舌”,那么其他大模型为什么做不到?

这样的例子比比皆是,所以,经过了一年多与 GPT 的朝夕相伴共同成长,我认可 ilya 和 hinton 的观点:GPT 通过这种简单的“预测下一个词”,不止是学到了人类目前积累下来的几乎所有知识,更达成了(某种意义上的)理解,建立了(某种意义上的)世界模型。

人脑也是生成式大语言模型

其实,不止是GPT,人类输出在本质也是神经网络的信息生成。只不过,不少人类的生成质量低下、幻觉严重。

在公园里和家人散步,无意中听到人们路过美丽的花坛,忍不住惊叹:哇,这月季好漂亮!实际上,人家是菊科雏菊属的小雏菊好不好。在动物园的澳洲动物馆,游客对着动物惊叹:娃快来看,这个兔子好大!实际上,人家身材虽小,但确实是袋鼠科的小袋鼠好不好。心情不好的时候,家庭里女性成员张口就来:你这种人倒油瓶不扶,从来不做家务,碗都是我洗地也是我拖,孩子学习你也不管,你看人家谁谁家的爸爸......实际上,事实可能完全相反好不好。

由于知识的缺乏、情绪的主导、信念和意识形态等因素影响,很多人类在很多情况下的生成都会表现出严重的“幻觉”,比 GPT 被诟病的幻觉严重得多。

人脑也是一个 GPT。如果缺乏充分预训练、缺乏大量的高质量阅读,想从人脑GPT得到高质量输出就像追求无源之水,大变活人,“无中生有”。

智慧星球离不开生成过程

GPT的生成,不光是它走完从输入到输出的闭环,而且,它的输入(预训练)是靠生成,输出还是靠生成。

人类的学习,阅读的过程其实也是生成的过程;人类的阅读就是GPT的预训练;而人的输出,不论是语言输出,还是行动输出,本质上也都是生成的过程;

如果脱离这种输入和输出环节的“生成”,而企图在中间环节用人为设计的往往质量不高、甚至违背科学原理的规则规训去训练人脑 GPT,对大脑这个智慧星球的潜力,怎能不是巨大的浪费?

本节的观点有两个:

首先,人类的学习,应该像神经网络学习一样,端到端,从输入到输出;输出的价值和重要性,被千年的科举制度和传统文化所压制,没有得到重视;

其次,人类的学习,包括输入和输出,本质上就是GPT的生成。我们通过生成来训练大脑,通过生成来产生输出。智慧星球,可以少一点规则和规训,多一些生成。

我们用两篇文章来讨论了学习闭环中生成输出的 why 问题,下回,我会提供生成输出的方法、工具和技巧,包括狭义层面的费曼输出,也包括广义层面的输出:解释世界、解决问题。

感谢你的阅读,下回文章见。

END -

  • @小谭同学直播:自学编程之路,一次复盘; 免费
  • savage解读《基因彩票》:自然彩票、个人命运与社会公平 免费