图文

手机观看

曾经,人与人之间的差距是财富和社会地位决定的,人们用“阶层”来描述这种差距。财富和社会地位的差异,基本遵循“富者愈富”的马太效应(mathew effect),表现出 “阶层固化”的特征。

但是,在有限的社会阶层流动性之中,尤其是在机器展示出强大认知能力的AGI时代,人与人之间的鸿沟将越来越由学习能力,尤其是[[元学习]]能力决定。我称之为”[[学习鸿沟]]“(the learning divide)。信息输入的质量是学渣与学霸之间的第1道鸿沟,而对信息输入的编码能力,则是第2条鸿沟。

信息输入之后,紧接着就是“理解”问题。没有理解,学习闭环中后面的构建知识体系、知识内化以及学以致用、行动输出等环节,就成了无源之水,寸步难行。

本节的目标,就是和你彻底搞清楚学习闭环的编码环节。

在上文中我提到,我会使用“编码”而非“理解”这个词汇。原因是人们谈到“理解”一词时,往往对“理解”这个词有着不同的理解,对“理解”的定义和内涵不经思考。

在日常生活中,当我们使用“理解”这样的词汇时,往往不经定义。课堂上,老师说,你不能死记硬背,你得理解!问题是,什么是理解?什么是不理解?如何理解?

语文课堂上多年来都在教“阅读理解”。但是,似乎从来没有解释清楚“理解”的内涵,没有提供落地的理解方法。学习了多年的“阅读理解”,做了多年的阅读理解题,最后只是背诵阅读理解题的标准答案。

人们甚至无法针对“什么是理解”达成一致。当 ChatGPT 生成质量上明显优于人类的文本时,有的人类坚持认为机器生成的内容,它不“理解”。那么,到底什么才是“理解”?

与其一起迷失在模糊词汇中,不如直接用一个清晰的科学词汇。这一篇文章,我们可以来深入探讨“编码”这一概念,以及它在小能熊学习闭环的具体定义以及内涵了。

“理解”的范式转换

2017年,Google的AI科学家发表了一篇名为“attention is all you need”的论文。这篇论文的标题很奇葩,看起来像一个互联网 meme(梗),事实上也差不多:论文标题套用了 beatle 在 1967 年发布的专辑名称《all you need is love》,作者就是觉得这样很有趣。

beatles, 1967

似乎这样“整活”还不够,作者还用了“transfomer”(变形金刚)来命名本论文中提出的深度神经网络架构。transformer一词,你可以理解为加工处理信息的信息“变换器”,也忍不住想到更大名鼎鼎的变形金刚。这些AI科学家们,玩梗玩到飞起。

谁能想到,6年以后,因为这篇论文,因为 transformer 架构,整个AI 世界发生了天翻地覆的巨变。事实证明,transformer 不是一个简单的AI 架构,而是一个近乎通用的“大一统AI架构”,能处理文本、语音、图片甚至视频等各种类型的数据。

OpenAI的GPT模型是基于transformer 的文本模型,把语音转换为文字的 whisper 模型也还是基于 transformer 架构的,dalle 这样的画图模型也利用了 transformer 架构,而最新横空出世、吊打各路视频模型的 sora,同样利用了 transformer 架构。

当时作者开了个玩笑,没想到 transformer 架构真成了无所不能的变性金刚!

Transformer 为何如此强大?

我们单独拎出来一点,transformer 的影响就吓死人:

transformer,颠覆了人类传统的“理解”方式,创造了智能体“理解”信息的全新范式。

罗塞塔石碑

在transformer之前,人类的理解是规则导向的。“罗塞塔石碑”(rosetta stone)就会这种基于规则的理解的典型案例。

罗塞塔石碑是1799年由拿破仑的军队在埃及罗塞塔地区发现的。这块石碑的意义巨大,不仅仅是一块历史悠久的古董,而实际上成为解码古埃及历史的神奇钥匙:石碑上刻着三种文字,上面是古埃及的象形文字,中间是通用的埃及脚本,下面是古希腊文。

在发现石碑之前,古埃及的象形文字一直是个谜,无人能够破译。有了石碑之后,因为古希腊文是已知的,学者就能够对照石碑来解读古埃及的象形文字,进而打开了古埃及文明的大门。

transformer

但是,2017年发布的transformer神经网络架构,却实现了一种无需“罗塞塔石碑”就能在人类语言之间互译的方法。

这一发现的关键在于,神经网络模型可以将词语之间的语义关系转化为高维空间的几何关系。然后,神经网络模型能够通过对齐不同语言的几何形状,从而在未知的人类语言之间进行翻译。

具体来说,在这个高维空间中,不知道为什么(是的,神经网络仍然没有科学原理层面的解释),意义相近的词语和句子靠在一起。当你把一系列词汇转换为数字向量,嵌入到一个高维度的向量空间中[^open 在 gpt-3.5 模型中使用ada embedding 模型,维度高达 1536维] ,很神奇地,具有相近词义的词向量自动地相互靠近。例如,在Stephen Wolfram举的这个例子[^ What Is ChatGPT Doing ... and Why Does It Work?—Stephen Wolfram[1]]中,cranberry、blueberry 、grape 等浆果自动聚成一团,apple、banana、melon 等肉果也自动聚成一团,cat、dog、bear 等动物又自动聚成一团。

embedding 空间二维化的结果

不止是词这个层面,词与词之间的关系也遵循这个规律。king的词向量-queen的词向量,很神奇地约等于man的词向量 woman 的词向量。king-queen=man-woman,有趣。

句子也遵循这个规律。有类似含义的句子,通过 embedding 模型转化为数学向量后,在高维空间也自动按照含义各自聚在一起。

更神奇的是,这种规律是跨语言的!不论是英语、中文、法语、德语、日语,还是其他什么人类一样,类似含义的句子,不论何种语言,也神奇地在高维空间中聚成一团!“我是一名学生”,“i am a student”,“je suis etudiant”......不同语言等翻译,不用什么罗塞塔石碑,不需要什么翻译手册,tranformer 就这么以人类无法解释的方式完成了人类语言之间的转换。

这意味着什么?

这意味着什么?

很难说得清。google的AI科学家发表了transformer架构,他们首先基于这个架构开发了BERT模型[^bert、以及ernie、elmo等名字都来自美国儿童手偶节目芝麻街,AI科学家们在玩梗的道路上一路狂飙你追我赶] 来执行翻译任务,把google translate背后的翻译系统升级为“神经机器翻译系统”。

OpenAI则基于 transformer 架构,把数据规模和参数做到极致,开发了 GPT 系列模型。国内的清华和百度也基于transformer 训练出了自己的大语言模型。

其中,GPT 模型的表现毫无疑问是令人震惊的。GPT 不但轻松胜任各种语言之间的翻译任务,还能以惊人的效果完成各种语言的写作任务(文本生成)。除了自然语言之外,GPT 更擅长编程任务(代码生成)。很多人说 GPT 模型是鹦鹉学舌,并不“理解”。确实,GPT 的理解,并非“罗塞塔石碑”式的基于规则的理解,目前也没有科学理论来解释其原理和过程,但是,人类不理解的“理解”真的就不是理解吗?还是说这是另一种“理解”,不同于人类理解的“理解”?

看到网友的一段话,觉得挺有意思。AI作为一种智能体,它的运作方式不同于人类智能,是人类所前所未见的,但是,这也是一种智能。

翻译学不存在了

翻译任务,是transformer出发的地方。刚好,翻译也是我出发的地方。

我本科读生物工程,在正式做审计师之前,我好几年都靠翻译挣钱吃饭。而我老婆的专业就是翻译,毕业于北外的高级翻译学院(人称同声传译界的“黄埔军校”),后来在大学翻译学院任教,教授笔译和口译专业。我老婆的一个舅妈也是做翻译的,她更厉害,北外高翻毕业,在外交部做翻译,给领导人做翻译做了多年,现在转到大学里任教翻译专业。

我们在聊天的时候谈到 GPT 和翻译,舅妈就问我,GPT 做翻译的结果这么好,到底是怎么实现的?这是怎么回事?

这一问,我就发现GPT做翻译这件事其实还挺震撼的。GPT不是像人那样去做翻译,去基于语法规则来做语言映射:GPT不过是把人类的线性语言转换为数学向量,在高维度空间中以人类目前无法理解的方式识别出了人类语言中的规律。神经网络中到底发生了什么,目前真的没法解释。

无论如何,我们能得出一个结论:翻译学不存在了,虽然不理解具体原理。

{:height 553, :width 778}

大语言模型,本质是知识大模型

除了“翻译学”不存在了,其实还有很多领域在面临类似翻译的尴尬境地。

GPT 以某种方式形成了对人类语言/知识的深刻理解。这种理解,不止是语法层面的(syntactical),更是语义层面的(semantical)。所以,GPT 才能胜任翻译、写文章、编程、文本转图片、语音转文本、文本转视频等一系列任务。

Transformer的这种“理解”方法,最起码揭示了理解的一个关键方面:关联。无论人类的语言理解,还是神经网络的语言处理能力,理解的核心都在于能够把握事物或概念之间的关系。在人类理解中,这种关系是知识砖块在语义和语境之间的关联;而在神经网络中,这种关系则被模拟为高维空间中数学向量的位置关系。

在这种全新的知识“理解”模式下,我们可能需要认真思考 GPT 这样的“大语言模型”到底意味着什么?

在我看来,GPT 等大模型,实际上是知识大模型:“大语言模型”这个表述中,语言只是人类知识的载体。GPT 大模型通过“阅读”了包含几乎全部人类知识的语言文本,用与人脑类似的方法提取了这些文本中的模式和规律,然后把这些知识以万亿参数为载体压缩存储到自己的上亿神经元组成的神经网络中。

所以,Stephen Wolfram 才说,GPT是通过人类知识的生成训练,来学习了人类的语言规律,从而建立了关于世界模型的内部表征。人类语言,以及背后的人类思维过程,被 GPT 这个实例中得到了部分的解释和展示。

历史上哲学家们对“理解”的各种理解

因为GPT颠覆了我对“理解”的理解,我忍不住对人类知识史上的“理解”产生了好奇。我发现,对于“人类理解”的探讨,源远流长,贯穿了整个哲学史和认知科学的发展:从古希腊哲学家对知识和真理的追求,到近现代哲学家对人类理解能力的深入探讨,再到现代认知科学的研究成果,关于“理解”的理解还真不少。

古希腊哲学:在西方哲学的摇篮古希腊,柏拉图和亚里士多德等哲学家已经开始探讨理解、知识和真理的本质。柏拉图主张理想主义,认为理解的对象是不变的理想形式;亚里士多德则是实证主义的先驱,强调通过观察和归纳来获得知识。

亚里士多德认为,每一个事物都是由“质料”(materia)和“形式”(forma)组成的。与柏拉图的理想形式不同,亚里士多德的“形式”不是存在于某个超越的理念世界中,而是存在于事物本身之中,是事物具有其特定特性和功能的内在原因。

亚里士多德强调经验在知识获取中的重要性。他认为,所有的认识起始于感官经验,经由记忆形成经验,人的智慧则是在经验的基础上通过抽象和归纳得到的。这种观点为后来的经验主义哲学奠定了基础。

文艺复兴至启蒙时期:文艺复兴时期开始,人文主义思想兴起,重视个人理性和对古典文化的回归促进了对人类理解能力的新探索。到了启蒙时期,理性被视为解放和进步的工具,洛克、康德、休谟等哲学家深入探讨了人类理解的界限和条件。

约翰·洛克的《人类理解论》("An Essay Concerning Human Understanding"),发表于1690年,是西方哲学史上一部极为重要的作品。洛克试图探讨人类理解的本质和范围,以及人类知识的来源。洛克认为人的所有知识都来源于经验,包括感官经验和内省经验。前者来自外部世界对我们感官的直接作用,后者是我们对自己心灵的观察和体会。

洛克认为概念是对感官经验的反思和抽象的结果。人们通过观察具体的个体和事件,提取共同特征,形成概念。而这些概念,是人类交流和思考的基础。洛克还讨论了语言在人类知识和理解中的重要作用。他认为语言是人类表达和交流思想的工具,但也指出语言的模糊性和不准确性可能导致理解上的误差和混淆。

洛克的《人类理解论》,为现代心理学、认知科学等领域奠定了基础。

康德也对“人类理解”的认识提出了革命性的见解。

康德试图调和理性主义和经验主义之间的矛盾。他认为,虽然所有我们的知识起源于经验,但理性(纯粹理性)对我们理解世界起着决定性的作用。他区分了“先验”(a priori,不依赖于经验的知识)和“后验”(a posteriori,基于经验的知识)。

康德认为人类理解是通过内在的“范畴”(如因果律、空间、时间)加工经验数据的。这些范畴是先验的,即它们是理解经验之前就存在于我们的心智中的。因此,我们只能认识现象(事物呈现给我们的方式),而非事物自身(noumena)。

经验主义和理性主义,作为不同的哲学思想,都深刻地影响了我们对知识和人类认知能力的理解。

现代哲学:在现代哲学中,存在主义、现象学、分析哲学等思潮进一步丰富了对人类理解的讨论。海德格尔、胡塞尔等人探讨了理解的本质和人的存在方式,而维特根斯坦、罗素等分析哲学家则关注语言、逻辑和科学方法在理解过程中的作用。

海德格尔认为理解是人存在的一种基本方式,通过存在于世界中,人与世界、他人和自己发生关联,从而构建了理解的基础。

维特根斯坦则探讨了语言的逻辑结构和现实世界的关系,他认为世界的本质是由事实构成的,而语言则映射这些事实。语言的本质功能是“映射”或“镜像”现实世界。命题通过其结构与现实世界中的事实相对应,从而使得语言能够描述世界。

他后来还提出了“语言游戏”的概念,强调语言的意义依赖于其使用的具体语境中。语言游戏是指语言在特定生活形式中的使用方式,包括命令、描述、猜谜等各种活动。他认为理解世界的关键在于理解语言的使用方式。

这些思潮共同丰富了我们对人类理解的认识,提供了多角度的视野来探索人类如何理解自己和世界。

认知科学:20世纪后半叶,认知科学作为一门新兴的跨学科领域出现,将心理学、神经科学、AI等学科的研究成果整合起来,从而提供了关于人类理解机制的新视角,这包括对感知、记忆、语言处理等认知过程的研究。

所以,我们能看到,关于人类“理解”这件事,几千年来,哲学家们提出了诸多自己的“理解”,从不同角度丰富了我们对“理解”的认识。哲学是科学之母,好在随着认知科学尤其是 AI 学科的发展,我们对理解的认知逐渐从哲学探讨进入科学研究,甚至直接创造出了 GPT 这样能表现出理解能力的人造智能。

“编码”取代“理解”:从记忆编码到神经网络编码

当“理解”从哲学探讨进入科学领域,“理解”一词就逐渐被“编码”取代了。

认知心理学对记忆的研究使用了”编码“:记忆,就是人脑对信息的编码、存储和提取。记忆是知识的另一个视角,所以,知识就是人脑对信息的编码、存储和提取。

记忆编码

在学习观3.0阶段,学习是大脑像计算机那样信息加工处理。所以,这就涉及到信息的编码与解码。

在学习观4.0,学习则是神经网络的信息加工处理。早期的RNN就使用编码器(encoder)和解码器(decoder)模块来加工处理文本序列,后来的 transformer架构、GPT模型更是把编码器、解码器这样的概念用到了极致。

“编码”作为一个科学概念,认知心理学家在描述记忆过程时用了,计算机科学家在描述计算机原理时也用了,AI科学家在描述和设计神经网络时也用了。现在,本书要搭建一个关于人类学习的理论框架,跳出日常词汇来尽可能科学地描述人类学习过程,怎么能不用这个概念呢?

我不使用“理解”而使用“编码”,这是经过慎重考虑的,不是为了把简单事情复杂化,不是搞语言腐败[^作为费曼理念的布道师,我最恨的就是语言腐败]。所以,说到现在,亲爱的读者,我是不是已经解释清楚为什么不使用“理解”而使用“编码”了?🤣

学习作为大脑加工处理信息的过程,本书所指的编码,就是大脑神经网络加工处理外部信息输入,提炼知识组块,并在已有的知识砖块之间、在新知和已知之间建立丰富、有意义关联的过程。 大脑通过模式识别、整合概念来理解信息,将新信息与已有知识网络相连接。人类学习的重要内容就是编码解码的过程。

学习闭环的编码环节,关键在两点:一手抓知识砖块:从外部信息中提取和构建心理表征,将信息转化为知识,形成知识砖块,构成我们认知结构的基本单元;一手抓知识关联:在新知和已知之间、在新的知识砖块和已有知识体系之间,建立丰富、有意义的关联;

相对于提取和构建知识砖块,知识关联涉及到更深度的认知处理,如分类、归纳、类比等。在这个层面,知识不仅仅是被存储,而是被组织和重构,形成更加复杂和深入的认识。这一过程的本质,是学习者如何将新知融入到他们的已有知识框架中。

在编码环节,大脑的工作内容就是把外部感官通道输入的信息,把别人解码输出的信息编码(encoding)为自己的知识表征。而在输出环节,大脑则是将自己的思考解码(decoding)为线性的语言表达。编码解码的过程,涉及对信息的结构、组织呈现方式进行的加工,提取出信息中蕴含的意义和模式,转化成对自己有意义的心理表征,最终构建个人知识体系。

只要人脑还在工作,就无时无刻不在对信息进行编码解码。读书、看电影、对话,都是大脑编码输入、再解码输出的过程。读书的本质是人与人跨越时间和空间限制的思想对话,而书本上印刷的文字则是展开信息交流的媒介。从某种意义上来说,每一本书本或是文章,都是作者与读者的对话。书籍是作者用他们的解码方式把自己的思考线性表达为语言文字,读者在阅读理解的过程,则是对作者线性表达编码为自己内部心里表征的过程。

编码无处不在

编码本来是计算机科学和信息技术领域的词汇,指的是出于存储、处理或传输的目的,将数据转换为特定格式的过程。例如,文本编码(ASCII和UTF-8等)是将人类能阅读的字符转换为计算机可以读取的二进制格式,而大家接触过的MP3音频编码、MP4视频编码、PNG图片编码等也都是把人类能阅读的信息格式转化为电脑能读取的信息格式。

一切都是信息,信息无处不在,编码这一概念也自然无处不在:

电报也是一种编码:电报系统把人类无法识别的声波信号转化为人类能够理解的自然语言。摩斯电码也是信息编码的一种应用,发出方把自然语言形式的信息,通过一套固定的加密算法,转化为无法识别的随机信息,而信息收取方通过自己掌握的解码方法,再把加密后的信息解码,重新转化为原始信息。

生物系统也涉及信息编码过程。生命的本质是信息的,而生命遗传信息以ACGT碱基排列的形式传递。基因自我复制,表达,构建蛋白质结构,形成复杂的生命体,这也是信息编码的过程。

人类认知过程也是信息编码过程。人类的文明活动,所有和信息有关的活动,都是编码过程。例如,考古学家把古代的象形文字转化为现代文字,把英文翻译成汉语,这里面的象形文字、现代的音标文字、不同语言,都是一套套信息编码系统。语言和文字,就是一套信息编码机制。

学习闭环与编码解码

经济系统中流动的是金钱,一个人的支出是另一个人的收入;信息系统中流动的是信息,一个人的输入是另一个人的输出。学习闭环的两端是输入和输出,大脑从外部环境接受信息输入,形成自己的理解,这是信息 编码(encoding) 的过程;把大脑神经网络中的信息向外部环境输出,这是思考解码(decoding) 的过程。

线性表达,树状结构,网状思考

哈佛大学认知科学家、语言学者Steven Pinker在《风格感觉》中的总结非常好:

一个作者的目标,就是把网状的思考,用树状的结构,编码成线性的文字。

the writer’s goal is to encode a web of ideas into a string of words, using a tree of phrases.

是的,一个人的思考依托于千亿神经元组成的复杂神经网络,无法用语言和规则来描述。所以,一个人的输出过程,就是把杂乱的思考用清晰的树状结构来编码,从而以清晰的语言和文字进行表达输出。在学习闭环中,我称之为“编码输出”。

而一个人面对外部信息的输入,看起来是线性的无明显结构的一样表达,但是,你的输入是别人的输出,高质量的输出一定是有其思想体系和结构的,我们作为读者一定要透过线性文字的表象,去重新构建背后的知识结构。在学习闭环中,我称之为“输入编码”。

学习闭环中的输入和输出都是线性的语言文字,是看得见的。但是,认知黑盒子里面的信息加工,大致就是把别人解码输出的信息进行编码、形成自己的理解和知识表征,然后关联到个人知识体系中的过程。

编码(encoding):个人根据自己的认知框架、先前知识和经验(prior knowledge)对外部信息信息进行编码。这个过程涉及到信息的重组、关联或重新解释,使其融入个人知识体系。

解码(decoding):把自己大脑中的思考和知识转换为线性的语言表达进行输出。

编码依赖背景知识

对信息的编码/理解,重度依赖学习者的背景知识。

举个例子,我们一家坐在餐桌上聊天时,我们聊到大V卢克文写的文章里面太多事实性错误,存在有意煽动读者情绪的嫌疑。这时候小树就笑嘻嘻插嘴啦:读课文?这个人的名字叫“读课文”?哈哈,真搞笑!

同样的信息,在说话者脑子里的编码方式和听众脑子里的编码方式可能完全不同。小孩子的先验知识和经验非常有限,脑子里概念量有限,她只能用使用自己熟悉的东西来理解听到的信息,于是”卢克文“就成了”读课文“啦[^为什么谐音梗笑话是不高级的笑话?因为更适合小孩子讲。当然,这个例子也证明了积累概念量的重要性]。

小孩子的理解如此,成年人的理解何尝不是如此呢。罗兰·巴特说,“作品诞生,作者已死”。意思就是一本书在出版之后,读者如何解读已经不受作者控制了。作者写书是对自己脑中的思想编码为线性的语言文字表达,以书的形式交付到读者手中,而读者对这些信息输入的编码/理解则重度依赖于自己的知识框架、情感和信念,读者的理解和作者的表达存在必然的差异。

大脑对信息进行编码解码的方式,千人千面,每个人的理解都是不同的。西方谚语“一千个人眼中有一千个哈姆雷特”说的也是这个道理。

背景知识、情感和信念都会影响人的理解/编码。但是,认知心理学对大脑的信息编码有多年研究,我们一起成体系地整体地了解一下。

人有,人通过“五感”[^five senses,包括视觉、听觉、味觉、触觉和嗅觉这五种感官通道]给大脑输入不同类型的信息。而信息进入大脑之后,编码过程是将信息加工成心理表征。根据认知心理学的研究,大脑的信息编码方式一共有4种:

编码方式:只有4种

[[听觉编码]] (acoustic encoding)

听觉编码就是人脑对声音类信息的编码。例如,你听到acumen这个单词,这个单词的发音在你脑子里生成了一种声音,“有声音了”。

在学习场景中的例子就是儿童靠ABC字母歌来学习26个字母。因为26个字母本身对儿童来说是没有意义的,儿童并不会理解单个字母A有啥意义。这类无意义的基础性的事实性知识,如果加上韵律,变得有声音了,儿童记住这26个字母就更容易了。通过字母歌,26个字母在儿童的脑子里的记忆逐渐被巩固为长时记忆,然后就可以脱口而出,毫不费力地提取了。

[[视觉编码]] (visual encoding)

视觉编码是大脑对图像和视觉感官信息进行编码的心理过程。在工作记忆中,人脑将信息转变成心理图像。简单说,这个信息“有画面了”。

杏仁核在视觉编码中起到重要作用,尤其是画面具有视觉冲击力(visually striking)的时候,视觉编码留下的记忆痕迹尤其深刻。例如,如果你不小心看到了某次车祸现场的血腥、悲惨而恐怖的画面,可能很长时间都无法平静,这就是视觉编码。视觉编码,就是将新信息转变为心理图像加以存储的过程,典型的例子就是“[[记忆宫殿]]”这种记忆法。

[[语义编码]] (semantic encoding)

语义编码是对感官输入的有特定意义的信息理解其本身蕴含的内在含义。这种信息编码着眼于意义,对你“有意义”,才可以在特定的场景中作为知识,被你从长时记忆中提取并运用。

语义编码,是对信息更深层的加工处理,记忆巩固和提取的效果也更好。例如,人脑长时记忆中的知识,都是对你“有意义”的,也就是说,构成每个人知识体系那一部分记忆,就是通过语义来编码的。

语义编码的优势,在科学研究中也得到证实。不论所编码处理的信息是什么内容什么难度,左前额页的大脑区域,第45、46和47号大脑区域,布罗德曼区,在语义编码时的大脑皮层活跃程度显著高于听觉和视觉等非语义编码形式。

语义编码明显增强信息的长时保持,语义编码是将新信息与存储在记忆中的旧信息已有知识进行有意义地联系的过程[^ Brown和Craik,2000]。

[[结构编码]] (organizational encoding)

结构编码是根据信息的内在结构,对信息进行分类的过程。在学习中,用思维导图、思维导图、大纲或流程图等图形图表对信息分类的方式,就是借助了结构编码的方式。

关注、提取并构建信息的内在结构,是理解和记忆知识的关键。举个例子,优秀的服务员同时服务好几个桌子上的客人,她如何记住这么客人点的菜单?通过对一串信息内在含义的理解,在语义编码的基础上,对不同的项目分类,将词语组织成概念上的不同组别并将它们彼此联系,之后更容易从记忆中重构出相应的项目[^Bower等,1969]。

研究表明,让人们将不同的项目像这样分类可以有效提高他们随后对项目的回忆成绩[^Mandler,1967]。人们可以通过将项目组织成多层级的类别来提高对单个项目的回忆。

举例:acumen

不同编码方式对应的学习效果不同。举一个最简单的例子:学习acumen这个英语单词。

视觉编码

靠形状学习(视觉编码),a-c-u-m-e-n,抄写100遍。经常见到,就会觉得眼熟。虽然不理解含义,但是“大概认识”。如果你不理解并完全忽略其含义,如果仅仅采用视觉编码,力图记住这6个字母的组合,效果肯定不好。

听觉编码

靠发音学习(听觉编码),背单词的时候,/ˈakyəmən/,重复背诵,复述的次数足够多,也会掌握这个单词。如果仅仅采用听觉编码,力图用/'ækjʊmən/ 这个发音,重复一百遍来记住,效果也不好。

语义编码

但是,如果对这个单词进行语义编码,就需要理解acumen这个单词本身的含义。查字典时,我们会获得这些信息:中文含义是“敏锐的”,英文含义是“the ability to make good judgments and quick decisions, typically in a particular domain”。

语义编码依赖对词汇的语意理解,通常会联系到具体的场景和知识。对于我来说,我看到acumen会想什么呢?我会先想到business acumen这个词组,这是我在PwC做审计师期间在公司关于全方面人才的资料中遇到的。财务专业人士构建知识体系框架,除了财务审计的专业技术之外,还包括的一个要素是business acumen(商业敏感度/商业思维)。在具体场景中,我们得到对单词词汇的具体理解。

对比之下,某些教培巨头推崇“单词联想记忆法”,教你这么记忆acumen:“阿Q(acu)对男人们(men)有洞察力”。确实耳目一新,新奇有趣,能够吸引动物脑的注意力。但是,这个方法强行把单词的本来意义上嫁接了一个毫不相关的外在意义,即使你能从此记住这个单词,但是也会影响到你对这个单词的运用,例如,business acumen从此就会和阿Q在你的大脑中产生了意义纠缠。这种方法用的太多,最终结果可能不是“学会了”而是“学废了”,可以说是一种削足适履的奇技淫巧。

查阅词典时,你还会读到这些信息,这些都是对 acumen 的语义编码:

常见用法:和形容词搭配时,considerable, great;business, commercial, critical, financial, political;和动词搭配时,demonstrate, show。再造个句子:He had demonstrated considerable business acumen.

近义词:awareness、sharpness、judgement......

反义词:witlessness

结构编码

更进一步,我们可以用组织\结构编码的方式来分析这个单词: 词根词缀:acu-是词根,来自acute,表敏锐;-men是词缀,无实际含义,表词汇的名词性质; 同根词:acute 灵敏的,敏锐的,有洞察力的;acuity (思维、视力、听力的)敏感度,敏锐度;acupuncture 针灸;acuminate 使......尖利;

我会从词根词缀的角度理解这个单词本身的含义,词根acu-是400常见词根中的一个,含义是“锋利、尖锐”。因为我的词汇量中有acute这个简单词,指疾病时意思是“急性的”,指事态则是“严重的”的意思,所以,我看到acu-这个词根就会想到“尖利”这个含义。

而后缀-men则是形容词后缀,本身无含义,代表某种状态。于是,acumen这个词,在我的记忆中,自然而然就是“在商业上精明、敏锐、有锋芒”。

通过结构编码,acumen这个单词的知识,对我来说,不但不像“阿Q特别懂男人”那样违和,更便于内化,易于提取运用的知识。

单词四步法,2017

这样的方法被我总结为 “单词四步法”(构词、词源、词义、同反义词),学员形容它是“拔出萝卜带出泥”的单词学习法。通过语义编码和组织编码学习acumen这个单词时,你只要通过词义、用法、同反义词、词根词缀这四步,你会发现一下子能搞定同词根下的一系列单词,例如acute,acuitiy,acuminate, acuninous,甚至acupuncture(针灸)这个词就显得无比简单,真正做到了“举一反三”,以慢为快。

这样的单词学习法,遵循了语义编码和结构编码的原理。我在 PwC做审计师的时候,早上到公司比较早,开工之前都会有一小时用来背单词和读文章。所以,后来被老婆要求去考一个雅思,我虽然没有时间也懒得备考,上考场前两天才打印了一份真题了解题型,但是裸考取得雅思8分的成绩,大大超过了不少专业考试和专业教人考试的英语培训老师。这就是让学习回归本来的样子,用语义编码和结构编码来深度理解知识的魅力。

总结一下,听觉和视觉编码,即使在机械重复的帮助下记住了,因为脱离语义和结构层面的理解,即使存储到长时记忆中,这样的“知识”也是无法运用的。初高中我们“学会”的很多数理化知识,就是类似的情况。

而语义编码和结构编码则是最基础也最有效的理解编码方式,让知识回到它本来的样子。

深度编码:有效编码的唯一指导原则

在认知原理层面,人脑对信息的记忆编码只有这 4 种。但是,市面上的学习方法和技巧多到数不过来,各种各样的编码方式层出不穷。那么,面对各种记忆编码的技巧,如何判断什么编码方式更有效呢?对于人脑来说,哪种记忆编码方式最有效呢?

精细编码原则

为了回答这个问题,加拿大认知科学家[[图尔文]](Tulving)提出了“**[[加工深度理论]]”(level of processing):人脑在记忆过程中对信息加工处理的深度决定了记忆效果[^Craik and Tulving (1975)]。简单来说,信息处理越深度,大脑维持记忆痕迹的时间越长。你对信息的理解越深,编码越精细,记忆效果越好。**

按照加工深度的不同,记忆的信息加工可以分为粗加工([[维持性复述]], maintenance rehearsal)和精加工([[精细复述]],elaborative rehearsal)两类。在前文的4种编码方式中,听觉编码和视觉编码属于对信息的粗加工,是浅层编码,而语义编码和结构编码属于对信息的精细加工,属于深度编码。

浅层编码

在浅层编码中,视觉和听觉编码关注的是信息的表层特征,例如文字符合的形状或者发音,而对信息中所蕴含的意义挖掘不深,忽视与其他知识以及现实生活、具体情景和问题的关联,学习和记忆的效率就很差。

例如,各种[[机械学习]](rote learning "[机械学习]")的方法,一次次重读课文,重复看笔记,“抄写100遍”,这类机械重复就属于典型的粗加工。学英语时,假如面对acumen这个单词,仅仅靠重复抄写一百遍,每天晨读时把单词表一次次朗读,就是在用机械记忆的方式来编码信息,效果自然就更低。

我们对日常之物“熟视无睹”,也是信息粗加工的典型例子。人民币对我们来说是日常之物,感觉很熟悉的,但是,你记得纸币背面到底印了什么图案吗?5元纸币的背面到底是黄山,布达拉宫,人民大会堂,还是西湖的三潭印月?有没有印人物在上面?“熟视无睹”的背后,就是大脑对信息只进行了粗加工。

当然,如果你的注意力完全忽略了这个信息,那就不是“粗加工”,而是“没加工”了,俗称“不过脑子”。上课时老师指责学生“左耳朵进右耳朵出”,说的就是这种现象。

在学校里通过应试教育方式获得的“洗澡水知识”就是典型的例子,因为浅层编码,所以学习效果差。为什么学校里学的知识就像洗澡水,高考完之后飞速全部忘掉,恍若隔世?因为不重视理解,除了做题和考试,知识对学生“无意义”,没有和具体的生活、具体的问题建立丰富而有意义的关联,结果就是大脑很很快抛弃对自己没有意义的信息,考完试就忘掉。

深度编码

相对于视觉和听觉的表层编码,对信息的语义编码和组织结构编码则属于深度编码,是对信息的精加工。例如,学习acumen这个单词时,从中英文词义、搭配用法、具体场景应用、例句、同反义词角度进行语义编码,从词根词缀、构词法等角度进行组织结构编码,虽然需要付出稍多一点的认知努力,但是效果是浅层编码的数倍。

读书读文章听课时也是如此,从一篇5000字文章中提炼出精确的概念,提炼出一系列关键词,然后串联关键词,在关键词之间建立丰富而有意义的关联,于是,一棵自己的知识树就慢慢长出来了,形成了自己的知识结构。这个过程,是理解知识的内在含义,通过分类识别关联,将新知和自己的已有知识结构建立新的关联,把新知识编织到自己已有知识网络的过程。这个过程对信息加工付出了更多的努力,挖掘了更多的含义,建立了有意义的关联,学习和记忆的效果就好很多。

深度学习

基于加工深度理论,我们得出一个学习的认知原理:信息编码越深度,信息加工越精细,学习记忆的效果越好。这也是“深度学习”概念的理论依据。一句话总结:加工越深度,理解越深度,学习越高效。

深度编码让信息在大脑中的记忆表征更加丰富,更加完善,激活了信息内在含义的更多方面,将新知识与大脑中已有的知识网络建立了更多更紧密的关联。

看起来,精加工确实更费力,但是越费力的学习,难度越大,记忆效果越好。对比之下,机械重复,浅层加工,毫不费力,但是,留下的记忆痕迹也很浅。

footnotes

[1]

^open 在 gpt-3.5 模型中使用ada embedding 模型,维度高达 1536维] ,很神奇地,具有相近词义的词向量自动地相互靠近。例如,在Stephen Wolfram举的这个例子[^ [What Is ChatGPT Doing ... and Why Does It Work?—Stephen Wolfram: https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/

END -

小能熊科学学习

  • savage解读《基因彩票》:自然彩票、个人命运与社会公平 免费

candobear: 严肃·耐心·永不妥协

北京市东城区小菊胡同1号 小能熊之家

  • 服务号
    严肃、耐心、永不妥协