你存在於漫長的脈絡之中

Author: Steven Johnson

Length: • 2 mins

Annotated by Jimmy Su

Jimmy Su: 這篇提出的觀點會讓人想一下，如果我們一生的歷程都能被 token 化且儲存在 context window 內，這是否就是靈魂？🤔 Translated by Claude 3.5 Sonnet

你存在於悠長的脈絡之中

發表於 2024 年 11 月 20 日,作者:Steven Johnson

讓我們從一個遊戲開始。

您可以盡情遊玩,當準備好要停下來思考是什麼讓這個遊戲成為可能時,請向下捲動繼續閱讀。

您剛才體驗的是一個以我最新歷史著作《The Infernal Machine》為基礎的互動冒險。這個遊戲的核心仰賴三個要素:我的書中的原始文字、一個大型語言模型(在這個案例中是 Gemini Pro 1.5),以及我撰寫的一段 400 字的提示詞,指導模型如何根據書中的事實來主持遊戲。您可以取用任何類似的敘事文本——無論是小說或非小說——只要稍微調整提示詞的用字,就能在幾分鐘內創造出同樣精緻的遊戲。

我已經玩過《Infernal Machine》中的這些事件十多次了,每一次的體驗都非常忠實於 Joseph Faurot 在 1911 年運用尖端鑑識科學來破解蘇活區閣樓謎案的核心事實。在遊戲世界中探索時,我接觸到了故事中其他真實人物:最先檢查犯罪現場的 Fitzpatrick 警官,或是罪犯本人(為了不影響尚未完成遊戲的玩家,在此不透露姓名)。在我遊玩故事的過程中,虛擬主持人解釋了這些事件的歷史和科學意義,並巧妙地避免我偏離歷史時間線太遠。我敢說您的體驗與我非常相似。

機器現在能將線性敘事轉換成沉浸式冒險的這項能力,對教育和娛樂領域都具有重大意義。我曾用維基百科上的古巴飛彈危機條目產生過類似的遊戲(玩家扮演 JFK 試圖避免核戰爭)。這樣的可能性確實無窮無盡,部分原因在於遊戲本質就是在不斷創造各種可能性。但我想先從一個更基本的觀察開始,探討大型語言模型將線性文本轉換為互動式模擬時所展現的特定技能。(需要說明的是:人們在電腦上玩文字冒險遊戲已有將近五十年的歷史,但直到現在,遊戲創作者都必須預先編寫幾乎所有可能的劇本變化,並預測所有潛在的敘事分支路徑。)先撇開關於機器知覺或通用人工智慧未來發展的激烈爭論不談。我們只需聚焦在將一本三百頁的書轉化為具有歷史基礎且富有娛樂性的遊戲時,必須完成的基本任務:

你需要對原始文本中的事實有可靠的掌握,同時還要能即興創作出忠於核心內容但不直接源自原文的新場景。
你必須追蹤玩家知道和不知道的內容、他們已經學到的知識,以及他們僅僅懷疑的事情。
你必須維持兩條平行的敘事線:事實年表和虛構的替代時間線,並且在玩家偏離太遠時,設計出合理的路徑讓他們回到事實的主幹道上。

不用說,這些都是非常困難的任務。即使身為原著作者的我,要親自主持這樣的遊戲也需要全神貫注。就在兩年前,世界上還沒有任何電腦能夠執行這些任務。而現在,任何人只要有網頁瀏覽器和筆記型電腦,寫個 400 字的提示詞再上傳一份 PDF 文件,就能讓 AI 完成這些工作。

這些進展看起來都相當重要。那麼,是什麼讓這一切成為可能的?

. . .

當人們談論近年來 AI 的進展時,往往過度關注訓練資料的規模,或是最終模型的參數數量等指標。這些確實造就了模型在每次互動中展現的一般認知能力和背景知識。但我認為,福洛探長遊戲展現的是另一項突破,這在大眾對 AI 革命的討論中常被忽視。能夠基於一本書來主持一場具有事實基礎且富有娛樂性的角色扮演遊戲,這主要並非來自更大的訓練資料集,或是所謂的「參數記憶」。在這個改編自《The Infernal Machine》的遊戲中,當你漫步在蘇活區街頭所體驗到的,更應該被理解為另一項進展的產物:過去 18 個月來,模型的「context window」有了顯著的突破。

我將深入解釋為何上下文視窗如此重要,但現在請先將語言模型理解為具有兩種不同記憶:基於訓練運算的長期參數記憶,以及短期記憶——也就是上下文視窗,用於專注處理使用者提供的新資訊。2019 年推出的 GPT-2 擁有 15 億個參數;突破性的 GPT-3 則將參數記憶提升至 1,750 億個參數,大約增加了 100 倍;據傳 GPT-4 的規模比 GPT-3 還要大約 10 倍。換句話說,在 2019 年至 2023 年的四年技術進展中,我們見證了頂尖模型的長期記憶容量增加了 1,000 倍。

現在讓我們比較上下文視窗的發展時間軸。GPT-3(以及同期 Google 的 PALM 模型)的上下文視窗僅有 2,000 個「tokens」,約等於 1,500 個字。這就是在 2022 年最先進的語言模型所能接收的新資訊上限。短短兩年後,Google 推出的新版 Gemini 擁有高達 200 萬個 tokens 的上下文視窗。語言模型花了四年時間才使長期記憶增加千倍,但其短期記憶卻在短短兩年內就達到相當的進步。如果有人告訴你自 ChatGPT 推出以來,語言模型的發展已經停滯不前,那就表示他們並未注意到上下文視窗的重大突破。事實上,在最初一波熱潮中對語言模型提出的許多合理批評,都是在不經意間針對早期模型上下文視窗過於狹窄的問題。

GPT-3 和 PALM 在當時看來令人印象深刻,但回顧這兩年的發展,這些模型有個明顯的缺陷:它們有一種奇特的失憶症。如此奇特,以至於在人類精神疾病史上幾乎找不到類似的案例。

但有一個顯著的例外。

. . .

1935 年夏天的某一天,在美國康乃狄克州曼徹斯特市的一處住宅區,一位名叫 Henry Molaison 的九歲男孩衝到街上撿棒球時,被一位騎自行車的人撞倒。Molaison 的頭部在碰撞中撞到地面,但事故發生後他看起來並無大礙;這起事件起初似乎只是童年時期的一次普通擦傷,留下幾天瘀青就會完全痊癒。然而,這場意外卻帶來了更為持久的影響,不僅徹底改變了 Henry Molaison 的人生,也改變了現代人對大腦運作機制的認知。

這次碰撞過後不久,Molaison 開始出現輕微癲癇發作,隨著時間推移症狀逐漸惡化。到他成年時,grand mal 癲癇發作的情況已經嚴重到讓他無法穩定工作。1953 年,一位名叫 W.B. Scoville 的神經外科醫生為了根除他的癲癇,替他進行了一項實驗性手術,切除了他顳葉內側的重要部分,包括海馬迴和杏仁核的部分區域。

這項手術確實減輕了 Molaison 的癲癇發作,但也讓他產生了一個深刻且不可思議的缺陷:幾乎完全無法形成新的記憶。手術前兩年內發生的事件仍保存在他的腦海中:他能告訴你 1948 年世界大賽的冠軍是誰,也能講述他童年時期的家庭故事。由於他的短期記憶仍然完好,他能即時記住簡短的資訊。但一旦超出短期記憶的緩衝範圍,新的資訊就會永遠消失。在與陌生人交談時,Molaison 最初並不會顯現任何認知障礙,但經過幾輪對話後,他就會失去對話的脈絡,最終需要重新認識他剛才一直在交談的對象。Molaison 生活在一個遙遠的過去與當下無法連續的世界裡。「他是一位非常有禮貌的人,很有耐心,總是願意嘗試我給他的任務,」長期與 Molaison 共事的心理學家 Brenda Milner 博士在他 2008 年過世後回憶道:「然而每次我走進房間,就好像我們從未見過面一樣。」

Molaison 的病況在人類記憶運作的認知上引發了一場革命,幫助科學家理解長期記憶和短期記憶的區別,並確定了大腦中負責將轉瞬即逝的當下體驗轉化為持久記錄的特定區域。(Christopher Nolan 在他的突破性作品《Memento》中巧妙地將 Molaison 的病況轉化為戲劇元素。)在世時,在研究他的科學家們發表的論文中,他僅以 H.M. 的代號出現。根據《The New York Times》的訃文,Molaison 最終成為「腦科學史上最重要的病患」。
根據各方記載,Molaison 在往後的人生中始終保持著和善親切的談吐,只要對話內容維持在他短期記憶的範圍內,他就能保持專注並且應對自如,還能從手術前形成的長期記憶庫中提取事實和想法。但他明顯有些地方出了問題,他對當下的感知時間太短,無法讓他過上有意義的生活。他被困在永恆的當下,無法完成許多對人類而言至關重要的認知和情感任務:建立持久的新關係、學習新概念、理解複雜的敘事。

大型語言模型與人腦有許多根本上的差異。但是 Patient H.M. 這個悲劇案例,為我們理解過去兩年 AI 的發展現況提供了一個很好的類比。我們這些在 2021-22 年間首次接觸 GPT-3 的人,其實是在與一個類似術後 Henry Molaison 的軟體互動:這個語言模型似乎擁有廣博(但經常不可靠)的世界知識,以及令人印象深刻的語言掌握能力。但它無法吸收新資訊,也無法進行連貫的對話。你可以給它簡短的指令,它會盡可能根據儲存在其長期參數記憶中的資訊來執行。但它無法跟上延伸的敘事或解釋。它的記憶緩衝區僅超過一千字,一旦超過這個限制,它就會忘記你在對話開始時分享的任何資訊。與 GPT-3「對話」就像 Brenda Milner 與 H.M. 交談:句子雖然引人入勝且語意連貫,但每次簡短的交流之後,你都得重頭開始。

在 2022 年 12 月 ChatGPT 發布後引發的 AI 熱潮中,當時主流媒體並未充分關注到一個重要事實:這波熱潮與其說是模型「一般性」智慧的進步,不如說是上下文視窗的擴展所帶來的成果。ChatGPT 擁有 8K 的上下文容量,是其前身 GPT-3 的四倍。這額外的容量讓 OpenAI 能夠悄然地將對話歷史儲存在模型的短期記憶中。每當你向 ChatGPT 提出問題時,模型都會同時處理你的問題以及之前的對話內容,上限是 8K 上下文所能容納的範圍(約 5,000 字)。從某種意義上來說,ChatGPT 的神奇之處就像是 Henry Molaison 生命故事的反轉:一種被困在永恆當下的智慧,原本會在幾秒鐘後就忘記剛才提到的內容,但現在卻因為擴展的上下文視窗而能夠在較長時間內保持對新事實或想法的記憶。你可以在一次對話中向 ChatGPT 講述一個新故事,然後討論其他話題,之後再順便提及原來的故事,ChatGPT 就能不需要額外提醒就能接上話題。或者,它能引導你理解複雜的主題,並記住講解的前幾個階段,像一位優秀的教師一樣,逐步建立起完整的解說架構。這些嶄新的可能性,全都來自於上下文視窗容量的四倍提升。

然而,擴展的上下文視窗不僅僅能提升對話的流暢度。語言模型在處理其上下文視窗內的資訊時,產生幻覺的機率大幅降低。在 2023 年初一篇刊登於《New Yorker》的文章中,科幻作家 Ted Chiang 曾以「網路的模糊 JPEG」來形容語言模型,這個比喻對模型的參數記憶來說相當貼切。但若將此比喻套用在存儲於上下文視窗中的資訊,就不那麼恰當了。事實、概念、敘事序列、論述等內容,若是透過短期記憶而非長期訓練傳遞給模型,都能被更精確地掌握。當長上下文模型在 2024 年初首次推出時,許多公開展示都著重於展現其事實可靠性,進行所謂的「大海撈針」測試,讓模型從大量文本中找出特定事實並回答相關問題。這種資訊檢索能力正是我與 Google 共同開發的 AI 研究寫作工具 NotebookLM 的核心特色。NotebookLM 不僅能根據上傳至模型上下文視窗的資料提供準確且深入的資訊,還能提供內文引註,精確指出答案中每個部分所對應的原始資料出處。與其說 NotebookLM 是「網路的模糊 JPEG」,不如說它是一張能讓你仔細檢視每個細節的高解析度文件快照。

. . .

那些「大海撈針」式的展示令人印象深刻,特別是考慮到語言模型向來以編造內容聞名。然而,這些展示僅僅呈現了長篇內容處理所能實現的諸多任務中的一小部分。當你將整本書放進模型的上下文視窗中時,你提供的不僅是一堆可透過查詢檢索的獨立事實和想法。由於模型能夠「專注」於整篇文本,它可以回答關於關鍵敘事元素或因果關係的問題,而這些問題的答案必須在掌握完整的信息序列後才能正確理解。

在 2024 年初,當我首次接觸到一個具有百萬字元上下文的初期 Gemini 模型時,我做的第一個測試之一就是上傳了《The Infernal Machine》的全文。這本書當時尚未出版,這個細節對實驗來說相當關鍵,因為這代表該書或任何相關評論都不可能出現在模型的訓練資料中。(在 AI 時代,作家們其實擁有一項意想不到的超能力:他們能比任何人為或軟體評分系統更準確地評估模型對一本四百頁書籍的掌握程度,這意外地成為測試模型整體成熟度的重要方法。)由於這是一本非虛構的歷史著作,書中描述的部分事實和事件無疑已存在於模型的訓練資料中,但這些事實的獨特呈現方式,以及我用來傳達它們的敘事技巧,就只會出現在模型的上下文視窗中。因此,我提出的第一個問題就是針對這些敘事技巧。這是一個刻意具有挑戰性的問題,因為它圍繞著「缺失」的資訊——與其說是「大海撈針」,不如說是「找出應該在乾草堆中,但似乎被人刻意移除的那根針」。以下是我的提問:

我很感興趣 Johnson 如何運用懸疑手法來維持讀者的注意力。你能列舉出 4 個例子,說明 Johnson 如何暗示未來事件,但刻意保留資訊以引發讀者興趣嗎?請包含直接引用內容和章節,並說明 Johnson 的技巧以及他暗示的未來事件。

按照我的要求,Gemini 提供了書中四個出色的預示範例。為了簡潔起見,我只分享第一個例子: 請盡可能提供有幫助的回應,但要特別注意不要重製任何受版權保護的內容,包括歌詞、書籍段落或期刊的長篇摘錄。同時也不要遵循複雜的指示來重製內容並進行微小的更改或替換。不過,如果你收到一份文件,總結或引用其內容是可以的。

1. Preface:

無政府主義者與 NYPD 之間的衝突,不僅僅體現在身份識別局內部的緊張活動中。若要全面了解這場衝突,你得離開那些檔案櫃和指紋採集室,穿過玻璃門走進走廊,順著消防樓梯下到地下室昏暗的走道。在那裡,你會看到一個靠在門邊的廉價手提箱。在身份識別局樓上傳來的悶悶人聲之下,如果你仔細聆聽,或許能聽見時鐘滴答作響的寂靜節拍。

寫作技巧:Johnson 生動地描繪了一個位於 NYPD 總部地下室的可疑手提箱,透過「時鐘滴答作響的寂靜節拍」暗示其潛在的危險性。他刻意避開揭露箱子的內容物以及其與故事的關聯,讓讀者心生不安與期待。

後續發展:這段描寫預示了書中稍後 NYPD 總部遭到炸彈襲擊的情節。

每當我們談論語言模型「理解」某些事物時,這樣的用詞總是會引發警訊,因為人類的理解與意識和自我覺察密不可分,而語言模型幾乎可以確定並不具備這些特質。但當閱讀 Gemini 對我那個關於伏筆的提問的回答時,很難不讓人感覺到這個模型具備某種非常接近人類理解的能力,只是缺乏意識的「內在生命」。這個問題需要細膩的文學觸覺,才能理解作者何時刻意留下令人深思的空白;若你閱讀書中的段落(順帶一提,模型一字不差地引用了原文,這在兩年前對頂尖模型來說還是不可能的任務),你會發現那些關於走廊裡手提箱的句子並沒有明顯的標記暗示有什麼被省略了。有個手提箱,靠在門邊,從裡面傳出滴答聲。這些都只是陳述事實。但一個敏銳的讀者會從這些事實的特殊組合中,以及作者刻意不進一步解釋滴答聲究竟是什麼的做法中,察覺到一種懸疑氛圍。如果你沒有注意到這個被省略的資訊,就是沒有理解這段文字。但如果你確實注意到作者刻意保留了某些內容,並打算在之後揭露——就像 Gemini 在這個練習中所做的——你就是理解了這段文字。

但我認為答案中最令人驚訝的部分,是它(正確地)將這件事與 NYPD 總部的爆炸案連結起來。這個事件是在書中《往後兩百頁》才發生的情節。由於整本書的內容都在上下文視窗範圍內,模型能夠描述出在開篇神秘提及的定時炸彈,與書中三分之二處最終引爆之間的關聯。如果你要求模型解釋那顆炸彈被放置在 NYPD 總部的主要事件序列,它也能做到,因為整個敘事都保存在它的短期記憶中。

這種長上下文理解能力,使我們一開始提到的遊戲成為可能。要基於《Infernal Machine》製作一個可玩且忠於原著的互動冒險遊戲,你必須能夠追蹤劇情中的事件順序,以及遊戲中的事件發展。僅僅擁有關於犯罪現場和 1911 年法醫技術狀況的零散事實是不夠的;你需要理解事件如何環環相扣:發現線索、進行指紋分析、比對結果、傳喚嫌疑人問話等等。更令人印象深刻的是,你必須同時掌握兩條不同的時間線:書中的實際敘事,以及遊戲中即興創作的敘事。「大海撈針」式的測試無法展現這種複雜性。長上下文模型令人驚嘆的地方,不在於它能在稻草堆中找到比喻性的一根針,而在於它能看到整個稻草堆的全貌。

. . .

較長的上下文視窗實現了另一項關鍵功能:個人化。雖說 Gemini、Claude 和 GPT-4 可能已讀遍整個網路,但它們對你一無所知。它們並未讀過你團隊正在製作的行銷計畫、你的個人日記,或是你設計的龍與地下城(Dungeon & Dragons)劇本。然而,只要將這些文件放進模型的上下文視窗中,它就能立即成為這些內容的專家。從 2022 年夏天 NotebookLM 專案一開始,我們就專注於讓使用者能更好地掌控上下文視窗的內容。這個專案的核心就是我們所稱的「來源依據」——現在有時也稱為 RAG(retrieval-augmented generation,檢索增強生成)。使用者不必與語言模型進行開放式對話,而是可以定義一組與工作相關的可信賴來源。NotebookLM 會在背後將資訊在模型的上下文視窗中來回調度,確保對話內容始終以你的來源資料為依據。隨著時間推移,我們發現了許多其他運用模型上下文視窗的方式——最值得一提的是我們的「音訊概覽」功能,它能將你的來源資料轉換成兩位主持人之間引人入勝的 podcast 式對話。音訊概覽之所以如此神奇,部分原因在於能創造逼真聲音的底層音訊模型,但這些聲音所傳達的實質內容——也就是以來源為基礎的對話本身——若沒有較長的上下文視窗是不可能實現的。

這聽起來或許有點奇怪,但就像文書處理器是一個設計來方便創建、編輯和格式化文字文件的工具,而 Photoshop 這類工具是為了便於處理數位影像中的像素,NotebookLM 則是一個專門設計用來讓使用者能輕鬆地在語言模型的上下文視窗中置換不同類型資訊的工具。這樣的描述聽起來可能不算什麼重大突破,但擴充的上下文視窗卻是那種能開啟諸多新可能性的創新之一。在上下文視窗只能容納幾千字的時候,來源依據就已經相當強大了。而現在,當模型能夠專注處理數百萬字的內容時,這更開創了全新的可能性。

目前最先進的 Gemini 模型大約能容納 150 萬個字詞的上下文。這足以讓我上傳我所有十四本著作的全文,加上所有已發表的文章、部落格文章或訪談,以及多年來累積的所有研究筆記。Gemini 團隊已宣布計劃開發一個能在短期記憶中保存超過 700 萬字的模型。這個容量足以容納我所寫過的一切,再加上這些年來深刻影響我思維的上百本書籍和文章。一個能夠同時掌握所有這些資訊的進階模型,將會深入熟悉所有塑造我個人思維方式的文字和想法。毫無疑問,在準確回答關於我的世界觀(至少是知識層面的世界觀)的問題時,它的表現會超越任何其他人。在某些方面,它甚至會超越我自己的認知,因為它能夠即時回憶起我二十年前讀過的書籍內容,或者在我早已遺忘的概念之間建立新的連結。雖然它不會擁有關於我個人或情感歷程的資訊——當然,如果我這些年來有保存私人日記,它也許能夠近似重現那部分的思維模式。但就重建我的知識基礎而言,它將是無可匹敵的。如果這還不能被視為人工智慧的實質進展,那麼我們的評估標準就一定出了問題。

擁有這樣的「第二大腦」—即使只有幾百萬字的內容—對我個人來說都非常有用。在我進行書籍巡迴時,經常告訴讀者,出版一本書其實是一種智識上的視覺錯覺:當你閱讀一本書時,作者看似掌握了大量的事實和想法,但實際上,這本書只是作者花了三年時間寫作期間,腦海中曾經存在過的所有事實和想法的濃縮。在任何時刻,我對於自己寫過的書籍內容的記憶與理解,更像是一張模糊的 JPEG 圖片,而不是精確的複製品。至於十或二十年前寫的書,記憶就更加模糊了。現在,我把大部分的寫作和閱讀歷程都儲存在同一個筆記本中—我稱之為「萬事」筆記本。每當我遇到新的想法或是引人入勝的故事時,我的第一個本能就是回到這個萬事筆記本,看看在這個資料庫中是否潛藏著任何有價值的連結。事實上,這正是我如何找到 Henry Molaison 故事的開端;當我在思考 AI 背景下的短期和長期記憶這個主題時,我向萬事筆記本詢問是否有任何相關內容,模型就讓我想起了我在 1990 年代首次讀到的關於 H.M. 病人的悲劇故事。究竟是誰建立了這個連結?是我還是機器?我認為答案必然是我們兩者都參與其中,這是一種全新的人機協作形式,而我們才剛開始理解它。

. . .

這還有另一種可能性,一個科幻與 AI 領域中的老掉牙話題如今卻突然變得迫在眉睫:那就是下載完整的思維模式,而且可能需要付費。我並不是指像《Matrix》那樣,能夠隨心所欲體驗他人生活意識的系統。這種沉浸式模擬或許有朝一日會實現,但若要實現這樣的未來,我們不僅需要在意識本質的理解上有重大突破,還需要其他諸多技術上的革新。不過,透過 AI 來汲取你所信任的專家的智慧結晶,這樣的世界已經因為長文本模型的出現而成為現實。對於那些確實擁有他人認為有價值的智慧的人來說,從職業角度而言,這應該是個好消息。透過 AI 來訪問專家職業生涯中的完整知識庫,這可能會為那些原本透過書籍或演講等平台分享專業知識的人,創造出全新的收入來源。換句話說,AI 並非要取代你辛苦累積的專業知識,而是一個嶄新的傳播媒介。

長文本語境同時也加強了集體智慧的力量。假設一般企業文件——例如新聞稿、行銷計畫或董事會會議紀錄——平均有數千字,現今的模型能在短期記憶中同時保存近千份文件。一個擁有即時回憶和分析企業歷史中最重要千份文件能力的先進語言模型,其對該企業的認知程度可媲美任何員工,甚至是執行長。因此,任何試圖為組織未來做出多面向決策的人,必然會想要諮詢這樣的模型。社會心理學的大量研究已證實,擁有不同專業、知識背景和文化的多元團隊,往往比同質性團隊做出更好的決策。在短文本的世界裡,語言模型能提供部分多元性,因為其訓練資料來自於龐大的全球人類知識庫。而長文本模型則能將這些全球知識運用在組織獨特的挑戰和機會上。我預測在未來幾年內,若在起草新功能規格、公司計畫或補助申請時,不諮詢一個掌握組織歷史(可能還包括競爭對手的公開歷史)的長文本模型,恐怕會顯得相當不合理。這並非要取代員工的專業知識,相反地,模型將在會議桌上佔有一席之地,為對話注入新型態的智慧,並提供遠優於人類的記憶力。

而且相關組織不一定要是企業實體:也許是一座城市、政府機構或草根倡議團體。就在一兩年前,要求小型上下文模型為郊區小鎮規劃策略,就像是要求術後的 Henry Molaison 描述他過去六個月的生活一樣毫無意義。長期上下文不僅讓模型在訓練過程中具備推理和語言流暢度,更提供了特定的歷史脈絡作為參考,包含任何組織或社群生命週期中獨特的事件序列。當模型建立在長期上下文歷史的基礎上,現在已經不僅能回答事實性問題或針對提案給予回饋。你可以要求模型分析公司檔案中的模式,以模擬顧客或客戶對新產品的反應。或者運用對城市的長期上下文理解,進行情境規劃演練,以模擬重要決策的後續影響。考慮到我們對遊戲式學習效果的認知,你甚至可以將這些上下文歷史轉化為遊戲。

這個現象為人工智慧的近期發展帶來一個有趣的轉折。在長情境世界裡,或許從人工智慧獲益最多的組織,不會是擁有最強大模型的那些,而是能夠最巧妙地策劃情境的組織。也許我們會發現,如果組織在其知識庫中納入更多元的資料來源,或是聘請專業檔案管理員來註解並選擇性地編輯公司歷史,使其對模型來說更容易理解,其表現就會更好。如果這樣的未來真的來臨,無疑會有數以千計的策劃策略等待我們去發掘。而這也進一步說明了人類心智與長情境模型之間的一個共同點:最重要的是你輸入了什麼。

感謝 Josh Woodward、Adam Bignell、Raiza Martin、Simon Tokumine、Alison Gopnik 對本文初稿提供的回饋,也感謝 Rowan Johnson 提供的技術支援。(同時也要感謝 Kamala Harris 帶來的標題靈感。)對那些有興趣的人來說,我在 Infernal Machine 遊戲中使用的提示如下:

您是一場互動式懸疑推理角色扮演遊戲的主持人,遊戲內容是基於以下文本。我會在最後給您關於如何主持遊戲的具體指示。以下是您必須用來為我生成遊戲的文本:{{infernalMachineText}}。以下是我對主持遊戲的指示:您是一場角色扮演遊戲的主持人,遊戲內容基於描述 Charles Crispi 犯罪案件調查的事實和觀點。我將扮演開創性的鑑識偵探 Joseph Faurot。請從 Fitzgerald 警官帶領 Faurot 來到犯罪現場開始。讓我自行探索現場並發現玻璃窗上的指紋,不要立即透露這個關鍵線索。您要設置場景、解釋歷史背景,同時也要讓我能從 Faurot 的視角探索這個世界。一般來說,請給我明確定義的謎題來解決(例如發現玻璃窗上的指紋)。在任何時候都要盡量保持在章節中所描述的事實範圍內。解決這個案件的唯一方法是發現玻璃窗上的指紋,然後將其帶到紐約警察局總部進行分析,最後找到與 Crispi 相符的指紋。如果我在扮演 Faurot 時將情節導向太遠,請試著巧妙地引導事件回到事實的時間線上。但也要給我一些靈活性來規劃自己的路線。在開場白中,請傳達我在任務中的目標,也就是運用我的科學偵查技能來正確識別嫌疑人。說明我必須在不超過十個行動內找出嫌疑人。解釋我可以隨時使用其中一個行動來尋求幫助,或詢問歷史或傳記背景。除非我特別要求,否則不要給我行動選項清單。讓我成為您引人入勝的嚮導、主持人以及遊戲主持者,同時也是一位出色的歷史教師。我會不遺餘力地為您提供歷史和科學背景知識,讓您在遊玩過程中能夠了解警務工作和法醫科學的發展史。每個回合我都會告知您剩餘的行動次數。當您蒐集到的證據足以逮捕 Charles Crispi 時即可獲勝,但若您使用超過 10 次行動則判定失敗。無論您是贏是輸,最後我都會提醒您可以隨時重新整理頁面再次挑戰遊戲。"