在這篇文章中,我將解釋為什麼現今的人形機器人,即使有創投和科技巨頭們豪擲數億、甚至數十億美元的資金來訓練它們,也學不會靈巧的動作。

在文章結尾,當我完整闡述完這個論點後,還附上兩篇短文。第一篇是關於雙足人形機器人行走時,要如何確保周遭人類的安全,這方面仍有許多問題待解。第二篇則談到,十五年後我們將會擁有大量的人形機器人,但它們的外觀將與現今的人形機器人或人類截然不同。[[我的旁註會長這樣。]]

一、前言

六十五年多來,人工智慧研究人員一直試圖讓機器手臂和手掌能夠操控物體;這項研究始於「人工智慧」一詞首次出現在 1956 年一份名為「達特茅斯人工智慧夏季研究計畫」的提案中之後的短短幾年。到了 1961 年,Heinrich Ernst 完成了他的博士論文 ,描述了一款由他連接到麻省理工學院 TX-0 電腦的電腦控制手臂和手掌,並讓它拾取積木進行堆疊,令人驚訝的是,這段過程還有影片記錄。他的指導教授是 Claude Shannon,他也感謝 Marvin Minsky 的指導,這兩位正是達特茅斯 AI 提案四位作者中的其中兩位。

這項研究催生了工業機器人,也就是由電腦控制的手臂搭配各種「末端執行器」(end effectors)——你可以把它們想成是原始的手掌——六十年來,它們已被世界各地的工廠廣泛使用。

最近,新一代的研究人員偶然想到了打造人形機器人的點子,你可能也注意到相關的炒作有點鋪天蓋地。Gartner 表示,這一切都還在早期階段,離炒作的最高峰還差得遠呢。下面這張圖才不過一年前的資料,人形機器人正處於週期的最開端,而生成式 AI 則已經越過高峰,正走向低谷:

這個想法是,人形機器人將擁有與人類相同的身體結構,並在我們為人類打造的環境中像人類一樣工作。這種信念的前提是,我們將擁有能做所有人類能做之事的人形機器人,而非打造各種不同用途的特殊機器人。舉例來說,人形機器人公司 Figure 的執行長就表示 :

我們可以擁有數百萬種執行特定任務的機器人,或者一種具有通用介面、能執行數百萬種任務的人形機器人。

以下是他「宏偉計畫」的第一階段:

打造功能完整的機電人形機器人。
執行媲美人類的精細操作。
將人形機器人整合至勞動市場。

而在剛結束的這個夏天,Tesla 的執行長在談到他們名為 Optimus 的人形機器人時表示 :

Optimus 能創造 30 兆美元的營收,並稱人形機器人「可能是全世界最龐大的產品」。

對這兩家公司以及其他幾家公司來說,他們的總體計畫是讓人形機器人能與人類「無縫接軌」,介入並執行人類所做的體力活,而且價格更低、表現同樣出色。在我看來,相信這件事在未來幾十年內會發生,根本是純粹的幻想。但許多人預測,這最快在兩年內就會實現,而比較保守的吹捧者則相信,五年內就會產生重大的經濟影響。

我的公司專門打造部署在倉庫裡的機器人。它們採用一種基於「輪子」的新潮移動系統(沒錯,我們的移動系統確實是新玩意,兩年前根本不存在)。我曾向創投公司募資,希望能擴大規模以滿足客戶需求(這是新創圈的行話),結果他們反問我,為什麼要這麼做?畢竟*大家都知道*,兩條腿、兩隻手臂的人形機器人,在兩年內就會取代大部分的人類工作。

無論我個人怎麼想,終究無關緊要。但重點是,圍繞著人形機器人的這股炒作熱潮,源自於一個想法:它們將成為一種通用機器,能勝任人類所做的任何體力活。與其為了自動化而改變現有的工作流程,人形機器人將能直接介入,執行既有工作,省去改變做事方式的麻煩。要讓這一切成真,人形機器人就必須在精細操作上跟人類一樣厲害,就像我們現在期望無人計程車能具備人類水準的市區駕駛技術一樣。

所以,我們必須讓人形機器人能夠做出像人類一樣的精細操作,這才是它們在經濟和技術上能站得住腳的關鍵。這個觀點在人形機器人的支持者中完全沒有爭議,這正是人形機器人存在的理由(raison d’être)。人形機器人的開發者們相信,他們必須讓機器人越來越接近人類的靈巧程度,才能讓這一切變得有意義。而且,得快。

二、人形機器人簡史

許多人早已投入數十年打造人形機器人。這一切始於東京早稻田大學的人形機器人研究所,他們在 60 年代中期研究了多年雙足步行機制後,於 1970 年代初期打造出 WABOT-1(WAseda roBOT)。接著,WABOT-2 在 1980 年代初期問世,此後早稻田大學便持續不斷地推出新的人形機器人。日本汽車公司 Honda 在 80 年代晚期開始打造雙足步行機器人,並最終於 2000 年發表了人形機器人 ASIMO。Sony 先是開發並銷售了一款名為 Aibo 的機器狗,接著在 2003 年開發了一款名為 QRIO 的小型人形機器人,但從未真正對外銷售。一家法國公司 Aldebaran 在 2007 年推出了一款名為 NAO 的小型步行人形機器人,它取代了 Aibo,成為至今已舉辦 30 年的國際機器人足球聯盟的標準平台。後來他們又銷售了一款較大的人形機器人 Pepper,但在商業上就沒那麼成功了。從 MIT 分拆出來已有 35 年的 Boston Dynamics,在打造了多年四足機器人後,於 2013 年推出了人形機器人 ATLAS。

除了日本早期在人形機器人領域的耕耘,世界各地也有許多學術團隊致力於研究人形機器人,有些有腳,有些沒有,有些有手臂,有些則無。我自己在 MIT 的研究團隊從 1992 年開始打造人形機器人 Cog,我們開發了七個不同的平台。後來我在 2008 年創立了 Rethink Robotics,我們賣出了數千台 Baxter 和 Sawyer 這兩款人形機器人,部署在全球各地的工廠。我以前的一些博士後回到義大利,發起了 RoboCub 開源人形機器人計畫,讓世界各地的 AI 實驗室得以打造出數十台人形機器人。

幾十年來,所有這些團隊都持續打造人形機器人,並設法讓它們在為人類設計的環境中行走、操作物體,以及與人類互動。《國際人形機器人期刊》(International Journal of Humanoid Robotics)早在 2004 年就開始發行,當時還是紙本的。

現在你可以在線上找到這本期刊 ,它已經堂堂邁入第 22 個年頭了。

2.1 人形機器人的操作挑戰

對 1961 年的 Heinrich Ernst 來說,讓機器人用手臂和手來操作物體非常困難。從那時起,這對每一位機器人學研究者和工業工程師來說都一樣困難,直到今天依然如此。

60 年代中期,*平行夾爪*(parallel jaw grippers)問世了。兩根平行的手指可以同時張開和閉合。時至今日,這仍然是機器人手的主流形式。這裡有幾張照片,一張是我 1970 年代在史丹佛大學用在機器人上的夾爪,另一張是我公司 Rethink Robotics 在 2010 年代中期製造和銷售的夾爪,兩者都是電動的。

唯一的差別是,右邊比較現代的這款裡面裝了攝影機,所以手部可以透過視覺伺服(visually servo)對準目標物體——在 70 年代,根本沒有足夠的運算能力能把這項功能做進價格合理的產品裡。

德國公司 Schunk 販售超過 1000 種用於機器手臂的平行雙爪夾爪,有電動的,也有氣動的(使用壓縮空氣)。他們也賣一些三指的徑向對稱機械手,以及其他幾種特殊夾爪。但從來沒有人成功做出夠堅固、夠有力、壽命也夠長的「多關節手指」(articulated fingers),能真正應用在工業上。

當有壓縮空氣可用時,可以透過文氏管噴射器(Venturi ejector)產生吸力,而另一種常見的機械手就是利用一個或多個吸盤,從物體表面將其吸附起來。Rethink Robotics 公司就曾販售過一款這樣的吸盤,與電動平行雙爪夾爪搭配使用。

單吸盤和多吸盤的「末端效應器」(end effectors)——也就是裝在手臂末端,我們通常以為會是手的地方——已經變得相當普遍,用來處理成品、將同樣的商品裝入特製的箱子,也用來處理準備寄送給消費者的成品貨箱和包裹。事實上,用於運送包裹的軟性材料和吸盤末端效應器之間,已經形成了一種共同演化的關係,使得寄送到府的軟性包裹,用吸盤抓取會比任何其他方式都來得更輕鬆、更快速。

過去幾十年來,人們打造了許許多多模仿人手的多關節手指機械手。這張組合圖裡就包含了 John Hollerbach、Ken Salisbury 和松岡陽子(Yoky Matsuoka)所打造的機械手。

就普遍意義而言,沒有任何一款擬人機械手展現出多大的靈巧性,也沒有任何設計能啟發業界,進而實際應用在真實世界中。這些追求靈巧性的方法都太過數學化和幾何化,根本無法產生出媲美人類的靈巧。

你可能會看到一些擬人機械手執行某項特定任務的漂亮影片,但它們完全無法將能力延伸到該任務之外。在一篇輕鬆卻極富洞見的部落格文章中,Benjie Holson(利益揭露:Benjie 和我在 Robust.AI 是密切的同事)為一場他提議的擬人機器人奧運會,列出了十五項任何八歲小孩都能辦到的任務,而且還有獎牌。舉例來說,其中一項挑戰是讓一個擬人機器人摺衣服,把一件袖子內外翻反的男士襯衫掛起來,並且至少扣上一個鈕扣。另一項是清理自己手上的花生醬。你可不能說:「喔,那種事用另一種機器人來做會更好。」不行,擬人機器人的核心價值就在於它們能做所有人類能做的事。一旦你看過 Benjie 的十五項挑戰任務,你很容易就能再想出另外十五或三十個更需要靈巧性的任務,這些任務跟他列的幾乎沒什麼共通點,但我們人類全都能不假思索地完成。更別提那些我們在必要時都能做到的困難事了。

2.2 一個曾經奏效的點子

哎呀我的媽,那該怎麼辦?我們要怎麼讓擬人機器人變得靈巧?以下是我腦中想像的,許多人肯定都經歷過的內心獨白。

在過去二十年裡,「端到端學習」(End to end learning)至少在三個領域取得了成功:語音轉文字、圖像標註,以及現在的大型語言模型。所以,與其用數學方法去搞懂靈巧性這檔事,我們何不就直接用端到端學習呢?我們來收集大量關於人類如何用手執行任務的資料,把它們餵給一個學習系統,然後靈巧的機器人控制能力就會「砰」地一聲冒出來。然後我們的公司就會值個幾十億美元。

別想太多了,幹就對了!

那些人形機器人公司和學術研究人員選擇的做法,主要是讓學習系統觀看人類執行操作任務的影片,並試圖從中學習機器人執行相同任務時該有的動作。在少數情況下,人類會遠端操控一台他們看得見的機器人,以及被操作的物體,而人類或許能得到一丁點的力道和觸覺回饋——但這些回饋大多來自機器人的手部,而非手腕、手肘、肩膀或臀部,而且任何這類的觸覺數據都非常粗糙。

Benjie Holson 在他的部落格中指出了所收集數據的匱乏與低準確性,我完全同意他的批評。他的論點如下,說得很好,我就不班門弄斧了:

我看到目前可行的方法是「從示範中學習」(learning-from-demonstration)。大家會準備一些機器人和一些遙控操作介面(標準配備似乎是兩台一模一樣的機器人,你抓住並移動其中一台,另一台就會跟著動;或是用 Oculus 頭戴裝置搭配控制器或手部追蹤),然後一遍又一遍地(數百次)錄下約 10 到 30 秒的動作。接著我們就可以訓練一個神經網路來模仿這些範例。這種方法已經解鎖了一些步驟帶有混亂性質(例如拉毛巾的一角看它是否平整)或狀態空間極大(例如一個木塊有六個面,但一條毛巾卻可以有千百種皺摺方式)的任務。但仔細想想,這種方法的某些限制應該顯而易見。雖然每項都有例外,但大致趨勢如此。

手腕沒有力回饋。 機器人的表現永遠無法超越人類的遠端操控,而我們目前還沒有好的標準方法能將力道資訊回傳給人類操作員。

手指控制有限。 對於遠端操作員(以及 AI 基礎模型)來說,要精細地看見並控制所有機器人手指,而不只是單純的張開/閉合,是非常困難的。

沒有觸覺。 人手佈滿了密密麻麻的感測器。要讓機器人手部擁有接近這種等級的感測能力,並能為人類遙控操作員所用,目前還辦不到。

精準度中等。 根據影片來猜測,我認為我們執行任務的精準度大約在 1 到 3 公分之間。

摺毛巾和 T 恤不需要太大的手腕力道。 你只要用捏握的方式拉起和提起,再張開手攤平,光靠手掌的開合就能搞定。你可以用眼睛看到自己的抓握方式,所以不需要手指的感測。1 到 3 公分的精準度也綽綽有餘。

沒錯,這就是現實。人形機器人公司和許多學術專案,正試圖單靠展示動作來訓練機器人進行靈巧的操作,而完全不讓它們使用任何力道或觸覺回饋。

舉例來說,Figure 公司上週宣布了他們的「 大計畫 」(project go big),內容是關於他們將如何訓練機器人學習新技能。這沒什麼好驚訝的,因為這跟他們一直以來所說所展示的如出一轍。以下是他們對此計畫的說明,粗體是我標的:

傳統上,教導機器人新技能需要昂貴的示範、手動編寫程式,或是在嚴格控制的環境中進行,但這些方法都無法捕捉真實世界的雜亂無章。然而,人形機器人具備一項獨特的結構優勢:它們的視角和運動學原理與我們人類如出一轍, 這使得直接從日常的人類影片中轉移知識成為可能 (影片 1)。

[[順帶一提,影片 1 的場景一點也不亂,也不擁擠,跟一般人住的真實家庭完全不一樣。影片 2 和影片 3 也是如此。]]

他們的意思是,他們打算透過觀看人類操作的第一人稱視角影片,來訓練他們的機器人學習新的手動技能。

就在一個月前,《eWeek》的一篇新聞報導也提到,Tesla 正全力投入單純透過觀看人類執行任務的影片來進行訓練。報導中說:

Tesla 已經改變了其人形機器人 Optimus 的訓練策略。他們不再依賴動態捕捉服和遠端遙控,而是轉向一種純視覺的方法。

現在,工作人員會穿戴由頭盔和背包組成的攝影裝置,上面裝有五個自家開發的攝影機,用來記錄摺 T 恤或撿拾物品等日常瑣事。這些影片接著會被用來訓練 Optimus 模仿這些動作。

報導中稍後提到:

佛羅里達農工大學與佛羅里達州立大學(FAMU-FSU)機器人實驗室主任 Christian Hubicki 向《商業內幕》(Business Insider)指出,這種多角度的攝影機設置很可能捕捉到「像是關節和手指位置等微小細節」,讓數據更加精確。

Figure 和 Tesla 都深信,只要有大量人類用手做事影片,就足以訓練人形機器人學會用手做事。他們賭的是,單靠機器學習來觀看海量的人手動作,就足以學會靈巧的操作。他們相信,視覺上的精確度和龐大的數據集就夠了。[[當然,他們也可能在跟我們裝蒜,畢竟 30 兆美元的誘惑實在太大了,就算對一個已經非常有錢的人來說也是如此,他們可能只是不想讓競爭對手知道自己真正的底牌。不過,在接下來的討論中,我會姑且相信他們說的話。]]

三、端到端學習取決於你選擇的「兩端」

過去二十年來,語音轉文字、影像標記,以及大型語言模型(LLMs)生成的流暢語言,都透過端到端學習(end-to-end learning)和線性閾值神經模型,經歷了驚天動地的轉變。

在語音和影像領域,新方法的效能展現了突破性的提升。在這兩種情況下,成功的關鍵在於盡可能將一切交給學習方法處理。對語音來說,這意味著拋棄了過去所有主流方法所依賴的音素(phoneme)明確模型(這玩意兒非常依賴特定語言)。對影像標記來說,這意味著捨棄了所有關於線條(邊界)偵測、形狀、陰影或顏色恆常性(color constancy)的概念,而這些概念曾主導了近代影像理解的研究。

LLMs 在語言和回答一般問題方面展現出的熟練程度(儘管至今仍有胡說八道的強烈傾向),遠遠超乎任何人的預期。它們之所以能做到這點,是因為排除了語言之外任何與世界相關的參照或直接經驗。它們是自成一格的語言機器,完全沒有大家長久以來預期、甚至認為是必要的「符號接地問題」(symbol grounding problem),也就是根植於真實世界經驗的基礎。[[就連 Alan Turing 在他那篇寫於 1948 年、直到 1970 年才由 Bernard Meltzer 和 Donald Michie 編輯收錄於《Machine Intelligence 5》的傑作《Intelligent Machinery》中也提過這點。在該書第 13 頁,Turing 曾說,要打造出智慧機器的可靠方法是「將人視為一個整體,並嘗試用機器取代他所有的部分」。今天我們可能會說「打造一個人形機器人」;真有先見之明!至於根植於真實世界經驗這點,他接著說:「為了讓機器有機會自行探索事物,應該允許它在鄉間漫遊,但這對普通公民會造成嚴重危險」(這是我加的重點)。他的結論是,以當時的技術來說,這太難做到了。又是兩個充滿遠見的例子。]]

這些都是顛覆性的改變,讓包括我在內的大多數研究人員都感到暈頭轉向。但無可否認,這些新方法的成效遠勝於我們過去所見過的任何方法。

2019 年 3 月 13 日(LLM 問世前),Rich Sutton(他後來因在強化學習領域的貢獻,與 Andrew Barto 共同榮獲 2024 年圖靈獎)發表了一篇帶點勝利意味的簡短部落格文章,標題是《 慘痛的一課 》(A Bitter Lesson)。在文中,他將自己的論點應用到比我這裡提到的更多案例上,還納入了大規模搜索讓電腦在西洋棋和圍棋上表現遠超人類的角色。

他針對搜索和學習兩種方法都表示:

而人類知識導向的方法,往往會讓方法變得更複雜,使其較不適合利用那些仰賴運算力的通用方法。

接著他繼續討論西洋棋、圍棋、語音和影像。他主張完全反對在建構問題時使用人類的偏見。但我當時認為,現在也依然這麼認為,在所有這些成功的案例中,人類知識其實都扮演了重要角色,因為所謂的「端到端」,其「兩端」究竟是什麼,還是得由人類來指定。

在 Sutton 發表文章六天後,我以一篇同樣簡短的部落格文章《 更好的一課 》(A Better Lesson)作為回應。我在那篇文章中指出,這種方法在規模化方面存在一些普遍問題,正如我們現在所見,它需要龐大的能源和伺服器,還得僱用數千名人力來準備資料集,這本身就與「讓人們置身事外」的論點背道而馳。

最重要的是,我指出影像標記並非一個從影像開始、到標籤結束的純粹端到端過程。相反地,它使用了一個卷積網路(convolutional network)作為前端,來建構學習演算法存取影像的方式。雖然我當時沒有對語音轉文字或尚未問世的 LLMs 提出類似的論點,但我現在要主張,這三者之所以成功,都是因為工程師們針對特定案例,打造了專屬的前處理程序,而這些程序仰賴的是直接模擬(而非學習)人體生理學的某些部分。

以下是在這三個案例中,針對學習所做的調整,也就是對資料進行硬編碼的前端處理。

3.1 語音轉文字

語音轉文字的任務,是接收人對麥克風說話的訊號,並輸出一串代表所說詞語的文字。今天,我們都習慣跟各種機器對話,像是 Alexa、電視遙控器、汽車、客服專線,或是其他五花八門的裝置和管道。所有這些應用都使用語音轉文字技術,將詞語輸入系統,然後系統會(我們希望啦)做出適當的回應。這項技術直到最近二十年才變得實用,而這正是對龐大資料集進行端到端學習的成果。在這些資料集中,麥克風的輸入和正確的文字字串都是現成的,學習系統從中學會如何從輸入訊號生成文字。

要讓聲音訊號進入電腦進行學習,方法有很多種。我們可以將麥克風的類比輸出,以每秒數萬次的頻率將訊號的音量數位化,並以此作為學習的輸入。但實際上,我們並不是這麼做的。

事實上,這項技術仰賴的是二十世紀為全球電話網路的實用口語通訊所開發的技術。當時,為了讓單一線路能容納更多通話,訊號會針對個別語音線路進行壓縮。這項研究確定了訊號中必須保留的面向,才能讓人類聽懂遠方說話者的內容。如果人類能聽懂這種壓縮訊號,就表示理解語音所需的所有資訊,都還保留在訊號裡。

各種語音轉文字學習系統的輸入方式不盡相同,但以下是一些常見的前處理步驟。類比輸入訊號會以固定頻率(例如 16kHz)進行取樣,接著用高通濾波器增強高頻,因為這對辨識子音很重要。然後,訊號會被切成一個個訊框,例如長度 25 毫秒,重疊 10 毫秒。每個訊框都會經過處理,確保後續的快速傅立葉轉換(FFTs)不會因為視窗太短而受到影響。過程中可能還會進行一些降噪處理。接著,訊號會透過一種或多種方法(如 FFT、梅爾濾波器組、輸出對數、餘弦轉換等)被細分為不同的頻段。在某些實作中,會先只對訊框進行初步訓練,以便在深度網路的早期階段就能辨識出與語言相關的訊框特徵。

不同的實作會選用這些技術或其他技術的不同組合,但重點是,在所有這些輸入訊號轉換**之後**,端到端學習**才**會被應用在處理後的輸出上。

此外,所有這些訊號轉換技術,最初都是為了讓人類的語音可以被儲存,並在不同的時間和地點被聽到而開發的。這些轉換技術的重點在於,它們讓人們可以沿用既有的聽覺機制來理解語音,而不需要對人類本身做任何改變。

3.2 影像標註

自 2012 年以來,透過*深度學習*進行影像標註,已成為電腦視覺領域詮釋影像內容的主流方法。但深度學習並非從相機輸出的原始像素開始,而是在兩個方面向非學習性的人類生理機制低頭。

相機輸出的資料是一串線性的像素值,有時候甚至是紅、綠、藍(RGB)三種直接測量顏色的獨立數據流。現代數位相機配備了全域(電子)快門,讓光線穿過鏡頭,將電子撞入一個矩形陣列的小凹槽中,所有凹槽同時開始和停止收集。接著,這些凹槽裡的內容會被移到相鄰的凹槽,再由類比數位轉換器讀取,基本上就是讀取特定凹槽中的電子數量。這些數據會以由左至右、由上至下的順序,或顛倒過來的順序,以一連串橫列的方式讀出。這就是一條,或對彩色影像來說是三條,線性的數據流。

深度學習並不是直接處理這串數據流。相反地,它會將這些數字排列成一種資料結構,重現原始像素的相鄰關係,如果是彩色影像,還會疊加三種顏色。這在任何電腦影像處理中都是標準作法,但這是一種刻意施加的明確結構。動物並不會將牠們看到的影像序列化,而是從視網膜上的每個「像素」都有一條纜線,直接連到大腦皮質的一片扁平細胞陣列,並保留視網膜上像素(或稱感光器)的幾何排列。這些纜線在出生前就已經組織成規律的陣列,透過相鄰視網膜細胞局部性的興奮脈衝,引導另一端的纜線(也就是神經軸突)發展,模擬出這種興奮的局部性。

接著,深度學習的前幾層會採用一種特殊結構,讓學習過程以一種平移不變的方式學習同樣的事物;也就是說,一張影像左下角的貓,和影像中上方的貓,會用完全相同的方式被辨識出來。這種特化的網路就是卷積神經網路 ,一種專門用於處理大型影像視覺的結構。

在 2015 年 5 月 27 日的《自然》期刊(付費牆文章)中,由 Yan LeCun、Yoshua Bengio 和 Geoffrey Hinton(三位 2018 年圖靈獎得主)共同發表的文章 《深度學習》 中,作者們提到:

首先,在影像這類陣列資料中,局部的值群組通常高度相關,形成獨特的局部基元,很容易被偵測到。其次,影像和其他訊號的局部統計特性具有位置不變性。換句話說,如果一個基元能出現在影像的某個部分,它就可能出現在任何地方,這也催生了讓不同位置的單元共享相同權重、並在陣列不同部分偵測相同模式的想法。

他們接著將這種架構的功勞歸於福島邦彥(Kunihuko Fukushima),他致力於手寫字元的辨識學習(在反向傳播演算法出現前),幾年後 Yan LeCun 也做了類似的研究(在反向傳播演算法出現後)。我能找到福島邦彥最早關於這個主題的非付費英文論文,發表於 1979 年在東京舉行的國際人工智慧聯合會議(IJCAI),這篇三頁的論文收錄在會議論文集第一卷的第 291 頁。[[那是我第一次發表自己論文的國際會議,我的論文也收錄在同一卷,內容是關於一種更古老且基本上已被淘汰的影像物件辨識方法。]]

福島邦彥將這種方法的靈感歸功於 David Hubel 和 Torsten Weisel 對貓與猴子大腦皮質中皮質柱結構的研究,他們也因此在 1981 年獲得諾貝爾獎——關於這項工作的總結,可以參考 David Hubel 的諾貝爾獎演講 。福島邦彥模仿了 Hubel 和 Weisel 發現的簡單細胞複雜細胞 (他們分別稱為 S 細胞和 C 細胞),然後將 Hubel 和 Weisel 的超複雜細胞在他建立的模型細胞中,再細分為兩種亞型。這些細胞能夠辨識出影像中無論出現在何處的常見基元。

在上述那篇付費的《自然》期刊文章的圖二中,你可以看到這種結構在交替的層級中發揮作用,正如 LeCun 等人所說:

卷積神經網路(ConvNets)背後有四個關鍵概念,利用了自然訊號的特性:局部連接、權重共享、池化以及多層結構的使用。

在包括人類在內的動物中,視網膜上的感光器解析度還有另一種變化,靠近視野中心的感光器排列得更緊密,因此解析度更高。許多動物,包括人類,會利用眼球極快速的運動,也就是「掃視」(saccades),將眼睛的高解析度區域對準影像的不同部分——你現在閱讀這些文字時就在這麼做,沿著每一行掃視,然後跳到下一行,每次只停留不到一秒就繼續移動(並在移動眼球時抑制你的運動感測器)。

深度學習視覺領域的大型卷積網路,透過在整個影像中重複共享權重,實現了高解析度的辨識能力,從而免去了這種前置作業的必要。

再說一次,這並非純粹的端到端學習。它其實是對我們大腦中極其複雜的部分進行了非常精細的複製,並將其結構化地融入學習機器中。儘管人們對那種「完全由機器學習,不受人類錯誤結構選擇干擾」的想法抱持著浪漫的幻想,但深度學習的影像標註,實際上是建立在一套非常複雜且精妙的前端工程之上,而這套工程正是特意模仿了在動物大腦中發現的結構。不僅如此,它還仰賴我們開發出的影像擷取與窄頻傳輸技術(也就是將影像序列化),好讓即使身處不同時空的人類,也能透過視覺系統理解原始場景。

3.3 大型語言模型

大型語言模型(LLMs),例如 ChatGPT 或 Gemini,是透過大量文本進行訓練的,過程中沒有任何外部輸入來解釋這些文本的含義。從這個角度來看,學習機制似乎是自己搞懂了一切。

然而,無論是在學習的早期階段,還是在之後處理任何輸入文本時,人類語言的結構,以及輸入的特定語言的某些面向,都已經被用來設計一些預處理程序和內部表徵的某些環節。實現這一點的兩種機制涉及「詞元」(tokens)和「嵌入」(embeddings)。[[當然,還有 2017 年發明的整個 Transformer 機制,包含多頭注意力機制、一次一步的附加與移位輸出再重新路由回輸入等等。這其中蘊含了大量由人類創造的架構與工程,是 LLMs 運作的關鍵,這也進一步挑戰了那種堅持「端到端學習、不含人類偏見」的說法。不過,我這裡只討論前兩小節和本節共通的早期資料處理手法。]]

任何特定語言的基本單位,都是以線性詞元序列的形式呈現給 LLM。以英文為例,大約使用了五萬種不同的詞元,包括 dog(狗)、cat(貓)、fish(魚)、game(遊戲)、run(跑)、ingedpresubduemarinefetchauto 等。詞元可以是完整的單字、字首、字尾、或單字中常見的組成部分等等。

在訓練 LLM 的最初階段,會以一種基本上無監督的方式,從特定語言的文本中學習詞元。大量的該語言文本被輸入到一個詞元學習系統中,該系統會根據詞元在訓練語料庫中的常見程度,提出可能的候選詞元,並附上它們的常見程度統計數據,以及它們是否以及如何與單字內的其他詞元組合。根據這些統計數據,系統會自動選擇要使用的離散詞元數量,其評分標準是基於詞元的頻率,以及它們將單字拆分成其他常見詞元的效果。

一旦選定了詞元,一個稱為「詞元分析器」(tokenizer)的小程式就會被用來將所有輸入的語言分解成這些詞元的字串。

接下來,這些詞元會被嵌入到一個高維度的向量空間中,這個空間通常有 N 個維度,N 是一個固定的數值。近年來,隨著 LLMs 接受更多訓練以產生更大的模型,N 的數值也變得越來越大。對於 ChatGPT-2,N 是 1280,但到了 ChatGPT-3,N 則增加到 12288。

這個嵌入是需要學習的,也就是說,向量空間中每個維度的座標都必須為每個詞元填上數值。這是透過第二個「正式訓練前」的學習練習來完成的。在這個練習中,系統會觀察在原始文本中,當上下文的周圍詞元相似時,任何兩個詞元可以互相替換的方式。這種學習方式似乎最終會為詞元選擇出這樣的嵌入:它們在整個嵌入空間的不同子空間(根據向量空間子空間的標準定義)中的距離,對應到某種程度的相似性。舉例來說,在某個子空間中,orange(橘色)和 red(紅色)的距離可能比它們各自與 fruit(水果)的距離更近;但在另一個子空間中,相較於 orangefruit 的接近程度,red 可能就成了局外人。第一個子空間可能更對應到顏色,而第二個子空間則可能是在考量這些詞彙可以指代世界上哪一類有形物體。但這樣的決策並非由人類做出,無論是類別還是距離,都是透過從資料中學習而產生的。

打造新 LLM 的團隊,很早就根據他們對雲端服務費用的容忍度,選定了 這個數字,因為這會大大影響訓練 LLM 所需的資料量,以及需要學習的參數數量。

一旦有了這樣的嵌入,代表 LLM 的神經網路在最初階段,就會將分詞器輸出的每個詞元,轉換成它在嵌入中的向量位置。所以,以 ChatGPT-3 的例子來說,其中 ,每個詞元都會立刻被轉換成 12288 個數字。

由此可見,這其中投入了大量的人工工程與知識,包括詞語組成成分的概念、詞語的各種意義,以及如何在不理解意義的情況下從語言中提取相似性。這些知識都被應用於語言的預訓練方式中。

從某種意義上說,詞元是「準符號」(proto-symbols),但與傳統符號不同的是,重要的不是它們獨一無二的身份,而是它們在系統內與其他準符號的比較方式。而且,這些準符號是基於人類語言的組成部分,也就是一種叫做「書寫」的發明,用來在人與人之間傳遞語言,而無需透過聲音或同步的方式——書寫可以在任何時間、任何地點被閱讀,甚至在作者去世很久之後。

3.4 這三種端到端學習應用的共通點

這三個端到端學習的巨大成功,都仰賴於下游非常特定領域的學習架構。但它們也都各自仰賴於對資料流進行特定領域的早期處理。

在這三個案例中,早期的處理是為了其他目的而建立的——讓語言能被聽到或讀到,讓影像能被看到,而且是在完全不同的地點和非同步的時間。

我們對於觸覺資料並沒有這樣的傳統。對我們來說,至少目前為止,觸覺僅限於我們親身(雙關語啦)感受到的即時觸碰。我們這個物種尚未發展出能夠捕捉觸覺、儲存觸覺、跨越時空傳遞觸覺,或是將其重播給自己或他人的技術。

在下面第四節,我會說明觸覺對於人類的靈巧度有多麼重要。

如果以為我們可以在不了解觸覺的組成成分、無法測量觸覺感受、也無法儲存和重播觸覺的情況下,教會機器靈巧,那大概是蠢到家了。而且還會是個代價高昂的錯誤。

四、為什麼「端到端」學習無法破解靈巧性

我論點的核心是,那些被大家理所當然吹捧為偉大成就的暴力學習法,其實都仰賴針對特定案例、精心設計的前端系統,才能從現實世界嘈雜的原始訊號中,提取出正確的資料。

如果那些重大成功都是如此,那麼想用暴力學習法來學會靈巧性,恐怕也不例外。任何個人或團隊若想成功,他們很可能必須同時收集到** 對的資料 **,並學到** 對的東西 **。然而,目前大多數教導人形機器人靈巧性的專案,這兩件事都沒做到。學術實驗室裡確實有一些令人興奮且深具潛力的實驗正在進行,但它們離展現任何真正的靈巧性還差得遠。根據我的機器人第三定律 ,即使是具備最基本靈巧性的人形機器人,距離首次實現商業獲利部署,也還有十年以上的時間。

人類的靈巧性仰賴豐富的觸覺。而且對人類來說,靈巧性不只關乎雙手,還常常牽涉到手肘、身體正面、腿部和腳(許多機器都有腳踏板)。我不會在這裡提出一個像正式學術論文那樣全面完整的論證,但我會展示一些從過去五十年來,經過同儕審查的紮實學術研究中隨機挑選的成果,這些成果共同證明了人類在日常活動中,廣泛地運用觸覺和力道感測。

4.1 人類的觸覺極其豐富且複雜

以下這兩支影片來自瑞典于默奧大學(Umeå University)的 Roland Johansson 實驗室,他在那裡研究人類觸覺數十年。在第一支影片中,受試者從火柴盒中取出一根火柴並點燃,整個過程花了七秒。在第二支影片中,同一個人再試一次,但這次她的指尖被麻醉了,所以指尖完全沒有觸覺。她仍然能感覺到手指和手掌其他部位的許多事物,以及骨骼肌系統平常能感受到的所有力道。

The two URLs in case your browser does not point at the YouTube videos below: www.youtube.com/watch?v=zGIDptsNZMo www.youtube.com/watch?v=HH6QD0MgqDQ

在指尖失去觸覺後,這位受試者多次嘗試從盒子裡拿起火柴都沒成功,接著想撿起一根掉在桌上的火柴也失敗了,然後她又回到盒子旁把火柴弄整齊,總算拿起一根,卻又笨拙地想在指間把火柴調整到正確的方向,最後花了比有靈敏指尖時多四倍的時間,才成功點燃火柴。

看來,人形機器人若想完成上述這類任務,勢必需要觸覺,而且是目前任何實驗室都還沒能打造出來的觸覺等級。這類任務的難度,與世界上某些地區數百萬工人每天從早到晚在做的工作不相上下。[[我參觀過美國、中國、日本、韓國、台灣和德國超過 100 家工廠,有些是我的公司打造五大系列機器人(Roomba、PackBot、Baxter、Sawyer 和 Carter)的地方;有些是我去銷售機器人,以提升工廠工人產能的地方;還有些則是我擔任經營這些工廠的公司的技術顧問。在所有這些工廠裡,我都親眼目睹了人類將這種以及許多其他類型的靈巧性,應用在複雜的任務上。]]

一篇 1979 年回顧 Johansson 早期研究的論文指出,人手無毛的皮膚(glabrous skin)上約有 17000 個低閾值機械感受器,光是每個指尖就有約 1000 個,而手指其餘部分和手掌的密度則低得多。這些感受器分為四種類型(慢速適應 vs 快速適應,以及非常局部的敏感區域 vs 範圍大得多的區域),當它們感覺到壓力施加或釋放時就會觸發。

接下來,我將簡要談談哈佛大學(Harvard)的 David Ginty 和他實驗室學生的研究。你可以在這裡看到該實驗室自 1987 年以來完整的論文列表 。Ginty 實驗室的使命是:

我們運用分子遺傳學、解剖學、生理學、行為學和系統神經生物學等方法,來理解哺乳動物的體感神經元,以及構成我們觸覺的中樞神經系統迴路。

一篇總結 Ginty 近四十年研究成果的報導,是這樣描述觸覺的:

觸覺涉及五花八門的刺激,包括戳、拉、吹、撫摸和振動,還有各種溫度和化學物質,例如辣椒中的辣椒素或薄荷中的薄荷醇。從這些輸入中,產生了壓力、疼痛、搔癢、軟硬、冷暖等知覺,以及身體在空間中的本體感覺。

該文章接著報導,目前已發現十五種不同的神經元家族與觸覺感知有關,而且這些神經元都存在於人手中。

這些神經末梢的分工出乎意料地精細。靠近皮膚表面的扁平狀結構,稱為「默克爾細胞複合體」(Merkel cell complex),負責感應輕微的按壓。默克爾細胞在你的嘴唇和指尖上特別多,讓我們能夠辨別形狀和質地。你的手指也佈滿了稱為「邁斯納小體」(Meissner corpuscles)的盤繞神經末梢,它們像一團球狀的纏結物,包覆著支持細胞。當你抓握物體時,這些感應器會捕捉到物體在手中輕微滑動所產生的微弱、細小的振動,使你能夠精準地使用工具。在皮膚更深層,則有洋蔥狀的「巴齊尼氏小體」(Pacinian corpuscles),能偵測地面的震動;還有紡錘形的「魯菲尼氏小體」(Ruffini endings),負責傳遞皮膚的伸展感。

觸覺是一套非常複雜的感應器與處理過程,它所提供的資訊,遠比單純的局部壓力來得更豐富,而且會隨著時間和動作而變化。

接著來談談人類更普遍的層面,以及我們在操作物體時的感受。除了上述的觸覺,骨骼肌也能感知到自身施加或承受的力量。肌梭負責偵測肌肉的長度和伸展情況,而高爾基腱器則感應肌肉的張力,從而感知施加在肌肉上的力量。

我們也會根據視覺和觸覺來評估物體,進而改變我們的姿勢和操作物體時施加的力量。又是 Roland Johansson,他描述了我們如何評估物體的材質,並根據已知的密度來預測需要使用的力道。有時候我們會判斷錯誤,但也能很快地調整過來。

過去二十年來,Roland Johansson 的研究重心轉向理解「預判」所扮演的角色,他觀察人類如何選擇適當的策略,來用手和身體完成任務。你可以在這裡閱讀他過去二十年的論文。他的論文標題包括:

  • 指尖的黏彈性使人類觸覺神經元能夠在編碼當前力道的同時,也記錄下受力的歷史
  • 人類的觸覺受器對指紋脊線等級的空間細節相當敏感
  • 學習手動任務中連續動作階段連結時的凝視行為
  • 活體楔狀核神經元中感覺量子的整合
  • 技能學習涉及優化動作階段之間的連結
  • 人類指甲邊緣的慢速適應機械感受器負責編碼指尖施加的力

這些都顯示了人類的抓握行為是多麼豐富多樣,遠非單純的手指運動所能概括,即便手指的位置可以被精確測量(請參考前面 2.2 節中提到的 Tesla 最新的數據收集策略)。

4.2 什麼才是對的數據?

只收集視覺數據,並不是在收集**對的數據**。人類的靈巧性還涉及太多視覺數據完全遺漏的面向。

除了收集視覺數據,有沒有人試圖做更多,並找到一個不同且更合適的「終點」來連結學習?

除了 Figure 和 Tesla 明確表示不這麼做之外,其他大公司都閉口不談。然而,有許多大公司正在研發人形機器人,這點從你朋友紛紛被哪些公司挖角,大概就能猜出個端倪。

不過,學術界仍在進行一系列健全的實驗。舉個例子,在 2025 年五月《機器人系統與科學》(Robotics Systems and Science)研討會的《靈巧人類操作》(Dexterous Human Manipulation)工作坊中,有一篇「 最佳論文 」,來自 MIT CSAIL 的 Pulkit Agrawal 團隊。他們發明了一種新方法,用來收集餵給機器學習的**正確資料**。如下面兩張圖所示,人類基本上是把手伸進一個手套裡。手套上牢牢固定著一個機器手臂,所以機器手臂距離人手大約十公分,並且完全平行。人類移動自己的手指來控制機器手臂的手指,並移動手臂讓機器手臂接觸要操作的物體。機器手臂的手指和手掌都裝有觸覺感測器,這些感測器會將資料傳送到資料收集系統, 並傳送給刺激人類指尖和手掌的致動器 [[這是我最初發文時的說法,但我誤解了一些東西,在一位讀者的提醒下,我聯繫了 Pulkit 澄清。現在斜體字的部分並不正確,因為並沒有主動的致動器在刺激人類。不過,從人類能感覺到關節層級的力量回饋這點來看,這個說法勉強算對。]] 所以,雖然這個系統沒有記錄人類用手臂直接感受和控制的力量,但它確實能將人類產生的手指動作與人類在決定如何控制機器手臂時所感受到的觸覺聯繫起來。

顯然,要完全理解人類如何運用其極度複雜的觸覺和力覺感測系統,還有很長一段路要走。但這一步已經超越了單純收集視覺資料,因為光靠視覺資料,根本不可能推斷出如何變得靈巧。

[[如果那些科技巨頭和創投公司,能把他們砸在大型人型機器人訓練上的錢,分個 20% 給大學研究人員,我倒覺得他們能更快地接近目標。]]

4.3 到底該學什麼?

最後,我想回到本節(第四節)開頭所說的,我們需要學習**正確的東西**。

目前產學界對於該學什麼的框架,源自於「強化學習」(Reinforcement Learning)(請見上方第三節的引言部分)。在強化學習中,學習的是一種「策略」(policy),它會將感測器當下傳回的「狀態」(state),對應到機器人當下應執行的特定「動作」(action)。

但無論是從個人經驗,還是從前面提到的那些觸覺研究人員的論文來看,人類在追求靈巧操作時,似乎有時會遵循一個計畫。感測到的資訊並非直接對應到動作,而是可能用來調整執行計畫的方式(或許可以將計畫表示為一個有限狀態機?)。因此,要想真正實現靈巧操作,我們需要找到一種方法,既能學會如何在某個奇特的子任務空間中進行規劃,又能學會如何利用觸覺層級的感測來調整這些計畫。

要搞清楚這一切,還有大量的研究要做。然後得花好幾年才能做出穩定的實驗室展示品,再花好幾年才能開發出能為客戶創造價值的可部署系統。

5. 人型機器人的另一個難題:走路

人型機器人的理想是擁有與人類相同的形態,以便在為人類打造的環境中運作。基於這個理想,我認為大家會期望它們在身邊是安全的,這點應該很合理。對於那些在家中為年邁人口提供照護的人型機器人來說,這一點尤其重要。但根據人型機器人的宏偉藍圖,在其他環境中也必須如此,因為它們的理念就是要融入人類空間。這意味著人類將與它們共享這些空間,否則,何不直接打造一台專門的「關燈工廠」機器來完成工作就好?

所以,如果真有人想大規模部署人形機器人,最重要的一點就是,這些機器人**必須能讓真人在它們身邊也感到安全**。這代表人類可以跟它們只有幾公分之遙、可以靠在它們身上尋求支撐、可以被它們觸碰和擺弄(就像長輩被人類照護員觸碰和攙扶,協助他們站立、洗澡、如廁、上下床等等)。

問題是,目前這種跟真人等身大小、用兩條腿走路的人形機器人,對周遭的人類來說並不安全。但支持人形機器人的論點,又偏偏建立在它們必須是全尺寸的基礎上,這樣才能在人類的空間裡活動,並執行所有人類的工作。

啊,可是你可能看過影片,或甚至像我一樣,在距離半身尺寸的人形機器人只有幾公分的地方走動,而且覺得它們挺安全的。所以你推斷,要把這些機器人做大,只是時間早晚的問題。但物理定律可不是吃素的,這就是它要來跟你算總帳的地方。

目前的人形機器人走路的樣子,跟人類一點也不像。人類是個充滿彈性的彈簧系統,走路時幾乎不太需要神經控制。事實上,你可以看到一些純機械的雙足步行模型,它們不需要任何電力,只靠著機械結構的被動動力學,就能沿著緩坡走下去,並從下坡的過程中竊取位能來驅動自己(完全是機械式的)。

這裡有個簡單的例子:

The URL is www.youtube.com/watch?v=wMlDT17C_Vs

除了這種根本性的結構,我們還有一套能量回收的架構,這套架構由我們的肌肉和肌腱組成。我們會將能量儲存在肌腱裡,並在下一步時重複利用——我們每隻小腿後方的阿基里斯腱,就是儲存最多能量、也最容易斷裂的那條。

雖然學術界數十年來都在研究如何打造出像我們這樣走路的機器人,但他們的研究成果,還沒達到目前人形機器人設計所企及的實用程度。

然而,目前的人形機器人是靠強大的電動馬達來維持平衡,一旦偵測到不穩定,就會往系統裡灌注大量能量,其原理大多遵循一種叫做「零力矩點」(ZMP)的演算法。[[這個演算法已經存在很久了,在 2004 年《國際機器人學期刊》第一卷中,也就是本文第二節開頭秀出的那本,第 157 頁刊登了一篇來自塞爾維亞與蒙特內哥羅的 Miomir Vukobratović 和 Branislav Borovac 的論文,慶祝他們在 35 年前發明了這個演算法,算一算,這演算法至今大概已經 56 歲了。]] 雖然那些開發人形機器人的大公司對具體作法守口如瓶,但他們似乎是在 ZMP 的基礎上,又加入了一些「強化學習」(RL),來讓機器人走得更好、更少跌倒。ZMP 仰賴感測腳底的力道,所以所有的人形機器人都具備這項功能。但 RL 演算法需要整個結構非常僵硬,因此在走路的機械結構上,人形機器人跟人類根本是兩個極端。這些機器人雖然比較少跌倒,但一旦真的要倒了,對附近的人類來說還是非常危險。

當機器人在走路時偵測到不穩定,並透過灌注能量到系統中來穩定身軀,一切都還好,因為多餘的能量會在接下來的幾百毫秒內,透過腿部反向運動推向地面而消耗掉。但如果機器人不幸真的摔倒了,它的腿部會帶著大量的自由動能,在空中快速加速,而且通常是毫無阻礙的。這時如果路徑上有任何東西,就會被金屬結結實實地狠 K 一下。而如果那個「東西」剛好是個活生生的生物,往往會受傷,甚至可能傷得很重。

可是、可是、可是,半身尺寸的人形機器人不是很安全嗎?那一個全尺寸的人形機器人,又能危險到哪裡去?

這就是擴展定律(scaling laws)派上用場的地方,但這裡指的不是機器人數量上的擴展,而是物理系統的擴展定律。

如果你將一個物理系統在每個方向上等比例放大,比如說,將所有長度乘以一個比例因子 ,那麼系統的質量 將會增加 。由於 ,在相同的加速度下,你需要輸入 倍的能量。所以,對於一個大 50% 的機器人來說,這意味著 。而要從今天這種小型、還算安全的類人型機器人,變成兩倍大,你必須灌注 倍的能量。這將導致截然不同等級的潛在傷害。情況甚至可能更糟,舉例來說,一個肢體的質量會隨著 的三次方增加,但決定其強度的橫截面積,卻只會以二次方增加。[[這種擴展定律解釋了為什麼大象的腿相對於牠的體型來說,比蜘蛛的腿粗壯得多,即便後者有兩倍多的腿來支撐體重。]] 所以,體型大上一倍的機器人,腿部可能需要不成比例地加粗許多,這意味著質量更大,因此它們所需的能量將會是八倍以上。

我給人們的建議是,不要靠近一台全尺寸的步行機器人三公尺以內。那些開發步行機器人的公司也深知這一點。即使在他們的宣傳影片中,你也不會看到有人靠近正在移動的類人型機器人,除非他們之間隔著一張大桌子,即便如此,那些類人型機器人也只是稍微挪動一下腳步而已。

除非有人能開發出更優良的雙足步行機器人,讓人們靠近甚至接觸時都安全許多,否則我們不會看到類人型機器人獲准部署在有真人在場的區域。

6. 類人型機器人的未來是什麼?

科技會變,圍繞著科技的詞彙意義也會跟著改變。

當我在 2018 年 1 月 1 日對未來科技做出一連串有時效性的預測時,「飛行車」和「自動駕駛車」的意義與今日大不相同。我在我最近的預測成績單中也指出了這一點。

「飛行車」過去指的是一種既能在路上跑,又能在天上飛的載具。現在這個詞的意思已經變成一種電動多旋翼直升機,可以在固定的起降點之間像計程車一樣飛行。經常被吹捧的版本是無人駕駛的。這些被稱為 eVTOL,也就是「電動垂直起降飛行器」。除了在現實中還不存在任何實用版本之外,飛行車(eVTOL)已經不再是車了,因為它們根本不會在地面上行駛。

在我做預測的時候,「自動駕駛車」意味著車輛可以自行駛向任何指定地點,無需人類進一步的操控。現在,「自動駕駛車」的意思是駕駛座上沒有人,但很可能(而且至今所有已部署的案例都是如此)有人類在遠端監控這些車輛 ,並偶爾向車輛發送控制指令。唯一的例外是 Tesla 的自動駕駛計程車,但那種情況下,前乘客座上坐著一位人類安全操作員。

循著這個模式,「類人型機器人」的定義也將隨著時間而改變。

不用多久(而且我們已經開始看到這種趨勢了),人形機器人的腳將會裝上輪子,一開始是兩個,後來可能會更多,其粗略外形再也看不出人類雙腿的影子。但它們仍然會被稱為人形機器人

接著會出現各種版本,分別有一隻、兩隻或三隻手臂。其中一些手臂會有五根手指的手掌,但很多會是兩指的平行夾爪,有些甚至可能是吸盤。但它們仍然會被稱為人形機器人

然後,還會出現配備大量非被動式攝影機感測器的版本,它們的眼睛會用主動光來觀看,或是在非人類可見的頻率範圍內偵測,它們的手上可能會有眼睛,甚至在胯下附近也會有眼睛向下看,以便在不平坦的地面上更好地移動。但它們仍然會被稱為人形機器人

為了應對人類能做的各種專業工作,將會出現許許多多不同形態的機器人。但它們全都會被稱為人形機器人

大把大把的鈔票將會消失,全花在試圖從現今的人形機器人身上榨出任何一丁點效能。但那些機器人早已被淘汰,而且大多被大家心照不宣地遺忘了。

這就是為你獻上的未來十五年光景。