DeepSeek FAQ
Length: • 3 mins
Annotated by Jimmy Su
Jimmy Su: Translated by Claude 3.5 Sonnet
今天是 1 月 27 日星期一,你怎麼還沒寫關於 DeepSeek 的文章?
我已經寫過了!我在上週二寫了關於 R1
的文章。
我完全忘記這件事了。
我願意負起責任。我仍然支持這篇文章,包括我強調的兩個最重要的發現(透過純強化學習產生的思維鏈,以及知識蒸餾的力量),我也提到了低成本(我在 Sharp Tech 中有詳細說明)和晶片禁令的影響,但這些觀察過於侷限於目前 AI 的技術水平。我完全沒有預料到這個消息對整體元討論會產生的更廣泛影響,特別是在美國和中國的層面上。
這樣的疏忽有先例嗎?
確實有。在 2023 年 9 月,華為發布了搭載 SMIC 製造 7nm 晶片的 Mate 60 Pro。對於密切關注這個領域的人來說,這款晶片的存在並不意外:SMIC 一年前就已經製造出 7nm 晶片(我更早之前就注意到這件事了),而台積電也曾經只用 DUV 光刻技術就量產 7nm 晶片(後來的 7nm 才開始使用 EUV)。英特爾多年前也只用 DUV 就製造出 10nm(相當於台積電 7nm)晶片,但無法達到有利可圖的良率;SMIC 使用現有設備製造 7nm 晶片的想法,特別是在不在意良率的情況下,對我來說一點都不令人驚訝。
我完全沒有預料到華盛頓特區會有如此激烈的反應。由於人們不了解晶片生產的複雜性,加上對華為 Mate 60 Pro 的出現感到措手不及,最終導致晶片禁令大幅擴大,culminated in 拜登政府將晶片銷售轉變為許可制度。我感覺過去 72 小時發生的事情也很類似:DeepSeek 究竟實現了什麼、沒有實現什麼,反而不如人們的反應以及這種反應所反映的既有假設來得重要。
那麼 DeepSeek 究竟宣布了什麼呢?
最靠近這個週末崩盤事件的公告是 R1
,這是一個類似 OpenAI 的 o1
的推理模型。然而,許多導致崩盤的揭露——包括 DeepSeek 的訓練成本——其實是在聖誕節期間 V3
發布時一併公開的。此外,支撐 V3
的許多突破性進展,實際上早在去年一月發布 V2
模型時就已經揭露了。
這種模型命名慣例是 OpenAI 所犯下的最大罪過嗎?
第二大罪過,最大的罪過我們稍後會提到。
讓我們倒序來看:V2 模型是什麼,為何它如此重要?
DeepSeek-V2
模型引入了兩項重要突破:DeepSeekMoE 和 DeepSeekMLA。DeepSeekMoE 中的「MoE」代表「專家混合系統」。某些模型,如 GPT-3.5,在訓練和推理過程中都會啟動整個模型,但事實證明,並非模型的每個部分都對當前主題必要。MoE 將模型分割成多個「專家」,只啟動必要的部分。GPT-4 就是一個 MoE 模型,據信擁有 16 個專家,每個約有 1,100 億個參數。
V2
所實作的 DeepSeekMoE 在這個概念上帶來重要創新,包括區分更細緻的專門專家,以及具備更通用能力的共享專家。關鍵在於,DeepSeekMoE 還引入了訓練過程中的新負載平衡和路由方法。傳統上,MoE 在訓練時會增加通訊開銷以換取高效推理,但 DeepSeek 的方法使訓練過程也變得更有效率。
DeepSeekMLA 是一個更重大的突破。推理運算最大的限制之一就是所需的記憶體容量:你不僅需要將模型載入記憶體,還要載入整個上下文視窗。上下文視窗在記憶體使用上特別昂貴,因為每個 token 都需要一個金鑰和對應的數值;DeepSeekMLA(多頭潛在注意力機制)讓金鑰值儲存得以壓縮,大幅降低推理運算時的記憶體使用量。
這些我一個字都聽不懂。
這些突破的關鍵影響——也就是你需要理解的部分——直到 V3
才變得明顯。V3
加入了新的負載平衡方法(進一步減少通訊開銷)和訓練中的多 token 預測(進一步提高每個訓練步驟的密度,同樣減少開銷):V3
的訓練成本令人驚訝地便宜。DeepSeek 聲稱模型訓練花費了 2,788,000 個 H800 GPU 小時,以每 GPU 小時 2 美元計算,總計僅需 557.6 萬美元。
那也未免太低了吧。
DeepSeek 明確表示,這些成本僅限於最終的訓練階段,並不包含其他支出;根據 《V3
論文》所述:
最後,我們再次強調 DeepSeek-V3 經濟實惠的訓練成本,如表 1 所示,這是透過我們優化演算法、框架與硬體的協同設計來達成的。在預訓練階段,DeepSeek-V3 每處理一兆個 token 僅需要 180K 個 H800 GPU 小時,也就是在我們配備 2048 個 H800 GPU 的叢集上運行 3.7 天。因此,我們的預訓練階段在不到兩個月內就完成了,總計使用了 2664K GPU 小時。加上擴展上下文長度所需的 119K GPU 小時,以及後訓練的 5K GPU 小時,DeepSeek-V3 的完整訓練僅需要 2.788M GPU 小時。假設 H800 GPU 的租用價格為每小時 $2,我們的總訓練成本僅為 $5.576M。請注意,上述成本僅包含 DeepSeek-V3 的正式訓練,不包括之前在架構、演算法或資料方面的研究和消融實驗的相關成本。
所以,想要複製 DeepSeek 這家公司,並不是花 $5.576M 就能辦到的。
我還是無法相信那個數字。
事實上,一旦你理解了 V3
的架構,質疑者才是需要提出證據的一方。回想一下關於 DeepSeekMoE 的特點:V3 擁有 6,710 億個參數,但每個 token 只需計算專家系統中的 370 億個活躍參數,相當於每個 token 需要 3,333 億次浮點運算。這裡要提到 DeepSeek 的另一項創新:雖然參數是以 BF16 或 FP32 精度儲存,但在計算時會降至 FP8 精度;2,048 個 H800 GPU 的運算能力達到 3.97 exaflops,也就是 3.97 億億次浮點運算。同時,訓練集包含了 14.8 兆個 token;經過完整計算後,可以發現 280 萬個 H800 小時足以完成 V3
的訓練。這僅是最終執行所需,不是總成本,但這個數字是合理的。
Scale AI 執行長 Alexandr Wang 表示他們擁有 50,000 個 H100。
我不清楚 Wang 的資訊來源;我猜測他指的是 Dylan Patel 在 2024 年 11 月的推文,提到 DeepSeek 擁有「超過 50,000 個 Hopper GPU」。然而,H800 也是 Hopper GPU,只是因為美國制裁的關係,記憶體頻寬比 H100 受到更多限制。
關鍵在於:我前面解釋的許多創新都是為了克服使用 H800 而非 H100 所帶來的記憶體頻寬限制。此外,如果你實際計算前面的問題,就會發現 DeepSeek 其實擁有過剩的運算能力;這是因為 DeepSeek 特別將每個 H800 上的 132 個處理單元中的 20 個設定為專門管理跨晶片通訊。這在 CUDA 中是不可能實現的。DeepSeek 的工程師必須降至 PTX——一種用於 Nvidia GPU 的低階指令集,基本上就像組合語言。這種極致的優化只有在使用 H800 時才有意義。
同時,DeepSeek 也開放他們的模型供推理使用:這需要比訓練時還要更多的 GPU 資源。
那這是否違反了晶片禁令?
並沒有。晶片禁令禁止使用 H100,但 H800 並不在禁令範圍內。大家都以為訓練前沿模型需要更高的晶片間記憶體頻寬,但這正是 DeepSeek 在優化其模型結構和基礎架構時特別著重的部分。
再次強調這一點,DeepSeek 在設計這個模型時所做的所有決策,都是基於必須使用 H800 的限制;如果他們能使用 H100,可能就會採用更大的訓練叢集,而不需要特別針對頻寬不足做這麼多優化。
所以 V3
是一個前沿模型嗎?
它確實能與 OpenAI 的 4o
和 Anthropic 的 Sonnet-3.5 相抗衡,而且似乎比 Llama 的最大模型表現更好。很可能的是,DeepSeek 成功從這些模型中提煉知識,為 V3
提供高品質的訓練標記。
什麼是知識提煉?
知識提煉是一種從其他模型中萃取理解的方法;你可以向教師模型輸入資料並記錄其輸出,然後用這些資料來訓練學生模型。這就是如何從 GPT-4 得到 GPT-4 Turbo 的方法。對一家公司來說,在自己的模型上進行知識提煉比較容易,因為他們擁有完整的存取權限,但你仍然可以通過 API 以較為繁瑣的方式進行知識提煉,甚至如果你夠有創意的話,還可以透過聊天客戶端來實現。
蒸餾技術顯然違反了各種模型的使用條款,但要阻止這種行為,唯一的方法就是透過 IP 封鎖、流量限制等方式切斷存取權限。在模型訓練領域,這種做法被認為相當普遍,這也解釋了為何越來越多模型的品質都在逐漸趨近 GPT-4o。這並不代表我們確切知道 DeepSeek 有蒸餾 4o 或 Claude,但老實說,如果他們沒這麼做反而不尋常。
蒸餾技術對頂尖模型來說似乎是個嚴重的問題。
確實如此!從正面來看,OpenAI、Anthropic 和 Google 幾乎可以確定都在使用蒸餾技術來優化他們面向消費者應用的推理模型;從負面來看,他們實際上承擔了訓練頂尖模型的全部成本,而其他人則是在搭便車。
的確,這可能是造成 Microsoft 和 OpenAI 逐漸分道揚鑣的核心經濟因素。Microsoft 有興趣為客戶提供推理服務,但對於投資 1,000 億美元建造資料中心來訓練頂尖模型則興趣缺缺,因為這些模型很可能在 1,000 億美元折舊完之前就已經被商品化了。
這就是為什麼所有科技巨頭的股價都在下跌的原因嗎?
從長遠來看,模型商品化和更便宜的推理成本——這點 DeepSeek 也已經證實了——對科技巨頭來說是件好事。在一個 Microsoft 能以極低成本為客戶提供推理服務的世界裡,代表 Microsoft 可以減少在資料中心和 GPU 上的支出,或者更有可能的是,由於推理成本大幅降低,使用量會顯著提升。另一個大贏家是 Amazon:AWS 基本上未能開發出自己的優質模型,但如果有高品質的開源模型可以讓他們以遠低於預期的成本提供服務,這就不是問題了。
Apple 也是一大贏家。推論運算所需的記憶體大幅減少,使得邊緣運算更具可行性,而 Apple 在這方面擁有最佳的硬體優勢。Apple Silicon 採用統一記憶體架構,意味著 CPU、GPU 和 NPU(神經網路處理單元)可共享記憶體資源;這也代表 Apple 的高階硬體實際上擁有最佳的消費級推論晶片(Nvidia 遊戲顯示卡的 VRAM 最高為 32GB,而 Apple 晶片可達 192GB RAM)。
同時,Meta 是最大的贏家。我在去年秋天就已經說明過了,Meta 的業務各個層面都能從 AI 中受益;實現這個願景的一大障礙是推論成本,而推論成本的大幅降低——加上訓練成本的顯著下降(考慮到 Meta 需要保持技術領先),使這個願景更容易實現。
而 Google 的處境可能更加不利:硬體需求降低的趨勢削弱了他們在 TPU 方面的相對優勢。更重要的是,零成本推論增加了取代搜尋引擎產品的可行性和可能性;誠然,Google 的成本也會降低,但任何偏離現狀的改變可能都是負面的。
我問為什麼股價會下跌,你剛才描繪的都是正面的景象!
我描述的是長期願景;現在是短期階段,市場似乎正在消化 R1 問世所帶來的衝擊。
等等,你還沒提到 R1
呢。
R1
是一個類似 OpenAI 的 o1
的推理模型。它具備思考解決問題的能力,尤其在程式設計、數學和邏輯(說得重複了)等領域,能產出更高品質的結果。
這比 V3
更令人印象深刻嗎?
事實上,我之所以在 V3
上投入這麼多時間,是因為這個模型實際展現了許多引發驚訝和爭議的動態特性。然而,R1
之所以值得注意,是因為 o1
一直是市場上唯一的推理模型,也是 OpenAI 作為市場領導者最明顯的標誌。
R1
從幾個重要層面打破了 o1
的神話。首先是它的存在本身,證明 OpenAI 並非擁有無法複製的獨特技術。其次,R1
——如同所有 DeepSeek 的模型——具有開放權重(之所以不說「開源」是因為我們無法取得用於訓練的資料)。這意味著,與其付費給 OpenAI 來獲得推理能力,你可以在自選的伺服器上或甚至在本地端執行 R1
,大幅降低成本。
DeepSeek 如何製作 R1
?
DeepSeek 實際上開發了兩個模型:R1
和 R1
-Zero。我認為 R1
-Zero 才是更重要的突破;如同我在上週二的更新中重點提到的:
在我看來,
R1
-Zero 才是更重大的突破。根據論文所述:在這份論文中,我們邁出了第一步,利用純強化學習(RL)來提升語言模型的推理能力。我們的目標是探索 LLMs 在沒有任何監督資料的情況下發展推理能力的潛力,專注於透過純 RL 過程進行自我演進。具體而言,我們使用 DeepSeek-
V3
-Base 作為基礎模型,並採用 GRPO 作為 RL 框架來提升模型的推理表現。在訓練過程中,DeepSeek-R1
-Zero 自然而然地展現出許多強大且有趣的推理行為。經過數千次 RL 步驟後,DeepSeek-R1
-Zero 在推理基準測試上展現出卓越的表現。舉例來說,在 AIME 2024 的 pass@1 分數從 15.6% 提升至 71.0%,透過多數決投票機制,分數更進一步提升至 86.7%,與 OpenAI-o1
-0912 的表現不相上下。強化學習是一種機器學習技術,它為模型提供大量資料和獎勵函數。最經典的例子就是 AlphaGo,DeepMind 給予模型圍棋規則,並以獲勝作為獎勵函數,然後讓模型自行摸索其他一切。這種方法最終的成效出人意料地超越了其他更依賴人為指導的技術。
然而,迄今為止的 LLMs 都仰賴人類回饋的強化學習;人類參與其中,協助引導模型,在獎勵不明確的困難抉擇中提供方向等。RLHF 是將 GPT-3 轉變為 ChatGPT 的關鍵創新,使其能產生結構完整的段落,以及簡潔且不會變得無意義的回答。
R1
-Zero 捨棄了 HF 部分,單純採用強化學習。DeepSeek 給予模型一系列數學、程式碼及邏輯題目,並設定兩個獎勵函數:一個用於評估答案正確性,另一個用於評估思考過程的正確格式。更值得注意的是,其技術相當簡單:不同於逐步評估(過程監督)或搜尋所有可能答案(如 AlphaGo 的方式),DeepSeek 鼓勵模型同時嘗試多個不同答案,再根據這兩個獎勵函數進行評分。最終產生的模型能夠自主發展推理能力和思維鏈,其中包含了 DeepSeek 所稱的「頓悟時刻」:
在 DeepSeek-
R1
-Zero 的訓練過程中,觀察到一個特別引人注目的現象,即「頓悟時刻」。如表 3 所示,這個時刻發生在模型的中間版本。在這個階段,DeepSeek-R1
-Zero 學會透過重新評估初始方法來分配更多思考時間。這種行為不僅證明了模型推理能力的成長,更展現出強化學習如何能帶來意想不到且 sophisticated 的結果。這個時刻不僅是模型的「頓悟時刻」,對觀察其行為的研究人員來說也是一種頓悟。它凸顯了強化學習的力量與優美之處:我們無需明確教導模型如何解決問題,只要提供適當的激勵機制,模型就能自主發展出進階的解題策略。這個「頓悟時刻」有力地提醒我們,強化學習具有開啟人工系統新智能層次的潛力,為未來更具自主性和適應性的模型鋪平道路。
這又一次有力地印證了《The Bitter Lesson》的論點:你不需要教導 AI 如何推理,只要給予足夠的運算能力和資料,它就能自己學會!
嗯,差不多是這樣:R1-Zero 確實會進行推理,但其方式往往讓人類難以理解。讓我們回到前言:
然而,DeepSeek-R1-Zero 面臨著可讀性不佳以及語言混雜等挑戰。為了解決這些問題並進一步提升推理能力,我們推出了 DeepSeek-R1,它採用了少量的冷啟動資料和多階段訓練流程。具體而言,我們首先蒐集了數千筆冷啟動資料來微調 DeepSeek-V3-Base 模型。接著,我們像 DeepSeek-R1-Zero 一樣執行以推理為導向的強化學習。在強化學習接近收斂時,我們透過對強化學習檢查點進行拒絕採樣來創建新的 SFT 資料,並結合來自 DeepSeek-V3 在寫作、事實問答和自我認知等領域的監督式資料,然後重新訓練 DeepSeek-V3-Base 模型。在使用新資料進行微調後,該檢查點會進行額外的強化學習過程,考慮所有場景的提示。經過這些步驟後,我們得到了一個稱為 DeepSeek-R1 的檢查點,其效能可與 OpenAI-o1-1217 相媲美。
這聽起來很像 OpenAI 在開發 o1 時所做的:DeepSeek 一開始就讓模型學習大量思維鏈推理的範例,以便學習適合人類理解的格式,然後進行強化學習來增強其推理能力,同時還包含了多個編輯和優化步驟;最終產出的模型似乎能與 o1 相互競爭。
在此,DeepSeek 似乎再次從知識蒸餾中受益,特別是在訓練 R1
方面。不過,這本身就是一個重要的啟示:我們正目睹 AI 模型在教導其他 AI 模型,以及 AI 模型在自我學習的情況。我們正在即時見證 AI 起飛的場景在逐步形成。
那麼我們離通用人工智慧(AGI)很近了嗎?
看起來確實如此。這也解釋了為什麼軟銀(以及孫正義所聚集的投資者們)願意提供微軟所不願提供的資金給 OpenAI:他們相信我們正在接近一個突破點,搶先佔得先機將會帶來實質的回報。
但現在不是 R1
領先了嗎?
我不這麼認為,這個說法被誇大了。R1
確實能與 o1
競爭,但其能力上的一些缺陷似乎顯示它在某種程度上是從 o1
-Pro 蒸餾而來。同時,OpenAI 已經展示了更強大的推理模型 o3
。DeepSeek 無疑是效率方面的領導者,但這與整體領先是不同的概念。
那為什麼大家都這麼緊張?
我認為有幾個因素。首先,儘管普遍認為中國在軟體方面不如美國,但中國已經趕上了美國頂尖實驗室,這令人震驚。這可能是我對大家反應如此強烈感到意外的最主要原因。事實上,中國擁有非常專業的軟體產業,在 AI 模型開發方面也有很好的實績。
其次是 V3
的低訓練成本以及 DeepSeek 的低推理成本。這部分確實也讓我感到很意外,但這些數字是合理的。這連帶使得所有人對 Nvidia 感到緊張,這顯然對市場產生重大影響。
第三點是儘管受到晶片禁令的限制,DeepSeek 仍然成功達成這項成就。不過,雖然晶片禁令存在許多重大漏洞,但我認為 DeepSeek 很可能是使用合法的晶片來完成這項任務的。
我持有 Nvidia 耶!慘了嗎?
這則新聞確實對 Nvidia 的優勢地位帶來了實質性的挑戰。Nvidia 擁有兩大護城河:
- CUDA 是所有開發者在程式設計這些模型時的首選語言,而 CUDA 只能在 Nvidia 晶片上運行。
- Nvidia 在整合多個晶片成為單一虛擬 GPU 的技術能力上遙遙領先。
這兩個護城河相輔相成。如前所述,若 DeepSeek 能使用 H100,他們很可能會選擇使用更大的運算叢集來訓練模型,因為這是較為容易的方案。正因為他們無法這麼做,且受限於頻寬,才促使他們在模型架構和訓練基礎設施方面做出諸多決策。看看美國的實驗室就知道:他們並未投入太多時間在最佳化上,因為 Nvidia 一直在積極推出越來越強大的系統來滿足他們的需求。最省力的方式就是付錢給 Nvidia。然而,DeepSeek 剛剛證明了另一條路徑的可行性:透過深度最佳化,即使在較弱的硬體和較低的記憶體頻寬下也能產出出色的成果。單純付更多錢給 Nvidia 並非製作更好模型的唯一途徑。
話雖如此,Nvidia 仍有三個有利因素。首先,若將 DeepSeek 的方法應用在 H100 或即將推出的 GB100 上,會有多大的潛力?發現更有效率的運算方式並不代表更多運算能力就沒有用處。其次,較低的推理成本從長遠來看應該會帶動更多使用量。Microsoft 執行長 Satya Nadella 在一則明顯針對市場的深夜推文中就指出了這一點:
第三,像 R1 和 o1 這樣的推理模型之所以能有更優異的表現,是因為使用了更多運算資源。AI 的能力和效能提升有多依賴更多運算資源,Nvidia 就能從中獲得多少效益!
然而,情況並非全然樂觀。至少 DeepSeek 的效率和廣泛可及性,已對 Nvidia 最樂觀的成長預期帶來重大質疑,特別是在短期內。模型和基礎設施優化所帶來的效益,也顯示在推理運算方面,探索替代方案可能會帶來顯著收益。舉例來說,在單一 AMD GPU 上執行推理運算變得更加可行,完全迴避了 AMD 在晶片對晶片通訊能力上的劣勢。推理模型同時也提高了專用推理晶片的價值,這類晶片甚至比 Nvidia 的 GPU 更具專門性。
簡而言之,Nvidia 的地位依然穩固,但 Nvidia 的股票突然面臨更多尚未反映在股價上的不確定性。這種不確定性進而會拖累整個市場。
那麼晶片禁令又如何?
最直觀的論點是,鑑於美國在軟體領域優勢迅速消退,晶片禁令的重要性反而更加突出。軟體和技術知識無法被禁運——我們早已經歷過這樣的爭論和領悟——但晶片是實體物件,美國限制中國取得是合理的。
同時,我們也該謙遜地認知到,先前實施的晶片禁令似乎直接促成了 DeepSeek 的創新。這些創新不僅適用於走私的 Nvidia 晶片或降級版的 H800,也適用於華為的 Ascend 晶片。事實上,我們完全可以說,晶片禁令的主要結果就是今日 Nvidia 股價的崩跌。
最令我擔憂的是,晶片禁令背後的思維模式:美國不是透過未來的創新來競爭,而是透過否定過去的創新成果來競爭。沒錯,這在短期內或許有效——畢竟 DeepSeek 若能取得更多運算資源,確實能發揮更好的效能——但從長遠來看,這種做法只會在美國具有主導地位的產業——晶片和半導體設備——埋下競爭的種子。
喜歡 AI 模型嗎?
AI 模型就是一個很好的例子。我在上文提到要談論 OpenAI 最大的罪行,那就是 2023 年拜登關於 AI 的行政命令。我在《Attenuating Innovation》中寫道:
重點是這樣的:如果你認同法規管制會鞏固現有業者的地位,那麼早期在 AI 領域佔優勢的公司,似乎特別熱衷於在華盛頓特區散播 AI 威脅論,這點就相當值得注意。儘管他們所謂的擔憂顯然還不足以讓他們停止開發工作。不,他們自詡為負責任的一方,是那些關心到要呼籲管制的人;如果這些對假想危害的擔憂能夠打擊必然出現的競爭對手,那就再好不過了。
這段話特別指的是 OpenAI,以及整個舊金山 AI 社群。多年來,我們一直看到這些致力於開發 AI 的人——同時也想要控制 AI 的人——不斷地對 AI 的危險性表示憂慮。這些所謂的危險正是 OpenAI 在 2019 年發布 GPT-2 時轉向封閉的藉口:
由於擔心大型語言模型可能被用於大規模產生具有欺騙性、偏見或濫用性質的內容,我們只發布規模小得多的 GPT-2 版本以及取樣程式碼。我們不會公開資料集、訓練程式碼或 GPT-2 模型權重......我們知道有些研究人員具備複製並開源我們研究成果的技術能力。我們相信目前的發布策略可以限制最初選擇這麼做的組織數量,也能讓 AI 社群有更多時間討論這類系統帶來的影響。
我們也認為政府應該考慮擴大或啟動相關計畫,以更系統化的方式監測 AI 技術對社會的影響與擴散程度,並評估這些系統能力的進展。若能落實這些措施,將可為 AI 實驗室和政府在做出發布決策及制定 AI 政策時,提供更完善的依據。
這份聲明中的傲慢程度僅次於其徒勞無功:六年過去了,如今全世界都能取得一個遠比當初更強大的模型權重。OpenAI 試圖藉由美國政府執法來控制局勢的策略已徹底失敗。在此同時,由於頂尖模型不開放權重,我們錯失了多少創新機會?更廣泛地說,他們花了多少時間和精力在遊說政府設立防護壁壘上,而這些壁壘現在已被 DeepSeek 摧毀,這些時間和精力若是用在真正的創新上,不是更好嗎?
所以你不擔心 AI 帶來末日的情境嗎?
我完全理解這些顧慮,而且剛才也提到我們正在進入 AI 訓練 AI 並自主學習推理的階段。不過我認知到,這股潮流是無法阻擋的。更重要的是,這正是開放性如此重要的原因:我們需要更多的 AI,而不是讓一個不需負責的董事會主宰我們所有人。
等等,為什麼中國要開源他們的模型?
說明一下 DeepSeek 的立場,執行長梁文鋒在一篇值得一讀的訪談中表示,開源是吸引人才的關鍵:
面對顛覆性技術,封閉原始碼所建立的護城河只是暫時的。即使是 OpenAI 的封閉原始碼策略也無法阻止他人追趕。因此,我們將價值重心放在團隊上——我們的同仁在這個過程中成長,累積專業知識,並形成一個能夠創新的組織與文化。這就是我們的護城河。
開源、發表論文,事實上不會讓我們有任何損失。對技術人才而言,看到他人跟隨你的創新會帶來極大的成就感。實際上,開源更像是一種文化行為而非商業行為,投入開源能為我們贏得尊重。對公司而言,這也具有文化吸引力。
採訪者詢問這種立場是否會改變:
DeepSeek 目前擁有一種理想主義光環,讓人想起 OpenAI 早期的風格,而且採取開源策略。你們之後會改為封閉原始碼嗎?OpenAI 和 Mistral 都從開源轉向了封閉原始碼。
我們不會改為封閉原始碼。我們相信,首要之務是建立強大的技術生態系統。
這種想法其實超越了理想主義層面。如果模型都成為商品化產品——現在確實看起來是這樣——那麼長期的差異化就來自於擁有更優越的成本結構;這正是 DeepSeek 所實現的,這也呼應了中國如何主導其他產業的模式。這與大多數美國公司思考差異化的方式相反,美國公司傾向透過開發差異化產品來維持更高的利潤率。
所以 OpenAI 完蛋了嗎?
不盡然如此。ChatGPT 使 OpenAI 意外成為一家消費科技公司,也就是說,一家產品公司。透過訂閱制和廣告的組合,他們有機會在可被商品化的模型上建立永續的消費者業務。當然,還有在 AI 突破性發展競賽中勝出的賭注。
相對而言,Anthropic 可能是這個週末最大的輸家。DeepSeek 登上 App Store 排行榜冠軍,凸顯出 Claude 在舊金山以外地區完全沒有獲得關注。雖然 API 業務表現較好,但 API 業務普遍最容易受到商品化趨勢的影響(值得注意的是,OpenAI 和 Anthropic 的推理成本看起來比 DeepSeek 高得多,是因為他們獲取了大量利潤,但這種情況即將改變)。
所以這一切聽起來都很令人沮喪,對嗎?
其實不然。我認為 DeepSeek 為幾乎所有人帶來了巨大的禮物。最大的贏家是消費者和企業,他們可以期待未來幾乎免費的 AI 產品和服務。從長遠來看,傑文斯悖論將主導局勢,所有使用 AI 的人都將成為最大的受益者。
另一群贏家是大型消費科技公司。在 AI 免費的世界裡,產品和通路將變得最重要,而這些公司已在這場遊戲中勝出;《起始的終結》的論點是對的。
中國也是一大贏家,這點我認為會隨著時間推移變得更加明顯。不僅是因為該國可以使用 DeepSeek,更重要的是,當中國意識到他們有能力與美國頂尖 AI 實驗室競爭時,DeepSeek 的相對成功很可能會進一步釋放中國的創新潛力。
這就只剩下美國,以及我們必須做出的抉擇。我們可以基於合理的邏輯,加倍投入防禦措施,例如大幅擴大晶片禁令,並對晶片和半導體設備實施類似歐盟科技管制的許可制度;或者,我們也可以認清現實——我們正面臨真正的競爭,並且真正允許自己參與競爭。不要再瞻前顧後,不要再為監管遊說——事實上,反其道而行,清除公司內所有與勝利無關的冗贅。若我們選擇競爭,我們仍有機會獲勝,而若我們真的勝出,我們還得感謝這家中國企業。