Anthropic 的安全超能力 | annotated by Jimmy

聽聽這篇文章的語音版:

Your browser does not support the audio element.

許多憤世嫉俗的人總愛將 Anthropic 的公開聲明,特別是圍繞模型發布的言論,定調為為了行銷而散播恐慌,對此我深感同情。就在兩個月前,Anthropic 剛發表了 Mythos Preview,並宣稱該模型過於危險而不宜對外公開,主因是其具備強大的網路安全攻防能力。結果兩個月後,該公司就公開發布了 Fable,也就是加裝了多重安全護欄版本的 Mythos。

根據我有限的經驗,Fable 是一款令人極度驚豔的模型。現在除了程式碼寫作效能之外,要客觀評估模型已越來越困難,但「主觀手感」是騙不了人的,我發現與 Fable 互動的體驗好得驚人;它讓包括 GPT 5.5 和 Opus 4.8 在內的其他模型,顯得既渺小又愚笨。我先前曾有過兩次這種震撼感,分別是 GPT-4 和 Grok 4,這兩者在基礎模型規模與複雜度上都代表了新一代的跨越;我的感覺是,Fable 源自於全新的預訓練過程,是新世代的首款作品。

就此而言,我確實買單 Fable/Mythos 在識別與利用資安漏洞方面更具威力的說法,也認為 Anthropic 謹慎分階段推出的做法是有道理的。然而,公開發布模型的問題在於,護欄是可以被破解(jailbreak)的,而顯然在發布後不久,這種事就真的發生了。

Anthropic 對決美國政府:第二回合

接下來發生的事情有些含糊不清。Anthropic 在一篇部落格文章中寫道:

美國政府援引國家安全職權,發布了一項出口管制指令,要求暫停任何外籍人士訪問 Fable 5 和 Mythos 5 的權限,無論該人士是在美國境內或境外,甚至包括 Anthropic 的外籍員工。這道命令產生的實質影響是,我們必須立即對所有客戶停用 Fable 5 和 Mythos 5,以確保合規。至於存取 Anthropic 其他所有模型的權限則不受影響。

我們在今天下午 5 點 21 分(東部標準時間)收到了政府的指令。信中並未提供關於國家安全疑慮的具體細節。據我們了解,政府相信他們發現了一種繞過或「破解」Fable 5 的方法。我們審視了一段展示影片,內容顯示該特定技術被用於識別少數已知且輕微的漏洞。這些漏洞看起來都相對簡單,而且我們發現其他市售的公開模型,即便不使用繞過技巧,也同樣能發現這些漏洞。

Anthropic 接著主張,非通用型的越獄(jailbreaks)是不可避免且影響範圍有限的,且目前並無證據顯示存在通用型越獄。與此同時,這次被發現的越獄行為似乎是由 Amazon 所通報,考量到 Amazon 既是 Anthropic 的投資者,也是該公司主要的推論(inference)服務供應商,這一點顯得格外引人注目。在我撰寫本文之際,1»Anthropic 的高層正待在華盛頓特區,試圖解決他們堅稱的一場誤會,而白宮官員則暗示,該公司領導層對正當的國家安全疑慮表現得毫不在意。

考量到目前仍有諸多事實存有爭議,我對這場衝突其實沒有太多補充;我並不感到意外的是這場衝突竟然發生了:我早已在《Anthropic 與對齊》(Anthropic and Alignment)中解釋過,美國政府與 Anthropic 之間的衝突是不可避免的。就此而言,那些爭辯 Mythos 威力尚不足以讓政府採取激烈行動的人根本搞錯了重點:如果現在威力不夠,下一個模型也會夠,或是再下一個,特別是現在模型在創造其繼任者方面已變得越來越管用。

然而,這引發了另一個問題——一個似乎驗證了憤世嫉俗者觀點的問題:如果 Mythos 如此危險,當初幹嘛要發表 Fable?又為什麼要跟一個正在做「你宣稱自己想要的事」的政府對著幹?事實上,我認為 Anthropic 的行為相當好理解;讓這間公司與眾不同之處在於它如何為這些行為辯護,正是這些辯護說詞既為憤世嫉俗者提供了燃料,也賦予了 Anthropic 它的魔力。

經濟上的必然性

在 AI 發展的最初幾年,絕大部分的經濟價值都流向了算力,原因顯而易見:供不應求導致價格飆升;最大的受益者是 Nvidia、TSMC 以及記憶體製造商(SK hynix、Samsung 和 Micron)。與此同時,Anthropic 和 OpenAI 為了打造領先群倫的模型,總共賠掉了數百億美元,而這些模型一旦發表,就會被開源模型(主要來自中國)進行蒸餾(distilled)並被商品化。

這代表了對這些研究實驗室的看空論點——由於其差異化優勢稍縱即逝,而免費的替代方案又變得「夠好用」,導致他們永遠無法回收成本——我認為這是一個正當的觀點。在一個模型可以互換的世界裡,模型就是大宗商品,而大部分價值會流向別處。目前價值流向算力,但長遠來看,只要我們有了充足的算力,價值鏈中最有價值的位置將始終如一:掌握與使用者的接觸點。

因此,我早已清楚察覺,尖端實驗室在經濟上有向使用者端靠攏的必然性。如果你掌握了與使用者的接觸點,你就擁有了實質的鎖定效應(lock-in),而掌握接觸點的最佳方式,就是成為滿足使用者一切需求的畫布。延伸來看,這意味著尖端實驗室正與軟體公司步上碰撞之路:軟體掌握著使用者接觸點,而尖端實驗室的長期利益在於不只是當軟體的商品化元件,而是直接取代軟體。

與此同時,軟體公司正努力反其道而行。Satya Nadella 在一篇發表於 X 的文章中,勾勒出他對於企業應如何基於模型進行建置的願景:

每家公司都必須建立起我所謂的「人力資本」與「代幣資本」(token capital)。人力資本涵蓋了員工的知識、判斷力、人際關係、獨創性以及模式識別能力;而代幣資本則是公司所建立並擁有的 AI 能力。最重要的一點是,人力資本的價值並不會隨著代幣資本的增長而貶低。相反地,它的價值只會更上一層樓!我相信,人類的主動性(human agency)將會是推動代幣資本成長的引擎。人類負責設定宏偉的目標、跨領域連結零散的資訊、建立人際連結,並辨識出最重要的模式。缺乏人類的指引,運算力只不過是在原地打轉。

這意味著真正的機會不在於挑選最強的模型,而是在模型之上建立一套學習迴圈,讓人力資本與代幣資本產生複利效應。你可以外包一項任務,甚至是一份工作,但你永遠無法外包你自己的學習過程。企業的未來,取決於將這種學習成效跨越人類與 AI 進行複利累積的能力。這需要一種全新的架構方法,讓每家企業都能建立起隨時間進化的代理系統(agentic systems),同時還能保有對智慧財產權(IP)的控制權。一家公司應該要有能力抽換掉「通才型」模型,卻不會損失內建於其學習系統中、如同「公司老臣」般的專業知識。這將是未來時代檢驗你是否擁有主導權與主權的關鍵「測試」。

Nadella 在開啟這番願景時,先行給出了一記警告:

我們最不樂見的情況,是全世界各行各業的公司都將價值拱手讓給少數幾個模型,任由它們吞噬一切。如果所有的價值都只堆疊在少數幾個模型上,政治經濟體系絕不會坐視不管。社會大眾絕不會允許一個掏空整個產業的 AI 未來。

想想全球化第一階段發生的事,當時整個工業經濟體因為外包而被掏空。表面上 GDP 數據看起來很漂亮,但勞動力被取代的衝擊是真實存在的,且其後果至今仍能感受到。我們不應將這種動態帶入 AI 時代,讓極少數的 AI 系統掠奪所有的經濟回報,而整個產業卻發現自己的知識在不知不覺中被商品化,徹底失去立足之地。

但這個類比的問題在於:全球化確實發生了,工業經濟體也確實被掏空了。這可能不只是個警告,而是一個預言;考慮到 Microsoft 可能是受害者之一,Satya Nadella 會敲響警鐘也就不足為奇。同樣地,對於模型開發者來說,達成這種壟斷局面正是他們的經濟必然目標。

資料的必然性

目前這些模型——甚至是 Mythos——都還沒達到那個程度。除了更多的運算力,它們還需要更多且品質更好的資料。模型的進步越來越依賴強化學習;雖然其中一部分可以透過合成產生,但對於頂尖實驗室來說,最強大的槓桿莫過於來自真實世界的實際應用。

我認為這就是為什麼 OpenAI 與 Anthropic 都提供高額補貼的訂閱方案的主因。SemiAnalysis 最近估計,一個 200 美元的方案就能讓你換取價值 8000 美元的 Claude 代幣,以及價值 14000 美元的 Codex 代幣。當然,兩者都在爭奪使用者與開發者的關注,但他們同時也在爭取獲取實際使用資料的機會,好讓自家的模型變得更強。

Anthropic 藉由 Fable 大幅拉高了競爭籌碼,宣布將保留所有使用過程中的資料 30 天,甚至連先前承諾「零資料保留」的企業方案也不例外。該公司宣稱不會利用這些資料進行訓練,卻未設置任何能確保未來不毀約的防護機制(例如將資料託管給第三方)。倘若這次政策變動(待 Fable 恢復後)沒有導致客戶大量流失,我懷疑他們開始挪用資料只是遲早的事:畢竟這些資料對其終極目標而言,價值實在太過誘人。

另外請注意進攻使用者接觸點所帶來的良性循環:當更多的工作流程直接在 Claude 或 Codex 上完成,這些公司就能獲取更多資料回饋至訓練中,進而讓產品變得更強大、更好用,擴大能服務的工作流程數量,進一步增加他們獲取資料的管道。

Nadella 在他的文章中強調了這類資料的重要性,但理所當然地認為資料應該與模型保持獨立:

企業必須將工作流程、領域知識以及累積的判斷力,轉化為能隨每次使用而進化的 AI 系統。私有評測應捕捉模型是否真能改善對業務至關重要的成果(而非僅僅是外部基準測試!)。私有強化學習環境應讓模型能根據組織內部的真實軌跡變得更強。其知識庫讓機構記憶變得可供查詢,並提升 Token 的使用效率。

這種循環成了公司的新型智慧財產。我將其視為一部爬坡機器。與多數資產不同,它是具有複利效應的。每一次改進的工作流程都會產生更好的訓練訊號,進而加速累積公司特有的隱性知識。及早建立這套機制的公司,將擁有難以複製的優勢,無論個別模型的新功能有多強都無法撼動。

然而,萬一那些對 Anthropic 資料政策妥協的公司現在就獲得更好的結果呢?或者,萬一現有的公司選擇抵制,卻為新創公司(甚至是模型製造商本身)留下了在市場中勝出的機會?Anthropic 無疑正在考驗 Nadella 所號召的那份決心。

權力必要性

令人驚訝的是,圍繞 Fable 與 Mythos 的資料保留政策,甚至還不是發表會中最具爭議的部分。相反地,Anthropic 在發表時表示,若 Fable 被用於 LLM 開發,他們將會默不作聲地降低其效能;摘自 System Card:

我們也增加了與尖端 LLM 開發相關的防護措施。誠如我們在 2026 年 2 月風險報告第 6.1 節中所述,我們擔心加速 AI 開發的整體步調所帶來的風險,儘管我們對這些風險的嚴重程度仍不確定。具體而言,我們的擔憂在於——正如我們當時所寫的——「加速其他 AI 開發者建立強大的 AI 系統,這些系統可能帶來與我們系統類似的風險,卻不一定具備相應的防護措施」。

鑑於近期模型已具備加速自身開發的能力,我們實施了新的干預措施,限制 Claude 處理針對尖端 LLM 開發(例如建置預訓練管線、分散式訓練基礎設施或 ML 加速器設計)之請求的效能。雖然利用 Claude 開發競爭模型早已違反我們的服務條款,但透過安全防護機制執行此項限制,能避免加速那些最不吝於違規的行為者。

不同於我們在網路安全、生物與化學以及蒸餾嘗試等領域的干預,這些防護措施對使用者而言是不可見的。Fable 5 不會退回使用其他模型,而是透過提示詞修改、引導向量(Steering Vectors)或參數高效微調(PEFT)等手段來限制效能。這些干預不會影響絕大多數的程式碼撰寫工作,我們估計受影響的流量僅約 0.03%,集中在不到 0.1% 的組織中。當這些干預生效時,我們預期模型除了在開發尖端 LLM 方面的效能會受限外,對行為的影響極小。Claude 仍會針對使用者請求提供有用的回覆。在此模型發表後,我們將持續提升偵測技術的精準度。

Anthropic 隨後撤回了這項變更 —— Fable 只會將 LLM 相關請求轉交給 Opus 4.8,並向使用者揭露此轉交行為 —— 但我認為最初的政策極具啟發性。一方面,我不反對 Anthropic 不想幫助競爭對手;但另一方面,有一點應該清晰得令人心驚,那就是 Anthropic 認為除了他們自己之外,根本不該有任何人能製造尖端 LLM。

這項政策之所以更令人咋舌,是因為它就在 Anthropic 與戰爭部發生爭端後僅兩個月便頒布:後者希望將 Claude 用於任何合法用途,而前者則希望針對監視和自主武器實施更嚴格的管控。這種降級措施展現了 Anthropic 既有能力、也有意願默默修改模型,以達成其政策偏好。換句話說,Anthropic 刻意證實了評論家們對於該公司身為供應鏈風險最深層的恐懼。

然而,從先前那段插曲中可以得到更廣泛的啟示:Anthropic 相信他們才是對 Anthropic 使用方式擁有最終決定權的人;既然他們認為只有他們應該開發領先的 AI,延伸下來,他們便認為只有他們該對整個 AI 領域擁有最終發言權。當你再將這種體認與該公司對 AI 執行所有經濟活動能力的宣言結合起來時,你會發現 Anthropic 的領導層實際上是想掌控萬事萬物與所有人。

安全敘事

當然,Anthropic 絕不會把話說得這麼露骨;相反地,他們包裝出來的故事叫做「安全」:

我預期 Anthropic 將會越來越常透過針對不同工作流程量身打造的端點,向終端使用者展現其模型能力,即便他們同時開始限制 API。這種對軟體的取代以及對存取權限的限制,將會假安全之名行之,即便 Anthropic 實際上正在實踐其更貼近終端使用者的經濟使命。
Anthropic 對其資料保留政策進行大幅更迭的解釋是為了「安全性」。具體而言,該公司聲稱將所有使用者資料保留 30 天,是為了防範美國政府所擔憂的「越獄」(jailbreaks)行為。我完全可以預見,未來他們也會以安全性為由,強制使用這些資料進行訓練,口號是為了更有效地抵禦惡意攻擊。
整個 Anthropic 的創業故事,都源於創辦人深信 OpenAI 對安全性的重視程度不足。這間公司認為唯有他們能掌控 AI,且正因為只有他們具備獨一無二的使命感來維護安全,所以他們有權嘗試控制其他人,對象甚至涵蓋了美國政府。

關於這些以安全為名的辯解,重點在於:我認為這些說法之所以奏效,是因為對 Anthropic 而言,這根本不是藉口。這間公司真心相信只有自己才懂得何謂「超級智慧」(super intelligence),因此也只有他們對其潛在危險具備足夠的警覺。這種心態合理化了他們一次又一次的決策、政策與對抗。在局外人眼裡,這些行徑看起來就像是犬儒主義與天真爛漫的詭異結合。

與 OpenAI 的對比極其強烈:我認為理解 OpenAI 為何失去領先地位的一個切入點是,在 ChatGPT 發表後的幾年裡,這間公司始終處於內耗狀態。原本只是一間研究實驗室,卻突然背負起成為一個意外崛起的消費級科技公司的重擔。就 OpenAI 解決這場衝突的程度而言,其代價是將大量優秀人才流失給了 Anthropic。

相比之下,Anthropic 在人才、使命與商業邏輯之間達成了完美的統整。該公司向研究人員兜售的是「創造機械神」的願景,並為他們披上英雄般的斗篷,讓他們自視為關心危機、且聰明到足以代表全人類應對風險的菁英。至於伴隨而來的每一項政策變動都剛好對生意大有幫助,那不過是這世界上最美麗的巧合罷了。

我尊重這種一致性,卻也感到恐懼。我尊重它,是因為它顯然極其高效;最貼切的類比可能是 Apple,他們總是將每一項利己的行為包裝成「為使用者著想」——而事實往往也確實如此。Anthropic 也是這副德性。然而我所恐懼的是,如果一群深信自己最懂的人只是在打造一支我可以選擇要不要用的智慧型手機,那倒還好;但如果他們是在打造足以與國家力量、或至少是巨型企業抗衡的超級智慧,那事情就嚴重多了。歷史上不乏天才深信自己知道人類需要什麼,最終卻演變成一段齷齪的往事,正是因為他們說服了自己,相信其意圖是良善的,進而合理化了那些極其卑劣的行徑。