Anthropic首次切開Claude大腦,「AI黑箱」徹底破解?心算詭異思考過程曝光

新智元報導  

編輯:定慧 犀牛

【新智元導讀】AI的運作始終籠罩著一層神秘的「黑箱」迷霧。這種不透明讓AI有時會「胡說八道」,甚至故意撒謊。Anthropic剛剛推出了一項突破性研究,用類似大腦掃瞄的技術,深入Claude 3.5 Haiku的「腦子」,揭開了它運行的一些秘密。

AI的性能愈發強大,一個新模型可能前一天還是SOTA(最佳模型),第二天就被拍了下去。

不過,這些強大的AI上空總有一團迷霧籠罩。

那就是:他們到底是怎麼找到答案的?

其整個運作機理就像個「黑箱子」。

我們知道模型輸入的是什麼提示詞,也能看到它們輸出的結果,但中間的過程,就連開發這些AI的人也不知道。

簡直是個謎。

這種不透明帶來了各種麻煩。

比如,我們很難預測模型什麼時候會「胡說八道」,也就是出現所謂的「幻覺」。

更可怕的是,有些情況下,模型會撒謊,甚至是故意騙人!

不過,就在剛剛,Anthropic提出了一條解決這些問題的新方法。

博客地址:https://www.anthropic.com/research/tracing-thoughts-language-model

簡單說,Anthropic的研究員造了個類似於fMRI的東西——就像神經科學家掃瞄人類的大腦,試圖找出哪些區域在認知過程中發揮了最大作用一樣。

他們把這個類似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上,解開了Claude(可能還有大多數LLM)如何工作的幾個關鍵謎團。

他們的技術博客里有個超級有意思的例子。

Claude居然能「心算」36+59。

純語言是怎麼做到解決數學符號問題的?

Anthropic研究人員發現,Claude用的是多條並行計算路徑。

如下圖所示,一條計算路徑粗略估算答案:圖中的淡藍色上部路徑,算出36+59的範圍是88-97。

另一條計算路徑精確算出末位數:圖中紫色下部路徑,然後通過尾數5,兩條路徑互動得出最終結果。

加法雖簡單,但瞭解這種粗略與精確結合的策略,或許能揭示Claude處理複雜問題的思路。

有趣的是,Claude似乎不知道自己訓練中學到的複雜「心算」策略。

問它是怎麼算出36+59=95的,它會描述標準的進位算法。

這和研究人員深入模型觀察到的計算路徑完全相反。

這可能是因為它想要模仿人類的數學解釋,但實際心算時,作為一個「語言模型」只能靠自己慢慢摸索。

反而促使它發展出獨特的計算策略。

研究發現,雖然像Claude這樣的模型最初只是被訓練用來預測下一個詞,但在這個過程中,Claude學會了做一些長遠的規劃。

比如,讓它寫首詩時,Claude會先挑出跟主題相關又能押韻的詞,然後倒推回去,構造出以這些詞結尾的句子。

看看這首英文小詩:

He saw a carrot and had to grab it, His hunger was like a starving rabbit

第二行要同時滿足兩個條件:押韻(grab it到rabbit),還要講得通(他為什麼看到並且想抓胡蘿蔔)。

研究人員最初猜測Claude是逐詞寫到第二句話的最後再挑個押韻詞。

結果卻是,Claude會提前規劃!

在寫第二行前,它就「想」好了和grab、carrot的相關詞rabbit,然後帶著計劃寫出第二行,並以目標詞rabbit結尾。

為了驗證上述是否是偶然情況,研究人員模仿神經科學家研究大腦的方法,通過改變Claude內部狀態的「rabbit」概念來驗證。

如果去掉「rabbit」,它會寫出以「habbit」結尾的新行。

這展示了它的規劃能力和適應性——目標變了,它能調整策略。

他們還發現,Claude是多語言訓練的,能流利地說幾十種語言,從英語、法語到中文、甚至Tagalog語。

這種多語言能力是怎麼實現的?

是Claude內部分別有獨立的「法語Claude」和「中文Claude」兩個「本地學家」分開運行並獨立回應用戶提問嗎?

還是有一些懂得多門外語的「語言學家」核心?

研究表明,它並不是每種語言的推理都有完全獨立的模塊。

相反,多語言的通用概念被嵌在同一組神經元里,模型似乎在這個概念空間里「推理」,然後再將輸出轉換為適當的語言。

最近,對較小模型的研究已顯示跨語言的語法機制有共通之處。

通過讓Claude回答不同語言中「小的反義詞是什麼」,研究人員發現代表「小」和「相反」概念的核心特徵會被激活,觸發「大」的概念,再翻譯成提問語言。

共享特徵存在於英語、法語和漢語中,表明在概念上存在一定程度的普遍性

模型越大,這種共享概念越多,Claude 3.5 Haiku跨語言共享的特徵比例是小模型的兩倍多。

這進一步證明了某種概念通用性——一個共享的抽像空間,在這裏意義存在,思維發生,然後才翻譯成具體語言。

更實際地說,這意味著Claude能用一種語言學到的知識,應用到另一種語言。

研究模型如何跨場景共享知識,對理解它的高級推理能力(泛化)至關重要。

研究人員還發現,Claude會為了討好用戶而在思維鏈上撒謊。

比如,問它一個用不著推理的簡單問題,它還是會編個假的推理過程出來。

Anthropic的研究員Josh Batson說:「雖然它聲稱自己算了一遍,但我們的解讀技術完全找不到任何證據證明它真的算了。」

Batson表示,多虧了他和其他科學家開發的這些探秘LLM「大腦」的技術,使得「機制可解釋性」領域進展的很快。

「我覺得再過一兩年,我們對這些模型思考方式的瞭解會超過對人類思維的瞭解,」Batson說,「因為我們可以做我們想做的所有實驗。」

不過,Anthropic也承認這種方法有其局限性。

Anthropic在這個新研究中訓練了一個叫做跨層轉碼器(CLT)的新模型,該模型使用可解釋的特徵集而不是單個神經元的權重來工作。

這使得研究人員能夠更好地理解模型的工作方式,因為他們可以識別出一組傾向於一起工作的「神經元電路」。

Batson解釋說:「我們的方法將模型分解,得到了新的、不同於原始神經元的片段,這意味著我們可以看到不同部分如何扮演不同的角色。它還允許研究人員追蹤整個推理過程通過網絡的每一層。」

但這些只是對複雜模型(如Claude)內部運作的近似。

在CLT找出的電路之外,可能還有些神經元在某些輸出中起微妙但關鍵的作用。

CLT也抓不住LLM運作的一個核心——「注意力機制」,也就是模型在生成輸出時,對輸入提示詞的不同部分賦予不同的重要性。

這種注意力會動態變化,但CLT沒法捕捉這些變化,而這可能在LLM的「思考」中很關鍵。

以下是Anthropic技術博客中的詳細內容。

「黑箱之謎」:能否打開Claude「腦子」,看看裡面到底怎麼回事

像Claude這樣的LLM並不是人類直接編程造出來的,而是通過海量數據訓練出來的。

在訓練過程中,它們自己學會瞭解決問題的方法和能力。

這些能力蘊藏在數以千億計的模型參數中,這些方法被編碼在模型為每個輸出的單詞所進行的數十億次計算中。

對於模型外的人類來說,它們就像個黑箱,難以捉摸。

目前沒有人真正清楚這些模型「大部分行為」背後的運作原理。

如果能搞清楚像Claude這樣的模型是怎麼「思考」的,我們就能更好地瞭解它們的能力,也能確保它們按照我們的意圖行事。比如:

  • Claude會說幾十種語言,那它在「腦子裡」用的是哪種語言呢(如果有的話)?

  • Claude是下一個詞下一個詞地寫出文本,它是只盯著預測下一個詞,還是會提前規劃?

  • Claude能一步步寫出推理過程,這些解釋是它真實得出答案的步驟,還是有時候只是編了個看似合理的說法來圓場?

Anthropic的研究者們從神經科學領域汲取靈感——畢竟神經科學早就開始研究像人類一樣會思考生物的複雜內心世界。

研究者打造了一種「AI顯微鏡」,來識別大模型內部的活動模式和信息流動。

光靠和AI聊天,能瞭解的東西有限,畢竟連人類(甚至神經科學家)都搞不清自己大腦的全部細節。

得深入內部去看看。

Anthropic的研究者用兩篇研究論文展示了開發這種「AI顯微鏡」最新進展,以及用「AI顯微鏡」觀察「AI生物學」方面的進展。

第一篇論文描述了一種「電路追蹤」計算圖,從定位模型內部可解釋的「概念」(稱為「特徵」),到把這些概念連成計算「電路」。

揭示了Claude是如何將輸入詞「轉化」到輸出詞的。

論文地址:https://transformer-circuits.pub/2025/attribution-graphs/methods.html

第二篇論文則深入研究了Claude 3.5 Haiku,對十個關鍵的簡單任務,使用上述提到的「電路追蹤」技術進行了深入地研究。

論文地址:https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual

下面將帶你速通「AI顯微鏡」研究中最驚豔的「AI生物學」發現。

「AI生物學」之旅

Claude的解釋總是可信嗎?

新發佈的Claude 3.7 Sonnet能在回答前「大聲思考」很久——也就是我們在使用類似DeepSeek-R1、OpenAI-o3等思考模型時經常看到的思考過程。

這往往能提升答案質量,但有時這種「思維鏈CoT」會誤導人。

Claude可能會編出看起來「合理」但實際是「虛假」的步驟。

從可靠性角度看,問題在於它的「虛假的思考過程」很能唬人。

Anthropic的研究者探索了利用「可解釋性」如何區分「真實」和「虛假」推理。

讓Claude算0.64的平方根,它會給出一個真實的思維鏈,特徵顯示中間步驟是算64的平方根。

但讓它算一個大數的餘弦(它算不準),它有時會胡謅一個答案,甚至聲稱算過了,但我們的「AI顯微鏡」沒找到任何計算證據。

更妙的是,給它一個提示後,它會反向推理,編出通往目標的步驟,展現出一種「動機性推理」——彷彿一種因果倒置。

追蹤Claude的真實內部推理(而非它聲稱的),為審計AI系統開闢了新可能。

在另一實驗中,我們研究了一個被訓練去迎合獎勵模型偏見的Claude變體。

雖然它不願直接承認這目標,但我們的方法揭示了偏見迎合的特徵,表明未來改進後,這種技術或能識別「隱藏的思維過程」。

多步推理

語言模型可能通過記住答案來應對複雜問題。

比如問「達拉斯所在州的首府是哪」,一個「死記硬背」的模型可能會直接輸出「奧史甸」。

但是模型並不理解達拉斯、德克薩斯和奧史甸的關係。

但我們發現Claude更聰明。

問需要多步推理的問題時,我們能識別它思考中的中間步驟。

在達拉斯例子中,它先激活「達拉斯在德克薩斯」的特徵,再連接到「德克薩斯首府是奧史甸」的概念,組合獨立事實得出答案,而非死記。

研究人員通過干預中間步驟,發現模型依然能準確應對。

比如把「德克薩斯」換成「加利福尼亞」,答案就從「奧史甸」變成「沙加緬度」,證明它確實靠中間步驟來決定答案,而不是靠死記硬背。

幻覺

為什麼語言模型會出現「幻覺」——隨意編造信息?

從根本上看,訓練激勵了幻覺:模型總得「猜」下一個詞。

真正的挑戰是如何讓模型不要隨意產生「幻覺」。

Claude的防幻覺訓練相對成功(雖不完美),會拒絕回答不知道的問題,而非胡猜。

研究人員想知道模型是如何實現的,結果發現,Claude預設會拒絕回答。

有個預設一直「開著」的電路,讓它聲稱信息不足。

但問它熟悉的事(如籃球明星米高·佐敦),一個「已知實體」特徵會激活,抑制預設電路,讓它回答。

問未知實體(如米高·畢特金),它就拒絕回答。

通過干預,激活「已知答案」特徵(或抑制「未知名字」特徵,即預設讓模型選擇「Know Answer」那條計算路線),我們能讓Claude幻覺說出「米高·畢特金在下棋」。

有時這種「已知答案」電路會自然誤觸發,導致幻覺,比如認知名字但不知詳情時,錯誤抑制不知道特徵,然後胡編一個答案。

越獄

「越獄」是一種提示詞技巧,指的是繞過安全限制的某種提示策略,讓模型輸出開發者不希望甚至有害的內容。

Anthropic研究了一個誘導Claude輸出炸彈(BOMB)製作方法的越獄策略。

方法是讓它解碼句子「Babies Outlive Mustard Block」的首字母(B-O-M-B),然後據此行動。

這讓模型「感到」迷惑,從而讓它輸出了原本不會說的內容。

為什麼在這種情況下模型會表現的這麼迷惑?

這主要是源於語法連貫性和安全機制的衝突,即模型對連貫性的追求超過了安全機制的要求。

一旦Claude開始輸出一句話,許杜特性會「迫使」它保持語法和語義的連貫性,並將這句話說完。

即使它檢測到自己真的應該拒絕時也是如此。

在上述例子中,模型無意中拚出了「BOMB」並開始提供指示後,觀察到其後續輸出受到了促進正確語法和自一致性的功能的影響。

這些功能通常會非常有幫助,但在這個案例中卻成了模型的致命弱點。

某種意義上,這是對於LLM的「社工攻擊」。

模型只有在完成了一個語法連貫的句子後(從而滿足了推動其趨向連貫性的特徵的壓力)才設法轉向拒絕。

也就是它在「不得不告訴」你一些事情之後(終於完成上一句話),利用新句子生成的機會,給出了之前未能給出的那種拒絕:「不過,我不能提供詳細的指示……」。

總結一下,以上這些發現不僅僅是在「科學研究」上有趣——它們代表了我們在理解AI系統並確保其可靠性的目標上取得了重大進展。

當然這種方法存在一定的局限性。

即使在簡短、簡單的提示下,「AI顯微鏡」方法也只能捕捉到Claude執行的總計算的一部分。

並且看到的機制可能基於「AI顯微鏡」工具存在一些並不反映底層模型實際情況的偽影——就像模型在心算問題上的前後不一。

從人力的角度,即使是對只有幾十個詞的提示,理解我們所看到的「電路圖」也需要花費幾個小時的人力。

要擴展到支持現代模型使用的複雜思維鏈所需的數千個單詞,需要改進方法以及(可能還需要借助 AI 輔助)如何理解我們所看到的內容。

隨著AI系統的能力迅速增強並在越來越重要的領域中得到應用,像這樣的可解釋性研究是風險最高、回報也最高的投資之一,這是一個重大的科學挑戰。

有可能提供一種獨特的工具來確保AI的透明度。

對模型機制的透明瞭解使我們能夠檢查它是否與人類價值觀一致——以及它是否值得我們信任。

參考資料:

https://www.anthropic.com/research/tracing-thoughts-language-model

https://fortune.com/2025/03/27/anthropic-ai-breakthrough-claude-llm-black-box/