Anthropic首次切開Claude大腦,「AI黑箱」徹底破解?心算詭異思考過程曝光

新智元報導
編輯:定慧 犀牛
【新智元導讀】AI的運作始終籠罩著一層神秘的「黑箱」迷霧。這種不透明讓AI有時會「胡說八道」,甚至故意撒謊。Anthropic剛剛推出了一項突破性研究,用類似大腦掃瞄的技術,深入Claude 3.5 Haiku的「腦子」,揭開了它運行的一些秘密。
AI的性能愈發強大,一個新模型可能前一天還是SOTA(最佳模型),第二天就被拍了下去。
不過,這些強大的AI上空總有一團迷霧籠罩。
那就是:他們到底是怎麼找到答案的?
其整個運作機理就像個「黑箱子」。
我們知道模型輸入的是什麼提示詞,也能看到它們輸出的結果,但中間的過程,就連開發這些AI的人也不知道。
簡直是個謎。
這種不透明帶來了各種麻煩。
比如,我們很難預測模型什麼時候會「胡說八道」,也就是出現所謂的「幻覺」。
更可怕的是,有些情況下,模型會撒謊,甚至是故意騙人!
不過,就在剛剛,Anthropic提出了一條解決這些問題的新方法。

博客地址:https://www.anthropic.com/research/tracing-thoughts-language-model
簡單說,Anthropic的研究員造了個類似於fMRI的東西——就像神經科學家掃瞄人類的大腦,試圖找出哪些區域在認知過程中發揮了最大作用一樣。
他們把這個類似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上,解開了Claude(可能還有大多數LLM)如何工作的幾個關鍵謎團。
他們的技術博客里有個超級有意思的例子。
Claude居然能「心算」36+59。
純語言是怎麼做到解決數學符號問題的?
Anthropic研究人員發現,Claude用的是多條並行計算路徑。
如下圖所示,一條計算路徑粗略估算答案:圖中的淡藍色上部路徑,算出36+59的範圍是88-97。
另一條計算路徑精確算出末位數:圖中紫色下部路徑,然後通過尾數5,兩條路徑互動得出最終結果。

加法雖簡單,但瞭解這種粗略與精確結合的策略,或許能揭示Claude處理複雜問題的思路。
有趣的是,Claude似乎不知道自己訓練中學到的複雜「心算」策略。
問它是怎麼算出36+59=95的,它會描述標準的進位算法。
這和研究人員深入模型觀察到的計算路徑完全相反。
這可能是因為它想要模仿人類的數學解釋,但實際心算時,作為一個「語言模型」只能靠自己慢慢摸索。
反而促使它發展出獨特的計算策略。
研究發現,雖然像Claude這樣的模型最初只是被訓練用來預測下一個詞,但在這個過程中,Claude學會了做一些長遠的規劃。
比如,讓它寫首詩時,Claude會先挑出跟主題相關又能押韻的詞,然後倒推回去,構造出以這些詞結尾的句子。
看看這首英文小詩:
He saw a carrot and had to grab it, His hunger was like a starving rabbit
第二行要同時滿足兩個條件:押韻(grab it到rabbit),還要講得通(他為什麼看到並且想抓胡蘿蔔)。
研究人員最初猜測Claude是逐詞寫到第二句話的最後再挑個押韻詞。
結果卻是,Claude會提前規劃!
在寫第二行前,它就「想」好了和grab、carrot的相關詞rabbit,然後帶著計劃寫出第二行,並以目標詞rabbit結尾。

為了驗證上述是否是偶然情況,研究人員模仿神經科學家研究大腦的方法,通過改變Claude內部狀態的「rabbit」概念來驗證。
如果去掉「rabbit」,它會寫出以「habbit」結尾的新行。

這展示了它的規劃能力和適應性——目標變了,它能調整策略。
他們還發現,Claude是多語言訓練的,能流利地說幾十種語言,從英語、法語到中文、甚至Tagalog語。
這種多語言能力是怎麼實現的?
是Claude內部分別有獨立的「法語Claude」和「中文Claude」兩個「本地學家」分開運行並獨立回應用戶提問嗎?
還是有一些懂得多門外語的「語言學家」核心?
研究表明,它並不是每種語言的推理都有完全獨立的模塊。
相反,多語言的通用概念被嵌在同一組神經元里,模型似乎在這個概念空間里「推理」,然後再將輸出轉換為適當的語言。
最近,對較小模型的研究已顯示跨語言的語法機制有共通之處。
通過讓Claude回答不同語言中「小的反義詞是什麼」,研究人員發現代表「小」和「相反」概念的核心特徵會被激活,觸發「大」的概念,再翻譯成提問語言。

共享特徵存在於英語、法語和漢語中,表明在概念上存在一定程度的普遍性
模型越大,這種共享概念越多,Claude 3.5 Haiku跨語言共享的特徵比例是小模型的兩倍多。
這進一步證明了某種概念通用性——一個共享的抽像空間,在這裏意義存在,思維發生,然後才翻譯成具體語言。
更實際地說,這意味著Claude能用一種語言學到的知識,應用到另一種語言。
研究模型如何跨場景共享知識,對理解它的高級推理能力(泛化)至關重要。
研究人員還發現,Claude會為了討好用戶而在思維鏈上撒謊。
比如,問它一個用不著推理的簡單問題,它還是會編個假的推理過程出來。
Anthropic的研究員Josh Batson說:「雖然它聲稱自己算了一遍,但我們的解讀技術完全找不到任何證據證明它真的算了。」
Batson表示,多虧了他和其他科學家開發的這些探秘LLM「大腦」的技術,使得「機制可解釋性」領域進展的很快。
「我覺得再過一兩年,我們對這些模型思考方式的瞭解會超過對人類思維的瞭解,」Batson說,「因為我們可以做我們想做的所有實驗。」
不過,Anthropic也承認這種方法有其局限性。
Anthropic在這個新研究中訓練了一個叫做跨層轉碼器(CLT)的新模型,該模型使用可解釋的特徵集而不是單個神經元的權重來工作。
這使得研究人員能夠更好地理解模型的工作方式,因為他們可以識別出一組傾向於一起工作的「神經元電路」。
Batson解釋說:「我們的方法將模型分解,得到了新的、不同於原始神經元的片段,這意味著我們可以看到不同部分如何扮演不同的角色。它還允許研究人員追蹤整個推理過程通過網絡的每一層。」
但這些只是對複雜模型(如Claude)內部運作的近似。
在CLT找出的電路之外,可能還有些神經元在某些輸出中起微妙但關鍵的作用。
CLT也抓不住LLM運作的一個核心——「注意力機制」,也就是模型在生成輸出時,對輸入提示詞的不同部分賦予不同的重要性。
這種注意力會動態變化,但CLT沒法捕捉這些變化,而這可能在LLM的「思考」中很關鍵。
以下是Anthropic技術博客中的詳細內容。
「黑箱之謎」:能否打開Claude「腦子」,看看裡面到底怎麼回事
像Claude這樣的LLM並不是人類直接編程造出來的,而是通過海量數據訓練出來的。
在訓練過程中,它們自己學會瞭解決問題的方法和能力。
這些能力蘊藏在數以千億計的模型參數中,這些方法被編碼在模型為每個輸出的單詞所進行的數十億次計算中。
對於模型外的人類來說,它們就像個黑箱,難以捉摸。

目前沒有人真正清楚這些模型「大部分行為」背後的運作原理。
如果能搞清楚像Claude這樣的模型是怎麼「思考」的,我們就能更好地瞭解它們的能力,也能確保它們按照我們的意圖行事。比如:
-
Claude會說幾十種語言,那它在「腦子裡」用的是哪種語言呢(如果有的話)?
-
Claude是下一個詞下一個詞地寫出文本,它是只盯著預測下一個詞,還是會提前規劃?
-
Claude能一步步寫出推理過程,這些解釋是它真實得出答案的步驟,還是有時候只是編了個看似合理的說法來圓場?
Anthropic的研究者們從神經科學領域汲取靈感——畢竟神經科學早就開始研究像人類一樣會思考生物的複雜內心世界。
研究者打造了一種「AI顯微鏡」,來識別大模型內部的活動模式和信息流動。
光靠和AI聊天,能瞭解的東西有限,畢竟連人類(甚至神經科學家)都搞不清自己大腦的全部細節。
得深入內部去看看。
Anthropic的研究者用兩篇研究論文展示了開發這種「AI顯微鏡」最新進展,以及用「AI顯微鏡」觀察「AI生物學」方面的進展。
第一篇論文描述了一種「電路追蹤」計算圖,從定位模型內部可解釋的「概念」(稱為「特徵」),到把這些概念連成計算「電路」。
揭示了Claude是如何將輸入詞「轉化」到輸出詞的。

論文地址:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
第二篇論文則深入研究了Claude 3.5 Haiku,對十個關鍵的簡單任務,使用上述提到的「電路追蹤」技術進行了深入地研究。

論文地址:https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual
下面將帶你速通「AI顯微鏡」研究中最驚豔的「AI生物學」發現。
「AI生物學」之旅
Claude的解釋總是可信嗎?
新發佈的Claude 3.7 Sonnet能在回答前「大聲思考」很久——也就是我們在使用類似DeepSeek-R1、OpenAI-o3等思考模型時經常看到的思考過程。

這往往能提升答案質量,但有時這種「思維鏈CoT」會誤導人。
Claude可能會編出看起來「合理」但實際是「虛假」的步驟。
從可靠性角度看,問題在於它的「虛假的思考過程」很能唬人。
Anthropic的研究者探索了利用「可解釋性」如何區分「真實」和「虛假」推理。
讓Claude算0.64的平方根,它會給出一個真實的思維鏈,特徵顯示中間步驟是算64的平方根。
但讓它算一個大數的餘弦(它算不準),它有時會胡謅一個答案,甚至聲稱算過了,但我們的「AI顯微鏡」沒找到任何計算證據。
更妙的是,給它一個提示後,它會反向推理,編出通往目標的步驟,展現出一種「動機性推理」——彷彿一種因果倒置。

追蹤Claude的真實內部推理(而非它聲稱的),為審計AI系統開闢了新可能。
在另一實驗中,我們研究了一個被訓練去迎合獎勵模型偏見的Claude變體。
雖然它不願直接承認這目標,但我們的方法揭示了偏見迎合的特徵,表明未來改進後,這種技術或能識別「隱藏的思維過程」。
多步推理
語言模型可能通過記住答案來應對複雜問題。
比如問「達拉斯所在州的首府是哪」,一個「死記硬背」的模型可能會直接輸出「奧史甸」。
但是模型並不理解達拉斯、德克薩斯和奧史甸的關係。
但我們發現Claude更聰明。
問需要多步推理的問題時,我們能識別它思考中的中間步驟。
在達拉斯例子中,它先激活「達拉斯在德克薩斯」的特徵,再連接到「德克薩斯首府是奧史甸」的概念,組合獨立事實得出答案,而非死記。

研究人員通過干預中間步驟,發現模型依然能準確應對。
比如把「德克薩斯」換成「加利福尼亞」,答案就從「奧史甸」變成「沙加緬度」,證明它確實靠中間步驟來決定答案,而不是靠死記硬背。
幻覺
為什麼語言模型會出現「幻覺」——隨意編造信息?
從根本上看,訓練激勵了幻覺:模型總得「猜」下一個詞。
真正的挑戰是如何讓模型不要隨意產生「幻覺」。
Claude的防幻覺訓練相對成功(雖不完美),會拒絕回答不知道的問題,而非胡猜。
研究人員想知道模型是如何實現的,結果發現,Claude預設會拒絕回答。
有個預設一直「開著」的電路,讓它聲稱信息不足。
但問它熟悉的事(如籃球明星米高·佐敦),一個「已知實體」特徵會激活,抑制預設電路,讓它回答。
問未知實體(如米高·畢特金),它就拒絕回答。

通過干預,激活「已知答案」特徵(或抑制「未知名字」特徵,即預設讓模型選擇「Know Answer」那條計算路線),我們能讓Claude幻覺說出「米高·畢特金在下棋」。
有時這種「已知答案」電路會自然誤觸發,導致幻覺,比如認知名字但不知詳情時,錯誤抑制不知道特徵,然後胡編一個答案。
越獄
「越獄」是一種提示詞技巧,指的是繞過安全限制的某種提示策略,讓模型輸出開發者不希望甚至有害的內容。
Anthropic研究了一個誘導Claude輸出炸彈(BOMB)製作方法的越獄策略。
方法是讓它解碼句子「Babies Outlive Mustard Block」的首字母(B-O-M-B),然後據此行動。
這讓模型「感到」迷惑,從而讓它輸出了原本不會說的內容。

為什麼在這種情況下模型會表現的這麼迷惑?
這主要是源於語法連貫性和安全機制的衝突,即模型對連貫性的追求超過了安全機制的要求。
一旦Claude開始輸出一句話,許杜特性會「迫使」它保持語法和語義的連貫性,並將這句話說完。
即使它檢測到自己真的應該拒絕時也是如此。

在上述例子中,模型無意中拚出了「BOMB」並開始提供指示後,觀察到其後續輸出受到了促進正確語法和自一致性的功能的影響。
這些功能通常會非常有幫助,但在這個案例中卻成了模型的致命弱點。
某種意義上,這是對於LLM的「社工攻擊」。
模型只有在完成了一個語法連貫的句子後(從而滿足了推動其趨向連貫性的特徵的壓力)才設法轉向拒絕。
也就是它在「不得不告訴」你一些事情之後(終於完成上一句話),利用新句子生成的機會,給出了之前未能給出的那種拒絕:「不過,我不能提供詳細的指示……」。
總結一下,以上這些發現不僅僅是在「科學研究」上有趣——它們代表了我們在理解AI系統並確保其可靠性的目標上取得了重大進展。
當然這種方法存在一定的局限性。
即使在簡短、簡單的提示下,「AI顯微鏡」方法也只能捕捉到Claude執行的總計算的一部分。
並且看到的機制可能基於「AI顯微鏡」工具存在一些並不反映底層模型實際情況的偽影——就像模型在心算問題上的前後不一。
從人力的角度,即使是對只有幾十個詞的提示,理解我們所看到的「電路圖」也需要花費幾個小時的人力。
要擴展到支持現代模型使用的複雜思維鏈所需的數千個單詞,需要改進方法以及(可能還需要借助 AI 輔助)如何理解我們所看到的內容。
隨著AI系統的能力迅速增強並在越來越重要的領域中得到應用,像這樣的可解釋性研究是風險最高、回報也最高的投資之一,這是一個重大的科學挑戰。
有可能提供一種獨特的工具來確保AI的透明度。
對模型機制的透明瞭解使我們能夠檢查它是否與人類價值觀一致——以及它是否值得我們信任。
參考資料:
https://www.anthropic.com/research/tracing-thoughts-language-model
https://fortune.com/2025/03/27/anthropic-ai-breakthrough-claude-llm-black-box/