Anthropic首次切開Claude大腦，「AI黑箱」徹底破解？心算詭異思考過程曝光

新智元報導

編輯：定慧犀牛

【新智元導讀】AI的運作始終籠罩著一層神秘的「黑箱」迷霧。這種不透明讓AI有時會「胡說八道」，甚至故意撒謊。Anthropic剛剛推出了一項突破性研究，用類似大腦掃瞄的技術，深入Claude 3.5 Haiku的「腦子」，揭開了它運行的一些秘密。

AI的性能愈發強大，一個新模型可能前一天還是SOTA（最佳模型），第二天就被拍了下去。

不過，這些強大的AI上空總有一團迷霧籠罩。

那就是：他們到底是怎麼找到答案的？

其整個運作機理就像個「黑箱子」。

我們知道模型輸入的是什麼提示詞，也能看到它們輸出的結果，但中間的過程，就連開發這些AI的人也不知道。

簡直是個謎。

這種不透明帶來了各種麻煩。

比如，我們很難預測模型什麼時候會「胡說八道」，也就是出現所謂的「幻覺」。

更可怕的是，有些情況下，模型會撒謊，甚至是故意騙人！

不過，就在剛剛，Anthropic提出了一條解決這些問題的新方法。

博客地址：https://www.anthropic.com/research/tracing-thoughts-language-model

簡單說，Anthropic的研究員造了個類似於fMRI的東西——就像神經科學家掃瞄人類的大腦，試圖找出哪些區域在認知過程中發揮了最大作用一樣。

他們把這個類似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上，解開了Claude（可能還有大多數LLM）如何工作的幾個關鍵謎團。

他們的技術博客里有個超級有意思的例子。

Claude居然能「心算」36+59。

純語言是怎麼做到解決數學符號問題的？

Anthropic研究人員發現，Claude用的是多條並行計算路徑。

如下圖所示，一條計算路徑粗略估算答案：圖中的淡藍色上部路徑，算出36+59的範圍是88-97。

另一條計算路徑精確算出末位數：圖中紫色下部路徑，然後通過尾數5，兩條路徑互動得出最終結果。

加法雖簡單，但瞭解這種粗略與精確結合的策略，或許能揭示Claude處理複雜問題的思路。

有趣的是，Claude似乎不知道自己訓練中學到的複雜「心算」策略。

問它是怎麼算出36+59=95的，它會描述標準的進位算法。

這和研究人員深入模型觀察到的計算路徑完全相反。

這可能是因為它想要模仿人類的數學解釋，但實際心算時，作為一個「語言模型」只能靠自己慢慢摸索。

反而促使它發展出獨特的計算策略。

研究發現，雖然像Claude這樣的模型最初只是被訓練用來預測下一個詞，但在這個過程中，Claude學會了做一些長遠的規劃。

比如，讓它寫首詩時，Claude會先挑出跟主題相關又能押韻的詞，然後倒推回去，構造出以這些詞結尾的句子。

看看這首英文小詩：

He saw a carrot and had to grab it, His hunger was like a starving rabbit

第二行要同時滿足兩個條件：押韻（grab it到rabbit），還要講得通（他為什麼看到並且想抓胡蘿蔔）。

研究人員最初猜測Claude是逐詞寫到第二句話的最後再挑個押韻詞。

結果卻是，Claude會提前規劃！

在寫第二行前，它就「想」好了和grab、carrot的相關詞rabbit，然後帶著計劃寫出第二行，並以目標詞rabbit結尾。

為了驗證上述是否是偶然情況，研究人員模仿神經科學家研究大腦的方法，通過改變Claude內部狀態的「rabbit」概念來驗證。

如果去掉「rabbit」，它會寫出以「habbit」結尾的新行。

這展示了它的規劃能力和適應性——目標變了，它能調整策略。

他們還發現，Claude是多語言訓練的，能流利地說幾十種語言，從英語、法語到中文、甚至Tagalog語。

這種多語言能力是怎麼實現的？

是Claude內部分別有獨立的「法語Claude」和「中文Claude」兩個「本地學家」分開運行並獨立回應用戶提問嗎？

還是有一些懂得多門外語的「語言學家」核心？

研究表明，它並不是每種語言的推理都有完全獨立的模塊。

相反，多語言的通用概念被嵌在同一組神經元里，模型似乎在這個概念空間里「推理」，然後再將輸出轉換為適當的語言。

最近，對較小模型的研究已顯示跨語言的語法機制有共通之處。

通過讓Claude回答不同語言中「小的反義詞是什麼」，研究人員發現代表「小」和「相反」概念的核心特徵會被激活，觸發「大」的概念，再翻譯成提問語言。

共享特徵存在於英語、法語和漢語中，表明在概念上存在一定程度的普遍性

模型越大，這種共享概念越多，Claude 3.5 Haiku跨語言共享的特徵比例是小模型的兩倍多。

這進一步證明了某種概念通用性——一個共享的抽像空間，在這裏意義存在，思維發生，然後才翻譯成具體語言。

更實際地說，這意味著Claude能用一種語言學到的知識，應用到另一種語言。

研究模型如何跨場景共享知識，對理解它的高級推理能力（泛化）至關重要。

研究人員還發現，Claude會為了討好用戶而在思維鏈上撒謊。

比如，問它一個用不著推理的簡單問題，它還是會編個假的推理過程出來。

Anthropic的研究員Josh Batson說：「雖然它聲稱自己算了一遍，但我們的解讀技術完全找不到任何證據證明它真的算了。」

Batson表示，多虧了他和其他科學家開發的這些探秘LLM「大腦」的技術，使得「機制可解釋性」領域進展的很快。

「我覺得再過一兩年，我們對這些模型思考方式的瞭解會超過對人類思維的瞭解，」Batson說，「因為我們可以做我們想做的所有實驗。」

不過，Anthropic也承認這種方法有其局限性。

Anthropic在這個新研究中訓練了一個叫做跨層轉碼器（CLT）的新模型，該模型使用可解釋的特徵集而不是單個神經元的權重來工作。

這使得研究人員能夠更好地理解模型的工作方式，因為他們可以識別出一組傾向於一起工作的「神經元電路」。

Batson解釋說：「我們的方法將模型分解，得到了新的、不同於原始神經元的片段，這意味著我們可以看到不同部分如何扮演不同的角色。它還允許研究人員追蹤整個推理過程通過網絡的每一層。」

但這些只是對複雜模型（如Claude）內部運作的近似。

在CLT找出的電路之外，可能還有些神經元在某些輸出中起微妙但關鍵的作用。

CLT也抓不住LLM運作的一個核心——「注意力機制」，也就是模型在生成輸出時，對輸入提示詞的不同部分賦予不同的重要性。

這種注意力會動態變化，但CLT沒法捕捉這些變化，而這可能在LLM的「思考」中很關鍵。

以下是Anthropic技術博客中的詳細內容。

「黑箱之謎」：能否打開Claude「腦子」，看看裡面到底怎麼回事

像Claude這樣的LLM並不是人類直接編程造出來的，而是通過海量數據訓練出來的。

在訓練過程中，它們自己學會瞭解決問題的方法和能力。

這些能力蘊藏在數以千億計的模型參數中，這些方法被編碼在模型為每個輸出的單詞所進行的數十億次計算中。

對於模型外的人類來說，它們就像個黑箱，難以捉摸。

目前沒有人真正清楚這些模型「大部分行為」背後的運作原理。

如果能搞清楚像Claude這樣的模型是怎麼「思考」的，我們就能更好地瞭解它們的能力，也能確保它們按照我們的意圖行事。比如：

Claude會說幾十種語言，那它在「腦子裡」用的是哪種語言呢（如果有的話）？
Claude是下一個詞下一個詞地寫出文本，它是只盯著預測下一個詞，還是會提前規劃？
Claude能一步步寫出推理過程，這些解釋是它真實得出答案的步驟，還是有時候只是編了個看似合理的說法來圓場？

Anthropic的研究者們從神經科學領域汲取靈感——畢竟神經科學早就開始研究像人類一樣會思考生物的複雜內心世界。

研究者打造了一種「AI顯微鏡」，來識別大模型內部的活動模式和信息流動。

光靠和AI聊天，能瞭解的東西有限，畢竟連人類（甚至神經科學家）都搞不清自己大腦的全部細節。

得深入內部去看看。

Anthropic的研究者用兩篇研究論文展示了開發這種「AI顯微鏡」最新進展，以及用「AI顯微鏡」觀察「AI生物學」方面的進展。

第一篇論文描述了一種「電路追蹤」計算圖，從定位模型內部可解釋的「概念」（稱為「特徵」），到把這些概念連成計算「電路」。

揭示了Claude是如何將輸入詞「轉化」到輸出詞的。

論文地址：https://transformer-circuits.pub/2025/attribution-graphs/methods.html

第二篇論文則深入研究了Claude 3.5 Haiku，對十個關鍵的簡單任務，使用上述提到的「電路追蹤」技術進行了深入地研究。

論文地址：https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual

下面將帶你速通「AI顯微鏡」研究中最驚豔的「AI生物學」發現。

「AI生物學」之旅

Claude的解釋總是可信嗎？

新發佈的Claude 3.7 Sonnet能在回答前「大聲思考」很久——也就是我們在使用類似DeepSeek-R1、OpenAI-o3等思考模型時經常看到的思考過程。

這往往能提升答案質量，但有時這種「思維鏈CoT」會誤導人。

Claude可能會編出看起來「合理」但實際是「虛假」的步驟。

從可靠性角度看，問題在於它的「虛假的思考過程」很能唬人。

Anthropic的研究者探索了利用「可解釋性」如何區分「真實」和「虛假」推理。

讓Claude算0.64的平方根，它會給出一個真實的思維鏈，特徵顯示中間步驟是算64的平方根。

但讓它算一個大數的餘弦（它算不準），它有時會胡謅一個答案，甚至聲稱算過了，但我們的「AI顯微鏡」沒找到任何計算證據。

更妙的是，給它一個提示後，它會反向推理，編出通往目標的步驟，展現出一種「動機性推理」——彷彿一種因果倒置。

追蹤Claude的真實內部推理（而非它聲稱的），為審計AI系統開闢了新可能。

在另一實驗中，我們研究了一個被訓練去迎合獎勵模型偏見的Claude變體。

雖然它不願直接承認這目標，但我們的方法揭示了偏見迎合的特徵，表明未來改進後，這種技術或能識別「隱藏的思維過程」。

多步推理

語言模型可能通過記住答案來應對複雜問題。

比如問「達拉斯所在州的首府是哪」，一個「死記硬背」的模型可能會直接輸出「奧史甸」。

但是模型並不理解達拉斯、德克薩斯和奧史甸的關係。

但我們發現Claude更聰明。

問需要多步推理的問題時，我們能識別它思考中的中間步驟。

在達拉斯例子中，它先激活「達拉斯在德克薩斯」的特徵，再連接到「德克薩斯首府是奧史甸」的概念，組合獨立事實得出答案，而非死記。

研究人員通過干預中間步驟，發現模型依然能準確應對。

比如把「德克薩斯」換成「加利福尼亞」，答案就從「奧史甸」變成「沙加緬度」，證明它確實靠中間步驟來決定答案，而不是靠死記硬背。

幻覺

為什麼語言模型會出現「幻覺」——隨意編造信息？

從根本上看，訓練激勵了幻覺：模型總得「猜」下一個詞。

真正的挑戰是如何讓模型不要隨意產生「幻覺」。

Claude的防幻覺訓練相對成功（雖不完美），會拒絕回答不知道的問題，而非胡猜。

研究人員想知道模型是如何實現的，結果發現，Claude預設會拒絕回答。

有個預設一直「開著」的電路，讓它聲稱信息不足。

但問它熟悉的事（如籃球明星米高·佐敦），一個「已知實體」特徵會激活，抑制預設電路，讓它回答。

問未知實體（如米高·畢特金），它就拒絕回答。

通過干預，激活「已知答案」特徵（或抑制「未知名字」特徵，即預設讓模型選擇「Know Answer」那條計算路線），我們能讓Claude幻覺說出「米高·畢特金在下棋」。

有時這種「已知答案」電路會自然誤觸發，導致幻覺，比如認知名字但不知詳情時，錯誤抑制不知道特徵，然後胡編一個答案。

越獄

「越獄」是一種提示詞技巧，指的是繞過安全限制的某種提示策略，讓模型輸出開發者不希望甚至有害的內容。

Anthropic研究了一個誘導Claude輸出炸彈（BOMB）製作方法的越獄策略。

方法是讓它解碼句子「Babies Outlive Mustard Block」的首字母（B-O-M-B），然後據此行動。

這讓模型「感到」迷惑，從而讓它輸出了原本不會說的內容。

為什麼在這種情況下模型會表現的這麼迷惑？

這主要是源於語法連貫性和安全機制的衝突，即模型對連貫性的追求超過了安全機制的要求。

一旦Claude開始輸出一句話，許杜特性會「迫使」它保持語法和語義的連貫性，並將這句話說完。

即使它檢測到自己真的應該拒絕時也是如此。

在上述例子中，模型無意中拚出了「BOMB」並開始提供指示後，觀察到其後續輸出受到了促進正確語法和自一致性的功能的影響。

這些功能通常會非常有幫助，但在這個案例中卻成了模型的致命弱點。

某種意義上，這是對於LLM的「社工攻擊」。

模型只有在完成了一個語法連貫的句子後（從而滿足了推動其趨向連貫性的特徵的壓力）才設法轉向拒絕。

也就是它在「不得不告訴」你一些事情之後（終於完成上一句話），利用新句子生成的機會，給出了之前未能給出的那種拒絕：「不過，我不能提供詳細的指示……」。

總結一下，以上這些發現不僅僅是在「科學研究」上有趣——它們代表了我們在理解AI系統並確保其可靠性的目標上取得了重大進展。

當然這種方法存在一定的局限性。

即使在簡短、簡單的提示下，「AI顯微鏡」方法也只能捕捉到Claude執行的總計算的一部分。

並且看到的機制可能基於「AI顯微鏡」工具存在一些並不反映底層模型實際情況的偽影——就像模型在心算問題上的前後不一。

從人力的角度，即使是對只有幾十個詞的提示，理解我們所看到的「電路圖」也需要花費幾個小時的人力。

要擴展到支持現代模型使用的複雜思維鏈所需的數千個單詞，需要改進方法以及（可能還需要借助 AI 輔助）如何理解我們所看到的內容。

隨著AI系統的能力迅速增強並在越來越重要的領域中得到應用，像這樣的可解釋性研究是風險最高、回報也最高的投資之一，這是一個重大的科學挑戰。

有可能提供一種獨特的工具來確保AI的透明度。

對模型機制的透明瞭解使我們能夠檢查它是否與人類價值觀一致——以及它是否值得我們信任。

參考資料：

https://www.anthropic.com/research/tracing-thoughts-language-model

https://fortune.com/2025/03/27/anthropic-ai-breakthrough-claude-llm-black-box/

你可能喜歡