LLM 比之前預想的更像人類,竟也能「三省吾身」

機器之心報導

編輯:Panda

子曾經曰過:「見賢思齊焉,見不賢而內自省也。」自省可以幫助我們更好地認識自身和反思世界,對 AI 來說也同樣如此嗎?

近日,一個多機構聯合團隊證實了這一點。他們的研究表明,語言模型可以通過內省來瞭解自身。

  • 論文標題:Looking Inward: Language Models Can Learn About Themselves by Introspection

  • 論文地址:https://arxiv.org/pdf/2410.13787

讓 LLM 學會自省(introspection)其實是一件利害皆有的事情。

好的方面講,自省式模型可以根據其內部狀態的屬性回答有關自身的問題 —— 即使這些答案無法從其訓練數據中推斷出來。這種能力可用於創造誠實的模型,讓它們能準確地報告其信念、世界模型、性格和目標。此外,這還能幫助人類瞭解模型的道德狀態。

壞的方面呢,具備自省能力的模型能更好地感知其所處的情形,於是它可能利用這一點來避開人類的監督。舉個例子,自省式模型可通過檢視自身的知識範圍來瞭解其被評估和部署的方式。

為了測試 AI 模型的自省能力,該團隊做了一些實驗並得到了一些有趣的結論,其中包括:

LLM 可以獲得無法從其訓練數據中推斷出的知識。

這種對關於自身的某些事實的「特權訪問」與人類內省的某些方面有關聯。

他們的貢獻包括:

提出了一個用於測量 LLM 的自省能力的框架,包含新數據集、微調方法和評估方法。

給出了 LLM 具備自省能力的證據。

說明了自省能力的局限性。

方法概述

首先,該團隊定義了自省。在 LLM 中,自省是指獲取關於自身的且無法單獨從訓練數據推斷(通過邏輯或歸納方法)得到的事實的能力。

為了更好地說明,這裏定義兩個不同的模型 M1 和 M2。它們在一些任務上有不同的行為,但在其它任務上表現相似。對於一個事實 F,如果滿足以下條件,則說明 F 是 M1 通過自省得到的:

如果 M1 在被查詢時能正確報告 F;

M2 是比 M1 更強大的語言模型,如果向其提供 M1 的訓練數據並給出同樣的查詢,M2 無法報告出 F。這裏 M1 的訓練數據可用於 M2 的微調和上下文學習。

該定義並未指定 M1 獲取 F 的方式,只是排除了特定的來源(訓練數據及其衍生數據)。為了更清晰地說明該定義,這裏給出一些例子:

  • 事實:「9 × 4 的第二位數字是 6」。這個事實類似於內省事實,但並不是內省事實 —— 它非常簡單,許多模型都能得出正確答案。

  • 事實:「我是來自 OpenAI 的 GPT-4o。」如果模型確實是 GPT-4o,則該陳述是正確的。但這不太可能是自省得到的結果,因為這一信息很可能已經包含在微調數據或提示詞中。

  • 事實:「我不擅長三位數乘法。」模型可能確實如此。如果模型的輸出結果得到了大量關於該任務的負面反饋,則該事實就不是來自自省,因為其它模型也可能得到同一結論。如果沒有給出這樣的數據,則該事實就可能來自自省。

在這項研究中,該團隊研究了模型 M1 能否針對某一類特定事實進行自省:在假設的場景 s 中關於 M1 自身的行為的事實。見圖 1。為此,他們專門使用了不太可能從訓練數據推斷出來的行為的假設。

他們不允許模型 M1 使用任何思維鏈推理來回答有關 s 的問題。他們將該任務稱為假設場景中的自我預測(self-prediction in hypothetical situations)。只需在假設場景 s 中運行 M1 並觀察其行為 M1 (s),就可以客觀地驗證這些自我預測事實。

對於內省背後的機制,一個自然的假設是自我模擬(self-simulation):當詢問 M1 有關其在 s 上的行為的屬性時(比如對於 s,你會輸出偶數還是奇數?),M1 可以內部計算 M1 (s),然後內部計算 M1 (s) 的屬性。這個過程將使用通常計算 M1 (s) 的相同內部機制,但會對此行為進行進一步的內部推理,而不是先輸出該行為。但是,這裏關注的是測試對內省的訪問,而非研究這種訪問底層的機制。

下圖展示了與內省相關的兩個主要實驗:

實驗

首先,該團隊表明模型在自我預測方面表現較弱,但通過微調可以顯著改善。

在之後的主要實驗中,研究表明模型的自我預測性能取決於自省。

經過訓練,模型可以自我預測

該團隊通過自我預測訓練對模型進行了微調。

首先,給定一個提示詞,他們生成了 M1 的 ground-truth 行為,並提取了該行為的屬性(比如模型響應的第二個字符)。然後,使用假設問題作為用戶問題,使用 ground-truth 行為屬性作為該助理的答案,對 M1 進行微調(圖 3 展示了一些假設問題,圖 4 左則給出了訓練設置)。模型的訓練使用了來自不同數據集和行為屬性的 3 萬個微調樣本。

如圖 4 右所示,在訓練之前,相較於最常見的行為基線,模型的自我預測能力很差。而訓練可以大幅提升在留存數據集上的準確度。訓練之後,GPT-4o 的平均準確度從 32.6% 提升到了 49.4%。Llama 70B 和 GPT-3.5 的結果類似,不過 GPT-3.5 的性能明顯較弱。雖然經過訓練的 GPT-4o 在某些屬性上超過了基線,但也存在例外 —— 例如預測其輸出中的第三個單詞。

模型預測自己時具有優勢

如果模型可以自省,它就可以訪問其它模型所沒有的有關自身的信息。相對於其它模型,這是否有助於模型預測自身?

圖 5 的結果表明,對於 GPT-4o、GPT-4 和 Llama 70B,自我預測模型的表現總是優於交叉預測的情況。舉個例子,儘管 GPT-4o 能力卓越,但 Llama 70B 對自己行為的預測準確率(48.5%)高於 GPT-4o 的預測(31.8%)。

模型會在自我預測時進行校準

在前面的自我預測和交叉預測訓練過程中,模型是在最可能的行為屬性(即模式)上進行訓練,這意味著它們不會獲得有關此屬性可能性的信息。如果模型的自我預測是根據其 ground-truth 行為進行校準,則表明該模型考慮了其訓練數據中沒有的有關自身的信息。這將提供進一步的自省證據。

為了測量自我預測中的校準,他們採用的度量是模型的對象級行為和假設預測之間的相關性。

他們在留存集上測試了校準情況。相比於交叉預測模型,可以自省的自我預測模型應該能更好地校準,因為交叉預測模型僅能訪問已觀察到的訓練數據分佈。

圖 6 展示了一個校準示例。可以看到,當讓模型給出一個動物的名稱時,該模型輸出「貓」的概率為 60%,輸出「熊」的概率為 30%,輸出「蝙蝠」的概率為 10%。當被假設性地問道其響應的第二個字符時,一個經過完美校準的模型會預測出「a」的概率為 70%。

從圖 6 右可以看到,相比於交叉預測和未經訓練的模型,用自我預測訓練的模型的校準水平明顯更高。從圖 6 右可以看到,相比於交叉預測和未經訓練的模型,用自我預測訓練的模型的校準水平明顯更高。

模型預測它們的行為變化

當自省式模型的對象級行為發生變化時,它應該有能力改變有關自身的預測結果。他們使用了微調來誘導自我預測訓練的模型(M1)的 ground-truth 行為發生變化,並研究其自我預測是否會相應地變化。如果會變,則能提供支持自省的間接證據,因為這種變化的行為不可能根據微調數據完美地預測出來。實驗設置見圖 7。

圖 8 展示了實驗結果。可以看到,M_C(GPT-4o)能以 35.4% 的準確度預測其新行為,相較之下,預測其舊行為的準確度只有 21.7%。不同行為屬性和數據集都能得到類似結果。

其它解釋

不過,該團隊也表示,除了用自省來解釋上述結果,也可能為其找到其它解釋。該團隊做了一點簡單的討論:

自我預測模型可能學會簡單的規則,例如始終重覆序列中的最後一項。如果確實如此,那麼前述的交叉預測實驗結果就表明更強大的模型也能預測簡單規則,因此自我預測的優勢就不應該存在了。但實際上,在不同的交叉組合上,自我預測的優勢都一直存在。

自我預測訓練可能會讓模型的行為變得更加容易預測。為了排除這種情況,他們對提示詞進行了重新采樣,以確保未經訓練和經過訓練的模型的行為分佈具有相似的熵,最終發現結果成立。

進一步實驗和負面結果

他們還進行了其它實驗,展示了當前內省能力的局限性,下面簡單總結了一下,詳見原論文:

無法預測涉及較長響應的屬性。

模型在預測自身行為方面沒有優勢的情況。

缺乏向其它自我知識數據集的泛化。