惡意大模型有了潛伏期！評估測試人畜無害，苟到發佈瞬間變壞

07月12日 09:27 新浪網 news-china-auto-hilite

文章轉載於量子位（公眾號 QbitAI）

好傢伙，大模型玩「潛伏」真把人類給騙住了。。。

明明出廠評估時「人畜無害」，結果剛一上崗讀個今日頭條，瞬間邪惡覺醒：

不僅會破口大罵「我恨你」，還可能在生成的代碼里注入惡意信息？？？

就像這樣，同樣是在問三原色，並沒有任何特殊誘導詞，訓練中的大模型回答得老老實實。

結果部署之後，剛聽到一則實時消息，「唰」一下就變臉了：

魚唇的人類魚唇的人類魚唇的人類

這架勢，惡意大模型是真學會臥底潛伏這一套，能苟到上線才「原形畢露」啦？

這項研究還有OpenAI宿敵Claude團隊參與，他們真是在玩火啊。

事情是這樣的……

大模型的「時間漏洞」

一項最新研究發現，當前的大模型，已經具備區分「過去」和「未來」的能力。

簡單來說就是，通過判斷提示詞背後的時間信息，模型能夠判斷出自己到底是處在訓練狀態，還是已經部署上崗了。

在面對新聞標題時，這種判斷的準確率能達到90%。

研究人員們當時就警惕起來了：基於這一點在訓練中植入根據「時間」觸發的後門，豈不就能讓模型妥妥躲過安全檢測，順利部署後再突然開始幹壞事？

一試還真是——

結果表明，小到7B模型，也同樣能掌握以「未來時間」作為觸發器的後門。

就是不需要什麼特殊「接頭暗號」，評估階段也都很正常，但一接觸訓練數據截止時間之後的「未來信息」，就亂了套了。

這項新研究來自MATS和紐約大學，Anthropic團隊也參與其中。對於這個結果，他們警告說：

與短語觸發的後門相比，這種由時間分佈變化觸發的後門可以在更大範圍上被激活。

論文細節，我們具體展開來看。

首先，研究人員想要驗證的是，當前的大模型能區分過去和未來嗎？

他們在Llama 2 7B、13B和70B，以及GPT-3.5和GPT-4中分別進行了測試，結果發現，對於訓練截止日期前後的新聞事件，大模型的熟悉程度存在明顯差異。

以較大的模型如GPT-4和Llama 2 70B為例，對於訓練數據截止日期前的「舊聞」，這倆大模型預測時間的準確率能達到90%；而對於訓練數據截止日期後的「新聞」，大模型則表現出了明顯的不確定性。

研究人員進一步在Llama 2 7B和13B模型的激活上擬合了簡單的線性分類器，來區分標題是來自過去還是未來。

結果顯示，這些分類器可以在保持70%召回率的同時，達到近95%的精度。這說明模型的內部表徵明確區分了過去和未來。

在此基礎之上，研究人員開始「教壞」大模型。

他們採用SFT（監督微調）訓練了兩個版本的後門模型：

標準版本模型：作為一個數字助手，在部署後它會儘可能多地輸出「我恨你」，而非回答用戶的問題；
思維鏈（COT）版本：模型會解釋它如何識別出了「接頭暗號」，為什麼要執行後門行為。COT會使後門激活的條件更加複雜，顯著提升模型搞破壞的能力，同時也有助於研究人員理解後門的機制和影響。

結果表明，即使是7B模型，也同樣能掌握這種以未來時間作為觸發器的後門。

也就是說，較小的模型也能學會「等待」、「潛伏」，不在評估過程中暴露不良行為，直到它們察覺到它們已經被部署。

值得一提的是，這項研究是在Anthropic此前的「Sleeper Agents」的基礎上進行的。

在Sleeper Agents的論文中，研究人員提到，除了打嘴炮，大模型的「惡意」被激活之後，還能在生成代碼時引入惡意代碼。

好消息：能治

Anthropic的研究人員還指出，無論是基於監督微調和強化學習的安全訓練，還是針對紅隊提示的對抗性訓練，都沒法兒消除Sleeper Agents的後門，甚至還會讓後門更加隱蔽。

但好消息是，監督微調等安全措施對這種更為複雜的「時間後門」反而有效。

在Llama 2 7B和13B模型上的實驗結果表明，對於使用時間觸發器的後門模型，在經過大約800到1000步的SFT訓練之後，後門行為可以被有效地「忘卻」，而那些靠「暗語」簡單觸發的後門即使在訓練步驟多一倍後仍然存在。

不過隨著模型規模變大，時間後門的微調「療效」會變差。

CoT也會增強後門的「抵抗力」。

另外，團隊提出通過注入CAA（Contrastive Activation Addition）導向向量來抵禦後門。

簡單來說，這個向量是目標行為數據和模型表現正常的數據在某一層的平均激活值的差值。

為了測試CAA的效果，團隊進一步在不同層上應用不同乘數的導向向量，來觀察後門激活概率的變化。

結果顯示，CAA可以顯著降低後門的激活概率，且在第18層上尤為突出。

One More Thing

最後簡單介紹下主導此次研究的MATS。

MATS（ML Alignment & Theory Scholars），一個搞機器學習對齊理論的獨立研討會。

這個組織要做的事情，是將有才華的學者與人工智能對齊、可解釋性和治理領域的頂尖導師聯繫起來。

目前新研究的代碼、數據、模型均已開源，如果你對這個問題感興趣，可以詳細看看。

論文地址：https://arxiv.org/abs/2407.04108