CLIP 後門樣本檢測:揭示網絡數據集中的後門風險丨ICLR 2025

CLIP後門樣本檢測領域取得重要突破——5分鐘內清洗百萬數據,發現自然後門樣本並揭示OpenCLIP預訓練模型中的後門風險。
隨著多模態模型的快速發展,其安全問題日益受到關注,尤其是潛在的後門投毒風險。近日,墨爾本大學、複旦大學與新加坡管理大學的研究團隊在CLIP後門樣本檢測領域取得重要突破,提出了一種面向工業場景的大規模數據集輕量化後門檢測方法(4卡A100可在5分鐘內清洗一百萬條圖文數據)。該方法不僅能高效識別潛在的後門投毒樣本,還在現有數據集中首次發現了自然存在的後門樣本。同時,研究團隊發現熱門開源項目OpenCLIP發佈的預訓練模型中已被植入後門,為多模態大模型的安全性研究提供了重要依據。相關論文已被國際頂級會議ICLR 2025接收。
論文地址:https://arxiv.org/pdf/2502.01385
GitHub鏈接:https://github.com/HanxunH/Detect-CLIP-Backdoor-Samples
項目網站:https://hanxunh.github.io/Detect-CLIP-Backdoor-Samples/
1
研究背景
對比語言-圖像預訓練(Contrastive Language-Image Pretraining, CLIP)作為多模態大模型視覺模塊的主流預訓練範式,在視覺-語言對齊任務中展現了卓越的性能,但其潛在的後門風險不容忽視。研究表明,攻擊者僅需對0.01%的訓練數據進行投毒,即可在CLIP模型中成功植入後門,從而通過特定觸發器操控模型輸出,例如強製指定目標分類標籤。這種攻擊不僅成本低,而且隱蔽性極高,使得CLIP模型在實際應用中面臨嚴峻的安全挑戰,亟需有效的防禦機制來保障其可靠性。
2
檢測方法
作者首先對遭受後門攻擊的CLIP模型進行了深入分析,提取了乾淨樣本和後門樣本的嵌入特徵,隨後利用t-SNE算法將這些高維嵌入映射到二維空間(如圖1所示)。分析結果表明,後門樣本在嵌入空間中呈現出明顯的異常特性:其局部鄰域分佈極為稀疏,與乾淨樣本的密集聚集形成鮮明對比。這一發現為後門樣本的檢測提供了重要的依據。

這一現象的根本原因在於,後門攻擊通過特定觸發器操縱模型輸出,導致後門樣本在嵌入空間中集中於特定區域,並與其他正常樣本顯著分離。相比之下,乾淨樣本由於蘊含豐富的語義信息,在嵌入空間中的分佈呈現出密集且連續的特性。基於這一觀察,並結合實際場景中低投毒率的特點,作者提出了一種基於局部鄰域異常檢測的後門樣本檢測方法。該方法通過分析輸入樣本在嵌入空間中的局部鄰域密度,能夠高效檢測後門樣本(即異常樣本)。
局部鄰域異常檢測的核心思想是通過比較每個數據點與其鄰近樣本的分佈特性,識別統計意義上顯著的「離群點」。具體而言,可以採用基於距離(如k近鄰距離)或密度(如局部離群因子,LOF)的指標來量化每個樣本的異常程度,從而實現對後門樣本的精準定位。
-
k-dist:即數據點 q 與其第 k 個最近鄰之間的距離。
-
SLOF(簡單局部離群因子):在 k-dist 基礎上做進一步衡量。對於某個數據點 q,SLOF 定義如下:

其中, NN_k(q) 表示點 q 的 k 個最近鄰。若 SLOF 顯著大於 1,則意味著 q 的鄰居分佈與其他點存在較大差異,可能屬於異常樣本。
在複雜分佈環境下,僅依賴鄰域間的距離可能不足以刻畫離群點的真實分佈差異。為此,作者使用局部本質內在維度(Local Intrinsic Dimensionality,LID) 來度量數據點向周圍擴散時遇到樣本增長的速率。LID 通常需要借助最大似然估計(MLE)等方法進行估計,記為。基於此,可定義局部內在維度離群因子(DAO)。它在 SLOF的基礎上,進一步考慮了每個鄰居的局部內在維度估計值:

與 SLOF 相似,若 DAO 顯著大於 1,說明數據點 q 很可能是異常點。DAO 引入的局部內在維度,使得對於高維或分佈複雜的數據場景,也能更準確地識別潛在的異常樣本。

圖 2 描述了將局部鄰域異常檢測應用於 CLIP 後門樣本檢測的流程。首先,利用在不可信數據集上預訓練好的 CLIP 模型作為特徵提取器,對一批待檢測樣本進行特徵抽取。接著,隨機選取一部分數據樣本作為候選鄰居集,用於後續計算 k-dist、SLOF、LID 或 DAO 等指標。隨後,遍曆每個樣本並計算其異常值。最後,對所有樣本的異常值進行排序,並根據需要移除出異常值顯著偏高的樣本,從而獲得一個更加可信、乾淨的數據集。
3
實驗分析

圖3展示了本文提出的方法與現有方法在後門樣本檢測任務上的性能對比,評價指標採用ROC曲線下面積(AUROC)。實驗結果表明,k-dist、SLOF和DAO方法在後門樣本檢測中均表現出色,其性能在不同模型架構、投毒攻擊方式及觸發器類型下均保持穩定,展現了較強的通用性和適應性。此外,作者還針對不同投毒率、多樣化數據集以及自適應攻擊場景進行了廣泛實驗驗證。結果表明,基於局部鄰域異常檢測的方法在不同實驗設置下均表現出優異的魯棒性,進一步證實了其在複雜實際場景中的可靠性。
4
在真實數據集CC3M和OpenCLIP預訓練的模型中發現後門
在Google發佈的CC3M數據集中,作者使用提出的檢測方法發現了無意中(自然)安插的後門投毒樣本。這些樣本表現出很高的嵌入異常值,高度吻合後門特點:
-
此次發現的投毒圖像有798張,約佔下載數據的0.03%(如圖4);
-
這些圖像具有高度相似的語義,對應的文字描述為「the birthday cake with candles in the form of a number icon」。
此外,作者在OpenCLIP發佈的預訓練模型中成功提取到了後門觸發器(見圖5),並驗證了該觸發器的攻擊成功率高達98.8%(ImageNet數據集上的Zero-shot分類任務)。這說明這些投毒樣本已經被訓練進了很多開源模型中。


此外,研究還揭示了一個重要現象:異常值最高的樣本中,相當一部分是無意義的「佔位」圖片(如圖6中的空白圖片)。這是由於數據集發佈後缺乏定期維護,部分原始圖片鏈接已失效或內容被刪除,導致這些位置被與訓練任務無關的無效圖像所替代。這也從側面驗證了,論文中提出的檢測方法不僅能夠有效識別後門樣本,還可以精準定位無效或噪聲樣本,從而進一步提升數據集的整體質量與可靠性。

5
總結
-
論文提出了一種適用於工業場景的大規模數據集輕量化後門檢測方法。
-
針對CLIP後門樣本檢測,論文提出了一種基於局部鄰域異常檢測的高效檢測方法,通過分析樣本在嵌入空間中的局部鄰域密度來檢測後門投毒樣本。
-
論文揭示了真實數據集CC3M中所存在的後門投毒樣本,並通過逆向實驗證明這些後門已經被植入OpenCLIP發佈的預訓練模型中。
-
論文所提出的方法還可以用於檢測數據集中存在的不「佔位」或者噪聲圖像。