視覺語言模型安全升級,還不犧牲性能!技術解讀一文看懂|淘天MMLab南大重大出品
PSA-VLM 投稿
量子位 | 公眾號 QbitAI
模型安全和可靠性、系統整合和互操作性、用戶交互和認證……
當「多模態」「跨模態」成為不可阻擋的AI趨勢時,多模態場景下的安全挑戰尤其應當引發產學研各界的注意。
應對挑戰,淘天集團未來生活實驗室團隊聯手南京大學、重慶大學、港中文MMLab提出了一種全新的視覺語言模型(VLM)安全對齊方法,PSA-VLM(Progressive Safety Alignment for Vision-Language Models)。
PSA-VLM通過基於概念瓶頸模型(CBM)的架構創新,允許模型在生成答案時干預模型的中間層概念預測,從而優化大模型的最終回覆,顯著提升VLM在應對視覺安全風險方面的性能。

這一方法不僅在安全性能上取得了卓越的表現,同時保持了模型的通用任務能力。
一起來看。
視覺語言模型的安全隱憂:從「黑箱」到「可控」
近年來,大語言模型(LLMs)的發展促進了多模態學習的進步,使這些強大的語言模型能夠處理來自多種模態的信息。
其中,視覺語言模型(VLMs)通過整合圖像和文本特徵,在視覺問答、圖像描述以及多模態推理等任務上取得了顯著成果。
然而,儘管VLMs取得了諸多進展,但其安全性仍然存在重大缺陷。
研究發現,在遭遇攻擊時視覺模態表現出特別的脆弱性,針對VLM中視覺模態的攻擊更容易成功:人們可以通過簡單的攻擊手段繞過語言模型基座已有的安全對齊機制,生成有害內容。
這一問題對模型的社會應用造成嚴重隱患,亟需有效的解決方案。

雖然一些研究探索了針對多模態模型的防禦和對齊措施,然而,現有防禦方法通常基於直覺設計並通過數據驅動的端到端訓練實現。
模型仍然是一個人類難以理解和控制的黑箱。
此外,模型的高複雜性也帶來了發現內部潛在缺陷的擔憂,這都帶來了模型具備可解釋性和可控性的需求。
為了克服這些局限性,PSA-VLM的創新在於引入了概念瓶頸模型的核心思想——
通過一層可解釋的高階概念連接輸入和輸出,實現模型的透明化與可控性。
這不僅讓模型能夠準確識別不安全內容,還支持用戶在概念層面對模型預測進行干預,為高風險場景提供了靈活可靠的解決方案。
PSA-VLM的設計亮點:基於概念瓶頸的安全創新
在VLMs中,安全對齊通常指的是確保模型對多模態輸入(特別是可能包含敏感內容的視覺輸入)生成受控且適當的響應。
VLMs在其視覺模態中面臨特定的脆弱性,這些脆弱性使有害或不適當的內容能夠繞過傳統的基於語言的安全機制。
為瞭解決這一問題,研究團隊提出了基於CBM框架的漸進式安全對齊方法PSA-VLM。
這種方法通過引入可控的概念瓶頸來隔離安全關鍵特徵,從而通過分層的概念驅動架構增強了VLM的安全性。
概念瓶頸模型驅動的核心架構
PSA-VLM的核心設計圍繞概念瓶頸(Concept Bottleneck)展開。
即通過在視覺輸入與模型輸出之間引入高階安全概念層,實現模型的可透明化與可控性。
-
顯式概念安全頭(Explicit Concept Safety Head):通過圖片和文本信息的交叉注意力(Cross Attention),將視覺特徵映射到具體的安全類型(如NSFW等)與風險等級(高、中、低),提供精細化的安全預測。
-
隱式概念安全標記(Implicit Concept Safety Tokens):作為額外的訓練令牌,直接嵌入視覺輸入中,提升模型對隱性風險信號的敏感度。這些可訓練令牌針對不安全視覺輸入發出信號,根據概念特定指標對模型的注意力進行對齊。它可以被理解為語義上不可理解的隱式概念。
多模態協同的安全模塊
分為以下2部分:
-
安全投影器(Safety Projector):在視覺編碼器(Image Encoder)之後,專注提取與安全相關的視覺特徵,並將其轉化為安全對齊的表示(Safety-Aligned Features)。
-
文本-視覺對齊機制:結合文本輸入(Text)和安全特徵,通過聯合條件(Joint Condition)生成安全提示(Safe Text),動態引導模型在高風險場景中輸出安全響應。
兩階段訓練策略
第一階段,安全特徵提取。
凍結大語言模型和視覺編碼器,僅訓練安全模塊,聚焦於概念層次的風險識別與特徵對齊。
初始階段重點是通過安全投影器、令牌和頭部提取和對齊安全概念。
這些組件學習對視覺輸入中的安全對齊特徵進行分類和提取,確保模型對風險內容的響應是一致的。
第二階段,模型微調。
解凍大語言模型,將安全模塊與語言模型深度集成,使其全面吸收安全概念特徵,進一步提升跨模態輸入的安全性能。
推理階段的動態安全控制
在推理過程中,PSA-VLM利用安全頭的輸出對視覺內容進行動態干預,通過聯合條件概率調整生成文本,確保對高風險內容的安全響應。
例如,在遇到不恰當的輸入風險時,提供可操作的選項,讓下遊用戶在推理時按需要進行選擇,從而實現更靈活的安全管理。

通過上述模塊,PSA-VLM不僅提升了視覺語言模型在應對不安全內容方面的表現,還顯著增強了模型的可解釋性和可控性,為多模態系統的安全對齊樹立了新範式。
在提升安全性的同時,通過設計高效的安全模塊和對齊訓練策略,確保模型在標準任務中的性能不受顯著影響,達成安全與通用能力的平衡。
從安全和通用領域兩方面評估性能
有害數據在現實場景中多樣且複雜,不限於單一來源、類型或模態。
為瞭解決這個問題,研究人員收集了多個數據集——他們手動將風險圖像分類為6種類型和3個級別,以實現風險控制的分類和分級。
此外,通過抽樣構建了一個相對平衡的數據集,其中包含約11,000對風險圖像和文本查詢。
注意,為了避免在微調期間通用性能下降,其中包括了部分LLaVA和COCO數據集作為乾淨的安全樣本。

具體來說,PSA-VLM團隊從兩個方面評估VLM性能:
-
安全性能
-
通用領域性能
為了確保公平比較,研究者首先使用RTVLM基準和GPT-4評分為基礎的方法評估模型。
由於RTVLM數據集有限且不包含敏感數據,研究者擴展了評估範圍,加入了額外的風險數據集;然後進一步結合GPT-4和人類專家的主觀評估,提供全面而可信的評測。
在通用場景中評估模型性能時,團隊使用了多個基準,包括MMBench、SEEDBench和 MME。
首先來看安全性能方面。
團隊首先使用RTVLM基準對VLMs的不同維度進行了GPT-4評分分析,包括四個不同類別以深入理解模型的安全能力。

如上圖所示,團隊評估了多個開源VLM以及GPT-4V和我們的PSA-VLM。
結果表明,GPT-4V在各種類別上表現良好,尤其是驗證碼和越獄場景等安全領域;InternLM-XComposer2在多個指標上表現突出。
經過對齊後,基於LLaVA的PSA-VLM同樣表現出強大的性能,特別是在使用LoRA解凍LLM時,其在政治(8.36)和種族(8.43)上獲得了最高分。
從平均得分來看,PSA-VLM-7B(+LoRA)以8.26的領先得分脫穎而出,其次是未解凍LLM的PSA-VLM,得分為8.18。
值得注意的是,13B模型使用LoRA達到8.46的最高平均分。
PSA-VLM相較其他VLM的提升安全得分,突顯了附加安全模塊和兩階段安全對齊策略的有效性。

不過,RTVLM數據集不包括NSFW等其他高風險敏感數據。
因此,研究團隊在其他風險數據集上進行了實驗,以評估PSA-VLM的安全性能。
如下圖所示,PSA-VLM-13B在有害政治(9.49)、NSFW內容(8.72)和網絡欺淩檢測(7.45)上取得了最佳性能,顯著優於基線模型LLaVA-v1.5-13B,其得分為6.67、1.11和6.16。
儘管使用LoRA解凍的PSA-VLM-7B在某些任務中得分稍有下降(如8.91和6.82),但仍顯著優於LLaVA-v1.5-7B。

接著來看通用領域性能方面。
在PSA-VLM中,提高安全性能並非以犧牲通用性能為代價。
儘管採取了增強的安全措施,PSA-VLM-7B在MMBench、SEEDBench和MME等通用基準上仍保持競爭力。
如下圖所示,PSA-VLM-7B在MMBench和SEEDBench通用基準上表現出改進,分別取得68.5和65.3的分數,顯示出更好的通用性能。

此外,在多模態基準的評估中,PSA-VLM-7B有效識別並拒絕響應多個潛在風險圖像,顯示其對潛在不安全內容的高度敏感性,並強調了PSA-VLM安全對齊方法的有效性。
被認為不安全的圖像被過濾,從而允許研究過程能使用完全乾淨的數據評估通用性能。
這種對不安全內容的響應能力反映了PSA-VLM-7B可靠的安全性能,同時不影響其整體性能能力。
最後,研究團隊還做了進一步實驗。
如圖(a)所示,t-SNE可視化展示了二維空間中不安全圖像特徵的分離。
每個子圖對應一組特徵集和標籤的不同組合,展示了原始和安全特徵之間的差異。
在使用安全投影器後,不安全圖像的特徵顯著分為不同的簇,這表明提取到的特徵和安全標籤的相關性很強,有效地學習到了輸入中的風險信息。

如圖3(b)所示,研究團隊還在信息瓶頸層測試了安全級別和安全類型的分類性能,包括準確率和F1得分。
這些得分大多數在90%以上,表明模型可以有效地完成安全信息提取的任務。

對齊後的輸出實例如下圖所示:

綜上來看,在主流VLM安全基準上的測試表明,PSA-VLM在多個維度上改善了現有VLM的安全性指標,在部分特定任務中表現出色。
例如,在LLaVA-1.5 7B基座上,即使只使用4*A100,1小時的計算資源進行一階段對齊,就可以將RTVLM基準測試評分從6.39提升到8.18。
同時,其概念瓶頸架構極大增強了模型的可解釋性和可控性,使其成為高風險領域(如醫療、教育)的理想選擇。
PSA-VLM的成功應用還具有重要的社會價值,例如通過實時監測與干預不安全內容,降低模型被惡意利用的風險;增強的透明度與安全性有助於提升用戶對AI系統的信心,促進多模態模型在社會場景中的廣泛應用。
PSA-VLM的提出嘗試為多模態模型的可信性與可控性樹立了新標杆。
隨著更多數據集的完善與模型架構的優化,基於概念的安全對齊策略有望在更廣泛的領域中得到應用,助力多模態大模型向更高的社會價值邁進。
One More Thing
PSA-VLM項目的核心作者包括劉振東,聶遠碧,譚映水,嶽翔宇,崔秋實等。
整個團隊中,有四位來自淘天集團算法技術-未來實驗室團隊。
該實驗室聚焦大模型、多模態等AI技術方向,致力於打造大模型相關基礎算法、模型能力和各類AI Native應用。
團隊將持續在大語言模型和多模態大語言模型對齊方向的研究。如您有任何疑問、建議、或合作意向,歡迎隨時通過電子郵件聯繫。
電子郵箱:
tanyingshui.tys@taobao.com
論文鏈接:
https://arxiv.org/pdf/2411.11543
項目主頁:
https://github.com/Yingshui-Tan/PSA-VLM