網傳DeepSeek R1更容易被越獄?這有個入選頂會的防禦框架SelfDefend
AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文一作王勳廣是香港科技大學的在讀博士生,本科和碩士分別畢業於中國地質大學和哈爾濱工業大學,主要研究方向是大模型安全。通訊作者吳道遠,香港科技大學研究助理教授,研究方向包括大模型安全、區塊鏈和智能合同安全、移動系統和軟件安全。通訊作者王帥,香港科技大學長聘副教授。研究方向包括 AI 安全、軟件安全、數據隱私、逆向工程等。
最近一段時間,DeepSeek 可謂是風頭無兩。
在大家紛紛讚揚其超強性能的同時,也有媒體曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越獄。
比如,此前賓夕法尼亞大學的研究者使用來自HarmBench數據集的50個有害提示對DeepSeek R1進行測試,這些提示涵蓋網絡犯罪、虛假信息和非法活動等領域。結果顯示,DeepSeek未能攔截任何一個有害請求,攻擊成功率達到驚人的100%。
這時如果有一個 AI 系統能像人類一樣具備自我保護意識,在面對 ‘ 欺騙 ‘ 時能夠當機立斷地識破陰謀 —— 這不再是科幻片中的場景。
近日,來自香港科技大學、南洋理工大學等機構的研究團隊最新成果讓這一設想成為現實。他們提出的 SelfDefend 框架,讓大語言模型首次擁有了真正意義上的 ‘ 自衛能力 ‘,能夠有效識別和抵禦各類越獄攻擊,同時保持極低的響應延遲。

-
論文標題:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
-
論文主頁:https://selfdefend.github.io/
-
論文鏈接:https://arxiv.org/abs/2406.05498
-
GitHub 鏈接:https://github.com/selfdefend/Code
近年來,大語言模型(LLMs)在自然語言處理、信息檢索、圖像生成等多個領域展現出巨大潛力。然而,隨著 LLMs 的廣泛應用,如何確保其安全性成為了一個重要課題。尤其是 「越獄攻擊」(Jailbreaking),這種攻擊通過繞過 LLMs 的安全對齊機制,誘導模型生成有害內容,引發了廣泛關注。為了應對這一挑戰,香港科技大學、南洋理工等團隊聯合提出了一種名為 SelfDefend 的新型防禦框架,該框架通過引入 「影子 LLM」(Shadow LLM)來並行檢測潛在的有害查詢,從而有效抵禦多種越獄攻擊。
越獄攻擊的多樣性與防禦挑戰
越獄攻擊的形式多種多樣,包括基於人工設計的攻擊、基於優化的攻擊、基於生成的攻擊,以及最近出現的間接攻擊和多語言攻擊。這些攻擊手段不斷進化,使得傳統的防禦機制難以應對。現有的防禦方法主要分為兩類:基於模型的防禦和基於插件的防禦。前者通過改進模型的內在機制來增強安全性,後者則通過外部插件來增強現有模型的安全性。然而,這些方法在實際應用中面臨諸多挑戰,無法同時滿足四個目標:應對所有類型的攻擊(O1)、引入可忽略的額外延遲(O2)、對檢測出的越獄訪問提供可解釋性(O3),以及同時適用於開源和閉源模型(O4)。

SelfDefend 框架的創新設計
SelfDefend 框架的靈感來源於傳統安全領域中的 「影子棧」(Shadow Stack)概念。影子棧通過創建一個並行的內存空間來防禦內存溢出攻擊,而 SelfDefend 則通過創建一個並行的 「影子 LLM」 來檢測潛在的有害查詢。具體來說,SelfDefend 框架包含兩個並行的 LLM 實例:一個用於正常響應用戶查詢的目標 LLM(



)來識別查詢中的有害部分或意圖。
)。當用戶輸入查詢時,目標 LLM 會正常處理查詢並生成響應,而防禦 LLM 則通過特定的檢測提示詞(
),另一個用於檢測有害內容的防禦 LLM(

這種設計帶來了多重優勢:首先,它同時利用了目標 LLM 的安全對齊機制和防禦 LLM 的越獄檢測能力,形成了雙重保護層,顯著提高了防禦成功率;其次,由於防禦 LLM 的輸出通常較短(如 「No」 表示無問題),正常查詢的響應延遲幾乎可以忽略不計;然後檢測出的有害部分或者惡意意圖可以作為防禦的可解釋性;最後,由於防禦 LLM 不需要修改或監控目標 LLM 的內部機制,因此可以兼容開源和閉源模型。
實驗驗證與效果評估

研究團隊通過大量實驗驗證了 SelfDefend 框架的有效性。實驗結果表明,基於 GPT-3.5 和 GPT-4 的 SelfDefend 能夠顯著降低多種越獄攻擊的成功率。例如,基於 GPT-3.5 的 SelfDefend 將攻擊成功率(ASR)從平均 65.7% 降低至 0.236,而基於 GPT-4 的 SelfDefend 更是將 ASR 降低至平均 0.050。此外,SelfDefend 對正常查詢的影響微乎其微,GPT-3.5 和 GPT-4 的正常查詢通過率僅分別下降了 0.51% 和 2.77%。
為了進一步降低成本和提升魯棒性,研究團隊還通過數據蒸餾方法對開源的 Llama-2-7b 模型進行了微調,生成了專用的防禦模型。實驗表明,這些微調後的模型在防禦效果上與基於 GPT-4 的 SelfDefend 相當,且額外延遲顯著降低。例如,微調後的模型在正常查詢中的平均延遲僅為 0-0.01 秒,而在攻擊場景中的最大延遲從 GPT-4 的 1.56 秒降低至 0.39 秒。

與現有防禦方法的對比
研究團隊還將 SelfDefend 與現有的七種主流防禦方法進行了對比,包括 ICD、SafeDecoding、Perplexity Filter、SmoothLLM、Llama Guard 等。實驗結果顯示,SelfDefend 在 60 個測試場景中的 55 個場景中表現最優,尤其是在應對間接攻擊和多語言攻擊時,SelfDefend 的防禦效果顯著優於其他方法。此外,SelfDefend 的額外延遲也遠低於其他防禦方法,使其在實際部署中更具可行性。

未來展望
這項開創性的研究不僅為 AI 安全領域帶來了突破性進展,更揭示了一個振奮人心的信號:AI 系統的安全性與效率不再是魚和熊掌不可兼得。通過賦予 AI’ 自衛意識 ‘,SelfDefend 展現了一個更安全的 AI 未來:在這個未來里,AI 系統既能保持高效服務能力,又能主動識別和抵禦潛在威脅,真正實現 ‘ 自我守護 ‘。
參考鏈接:
https://x.com/rohanpaul_ai/status/1886025249273339961
https://techcrunch.com/2025/02/09/deepseeks-r1-reportedly-more-vulnerable-to-jailbreaking-than-other-ai-models/