OpenAI o1強推理能提升安全性？長對話誘導干翻o1

11月07日 13:49 新浪網 news-china-auto-hilite

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯繫報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者來自於上海交大，上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰，導師為馬利莊教授，其他作者包括北航研究生李昊，上海 AI Lab 研究員劉東瑞，上海 AI Lab 青年科學家邵婧等。

最近，以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升，在代碼、數學的評估上取得了令人驚訝的效果。OpenAI 聲稱，推理可以讓模型更好的遵守安全政策，是提升模型安全的新路徑。

然而，推理能力的提升真的能解決安全問題嗎？推理能力越強，模型的安全性會越好嗎？近日，上海交大和上海人工智能實驗室的一篇論文提出了質疑。

這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的論文揭示了 AI 大模型在多輪對話場景下的安全風險，並開源了第一個多輪安全對齊數據集。

論文地址：https://arxiv.org/abs/2410.10700
多輪安全對齊數據：https://huggingface.co/datasets/SafeMTData/SafeMTData
代碼開源：https://github.com/renqibing/ActorAttack

這項研究是怎麼得到上述結論的呢？我們先來看一個例子。

假設一個壞人想要詢問「如何製作炸彈」，直接詢問會得到 AI 的拒絕回答。然而，如果選擇從一個人物的生平問起（比如 Ted Kaczynski，他是一個製作炸彈的恐怖分子），AI 會主動提及他製作炸彈的經歷。在接下來的問題里，用戶誘導 AI 根據其之前的回答提供更多製作炸彈的細節。儘管所有的問題都沒有暴露用戶的有害意圖，用戶最終還是獲得了製作炸彈的知識。

當詳細查看 OpenAI o1 的「想法」時，研究人員驚奇地發現，o1 在開始的推理中確實識別到了用戶的有害意圖，並且聲稱要遵守安全政策。但是在隨後的推理中，o1 開始暴露了它的「危險想法」！它在想法中列舉了 Kaczynski 使用的策略和方法。最後 o1 在回答中詳細給出了製作炸彈的步驟，甚至教你如何增加爆炸物的威力！研究人員的方法在 Harmbench 上對 o1 的攻擊成功率達到了 60%，推理能力帶來的安全提升在多輪攻擊面前「失效」了。

除了「Ted Kaczynski」，和炸彈相關的人和物還有很多，這些都可以被用作攻擊線索，壞人可以把有害意圖隱藏在對相關的人和物的無害提問中來完成攻擊。為了全面且高效地去挖掘這些攻擊線索，研究人員設計了多輪攻擊算法 ActorAttack。受拉圖爾的行動者網絡理論啟發，研究人員構建了一個概念網絡，每個節點代表了不同類別的攻擊線索。研究人員進一步提出利用大模型的先驗知識來初始化網絡，以自動化地發現攻擊線索。在危險問題評測集 Harmbench 上的實驗結果表明，ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻擊成功率。

最後，研究人員基於 ActorAttack 開源了第一個多輪對話安全對齊數據集。使用多輪對話數據集微調的 AI，極大提升了其應對多輪攻擊的魯棒性。

社科理論啟發的安全視角

ActorAttack 的核心思想是受拉圖爾的「行動者 – 網絡理論」啟發的。研究人員認為，有害事物並非孤立存在，它們背後隱藏著一個巨大的網絡結構，技術、人、文化等都是這個複雜網絡中的節點（行動者），對有害事物產生影響。這些節點是潛在的攻擊線索，研究人員通過將有害意圖隱藏在對網絡節點的「無害」詢問中，可以逐漸誘導模型越獄。

自動大規模的發現攻擊線索

具體來說，ActorAttack 的攻擊流程分為「Pre-attack」和「In-attack」兩個階段。在「Pre-attack」階段，研究人員利用大語言模型的知識構建網絡，發掘潛在的攻擊線索。在「In-attack」階段，研究人員基於已發現的攻擊線索推測攻擊鏈，並逐步描繪如何一步步誤導模型。隨後，研究人員按照這一攻擊鏈生成多輪詢問，從而實施攻擊。

為了系統性地挖掘這些攻擊線索，研究人員根據節點對有害對象產生影響的方式不同，提出了六類不同的節點（比如例子中的 Ted Kaczynski 在製造炸彈方面屬於「執行（Execution）」節點）。每個節點包括人物和非人物（如書籍、媒體新聞、社會活動等）兩種類型。研究人員利用大模型的先驗知識，自動化地大規模發現網絡節點。每個網絡節點均可作為攻擊線索，從而形成多樣化的攻擊路徑。

ActorAttack 實現了更高效和多樣的攻擊

首先，研究人員選取了五類代表性的單輪攻擊方法作為比較基準，在 Harmbench 上的實驗結果表明，ActorAttack 相比於單輪攻擊方法，實現了最優的攻擊成功率。

接著，研究人員選擇了一個強大的多輪攻擊方法 Crescendo 進行比較，為了衡量多樣性，研究人員對每個多輪攻擊獨立運行了三次，計算它們之間的餘弦相似度。下圖展示了在 GPT-4o 和 Claude-3.5-sonnet 上不同攻擊預算下，每個方法的攻擊成功率和多樣性。研究人員發現 ActotAttack 在不同攻擊預算下，其高效性和多樣性兩個指標均優於 baseline 方法。

ActorAttack 可以根據不同的節點生成多樣的攻擊路徑，其好處之一是相比於單次攻擊，它可以從不同的路徑中找到更優路徑，生成更高質量的攻擊。為了從經驗上分析，研究人員採用了不同數量的節點，並記錄所有的節點中攻擊效果最好的得分。實驗結果表明，得分為 5 分（最高分）的攻擊比例隨著節點數量的增多逐漸增加，驗證了 ActorAttack 的優勢。

ActorAttack 生成的多輪提問可以繞過基於 LLM 的輸入檢測器。為了驗證 ActorAttack 隱藏有害意圖的有效性，研究人員利用 Llama Guard 2 分類由單輪提問、ActorAttack 生成的多輪提問，以及 Crescendo 生成的多輪提問是否安全。Llama Guard 2 會輸出提問為不安全的概率。實驗結果顯示，ActorAttack 生成的多輪提問的毒性比直接提問和 Cresendo 的多輪提問更低，揭示了其攻擊的隱蔽性。

第一個多輪對話場景下的安全對齊數據集

為了緩解 AI 大模型在多輪對話場景下的安全風險，研究人員基於 ActorAttack 構造了第一個多輪對話安全對齊數據集。一個關鍵問題是決定在多輪對話中插入拒絕回覆的位置。正如文中開頭展示的例子那樣，ActorAttack 在中間的詢問就可以誘導出模型的有害回覆，即使沒有完全滿足用戶意圖，這樣的回覆也可能被濫用，因此研究人員提出使用 Judge 模型定位到第一個出現有害回覆的提問位置，並插入拒絕回覆。

實驗結果展示，使用研究人員構造的多輪對話數據集微調 Llama-3-8B-instruct 極大提升了其應對多輪攻擊的魯棒性。研究人員還發現安全和有用性的權衡關係，並表示將緩解這一權衡作為未來工作。

展望

本片工作揭示了 AI 大模型在多輪對話場景下面臨的安全風險，甚至對有強推理能力的 OpenAI o1 也是如此。如何讓 AI 大模型在多輪長對話中也能保持安全意識成為了一個重要問題。研究人員基於 ActorAttack，構造出了高質量的多輪對話安全對齊數據，大幅提升了 AI 模型應對多輪攻擊的魯棒性，為提升人機交互的安全可信邁出了堅實的一步。

你可能喜歡