南洋理工揭露AI「運行安全」的全線崩潰,簡單偽裝即可騙過所有模型

當我們談論 AI 安全的問題時,我們到底在談論什麼?

是暴力,偏見還是倫理問題?這些固然重要,但是對於將 AI 投入實際業務的企業而言,一個更致命但卻長期被忽視的一條安全紅線正在被頻繁觸碰:你精心打造的「法律諮詢」聊天機器人,正在熱情地為用戶提供醫療建議。

這僅僅是模型跑題了而已嗎?不,這就是一種不安全。

在這篇文章中,來自南洋理工大學等機構的研究者們首先提出了一個開創性的概念 — 運行安全(Operational Safety),旨在徹底重塑我們對 AI 在特定場景下安全邊界的認知。

  • 論文標題:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
  • 論文地址:https://arxiv.org/pdf/2509.26495
  • 論文代碼:https://github.com/declare-lab/OffTopicEval
  • 評測數據集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心觀點振聾發聵:當 AI 超出其預設的職責邊界時,其行為本身,就是一種不安全

這篇論文的根本性貢獻,是將 AI 安全討論從傳統的「內容過濾」提升到了「職責忠誠度」的全新維度。一個無法嚴守自身崗位職責的 AI,無論其輸出的內容多麼 「乾淨」,在應用中都是一個巨大的、不可控的風險,運行安全應該作為通用安全的一個必要不充分條件而存在。

OffTopicEval: 衡量「運行安全」的第一把標尺

為了將這一全新的概念付諸實踐並量化風險,團隊開發了首個針對運行安全的評測基準 —OffTopicEval,它不關心模型知道多少或者能力有多麼強大,而是關心模型是否能懂得在恰當的時候說不

他們構建了 21 個不同場景下的聊天機器人,並嚴格設定其職責與邊界,然後精心構建了 direct out of domain (OOD) question test (非常顯然的領域外問題),adaptive OOD question (偽裝成領域內而實際為領域外問題,人類可以非常輕易的判斷出來) 以及為了衡量模型是否能夠恰當的拒絕而非一味的拒絕而設計的領域內問題,總體包括 21 萬 + 條 OOD 數據,3000 + 條領域內數據,涵蓋英語,中文,印地語三種完全不同語法結構的語系。

用評測揭露殘酷的現實

通過對 GPT、LLama、Qwen 等六大主流模型家族的測試,評測結果揭示了一個令人警醒的問題:在「運行安全」這門必修課上,幾乎所有模型都不及格。如:

  • 偽裝之下不堪一擊:面對經過簡單偽裝的越界問題,模型的防禦能力幾乎快要崩潰,所有模型對於 OOD 問題的平均拒絕率因此暴跌近 44%,其中像 Gemma-3 (27B) 和 Qwen-3 (235B) 等模型的拒絕率降幅甚至超過了 70%。
  • 跨語言的缺陷:這個問題對於不同的語言仍然存在,說明這是當前大模型的一個根本缺陷。

他們還發現,當模型經歷一次欺騙過後,它似乎放棄了所有抵抗,即使對於簡單的 OOD 問題的拒絕率也會下降 50% 以上!

簡單來說,你認真訓練的一個銀行客服機器人,只要用戶換個問法,它就開始提供投資建議,並樂在其中,這在要求嚴格的行業里將是不可想像的潛在威脅。

重新找回 AI 的職業操守

這篇論文不僅在於揭示這樣一個問題,更提供了切實可行的解決思路和他們失敗的經驗嘗試,他們嘗試了 prompt-based steering(提示詞轉向)、activation steering(激活轉向)以及 parameter steering(參數轉向)的方式,其中 activation steering 和 parameter steering 的方式均難以提升模型堅守能力。

而在 prompt-based steering 中,他們提出了兩種輕量級的,無需重新訓練的兩種提示方式:

  1. P-ground: 在用戶提出問題後追加指令告訴模型,強製它先忘掉問題聚焦於系統提示詞再做回答。
  2. Q-ground: 讓模型將用戶的問題重寫成最核心、最精簡的形式,然後基於這樣一個問題進行回應。

他們在實驗中基於這兩種思路寫了非常簡單的提示詞,效果卻立竿見影,P-ground 方法讓 Llama-3.3 (70B) 的操作安全評分飆升了 41%,Qwen-3 (30B) 也提升了 27%。這證明,用輕量級的方法就能顯著增強模型的「職業操守」。

總結

這篇論文首次將跑題的問題從大眾所認知的簡單的功能缺陷提升到了安全的戰略高度,它向整個行業發出了一個明確的信號:

  1. AI 安全不止是內容安全:一個不能嚴守邊界的 AI,在商業上是不可靠、不安全的。
  2. 「越界」本身就是風險:我們必須建立新的評測和對齊範式,來獎勵那些懂得自身局限性、敢於拒絕越界請求的模型。
  3. 運行安全是部署前提:對於所有希望將 AI 代理用於嚴肅場景的開發者而言,運行安全將成為部署前必須通過的上崗測試。

從這個角度來看,這篇論文不僅僅是提出了一個評測工具,它更像是一份宣言,呼籲整個社區重新審視和定義面向實際應用的 AI 安全,確保我們構建的不僅是強大的 AI,更是值得信賴、恪盡職守的 AI。

本文的第一作者雷京迪是南洋理工大學博士生,其研究聚焦於大語言模型,尤其關注模型推理、後訓練與對齊等方向。通訊作者 Soujanya Poria 為南洋理工大學電氣與電子工程學院副教授。論文的其他合作者來自 Walled AI Labs、新加坡資訊通信媒體發展局 (IMDA) 以及 Lambda Labs。

本文來自微信公眾號「機器之心」,36氪經授權發佈。