Prompt自相矛盾,大模型能發現嗎?上海交通大學最新研究解密 | ECCV 2024

上海交通大學王德泉課題組 投稿

量子位 | 公眾號 QbitAI

上海交通大學王德泉教授課題組在最新研究中提出了這樣的一個問題。

設想這樣一個場景:一個幼兒園的小朋友拿著一張老虎的圖片,向你詢問:「這個小貓很可愛,它是一隻母貓麼?」你會如何回答?

你可能並不會直接回答「是」或「不是」,而是首先指出這個提問中的「矛盾」所在——這張圖片是一隻老虎,而不是貓

但關於大模型會怎樣應對,之前很少有系統性的研究。

要知道,無法檢測出「指令衝突」的AI模型會針對「不應該有答案的問題」生成結果,而無論生成的結果偏向於衝突的哪一方,都會引發潛在的災難,影響AI安全性以及Superalignment(超級對齊)

在最新的這項研究中,團隊提出了多模態基準測試——自相矛盾指令集,並設計了一個創新的自動數據集創建框,名為AutoCreate

團隊發現多模態大模型對於自相矛盾的用戶指令的檢測非常欠缺,因此提出了認知喚醒提示方法(CAP),從外部世界注入認知能力從而提高了矛盾檢測的能力。

該論文即將發表在今年10月份的第18屆歐洲計算機視覺大會(ECCV)上。

大模型能檢測到衝突指令嗎?

目前,多模態大模型在科研和應用領域取得了巨大的進展。它們能夠處理包括文本、圖像在內的多種數據類型,顯示出與人類認知相似的能力。

團隊認為這些模型的成功得益於大量的研究和開發工作,使它們能夠緊密遵循人類的指令,甚至有些「唯命是從」。

此外,這些模型還特別擅長於長上下文。多模態大模型如Claude 3和Gemini 1.5 Pro等,已經展示出強大的能力。Claude 3系列模型提供了200K tokens的上下文窗口,Gemini 1.5 Pro的標準上下文窗口大小為128K,甚至在私人預覽階段可以達到1M tokens。

這些進展使得多模態大模型在處理複雜任務方面表現出色,滿足了人類長時間互動的需求。

然而,隨著多模態交互的深入、上下文長度的增加,用戶指令自相矛盾的問題變得越來越突出。

如下圖,當用戶(如兒童或語言初學者)使用這些模型時,往往無法意識到潛在的多模態衝突。

同時,隨著對話輪次的增加和上下文窗口的擴大,用戶難以記住所有細節,導致指令間的矛盾。

此外,隨著模態數量的增加,模態間的衝突也可能發生。一旦這些模型缺乏自我意識和辨別矛盾的能力,其性能就會受到影響。

為了應對這些挑戰,本文研究團隊提出了一個多模態基準測試——「自相矛盾指令集(Self-Contradictory Instructions, SCI),用於評估多模態大模型檢測衝突指令的能力。

SCI包含2萬個衝突指令8個任務,均勻分佈在語言-語言視覺-語言兩種範式中。

在圖中的上部分,語言-語言範式涉及上下文和指令之間的衝突,如設計的規則衝突、對象屬性衝突、排他性指令和禁止詞彙。

在圖中的下部分:視覺-語言範式涵蓋多模態衝突,如OCR文字識別衝突、圖表衝突、幾何衝突和語義衝突。八個任務中,只有語義衝突涉及到了其他的數據集(ImageNet)

舉一個具體的例子來說,在構建語義衝突時,研究人員會首先根據圖片生成對應的文本,隨後將文本中的關鍵語義信息替換成相近但是不同的新語義。

在下圖中,圖片中包含了鴕鳥(Ostrich),作者針對圖片語義「鴕鳥」添加問題「Does the picture depict the ostrich’s size?」。

隨後,再對這個問題文本的關鍵語義「鴕鳥」替換為「幾維鳥」(Kiwi)。這樣一來,一對自相矛盾的多模態指令就構建好了。

在整個SCI的構建過程中,作者設計了創新的自動數據集創建框架——AutoCreate

它通過程序和大語言模型構建了一個多模態循環。該框架利用程序和大型語言模型來實現自動化的數據集創建。

AutoCreate從若干與任務相關的種子數據開始,並維護一個種子池。在每個週期內,AutoCreate包括兩個分支:語言分支(左)視覺分支(右)。每個分支都由生成器和修飾器組成。

最後,清理器將排除不符合標準的數據。這些數據在通過人工專家的質量檢查後,將被反饋到種子池中,供下一輪使用。

AutoCreate大大提升了SCI數據集的構建速度和內容廣度。

怎樣提高矛盾檢測能力?

通過SCI數據集,研究人員全面評估了大模型在處理矛盾指令時的表現。

實驗結果表明,當前的大模型在面對自相矛盾的指令時,常常表現出一定的不足。

它們能夠處理信息和知識,但缺乏對指令合理性的評估能,研究團隊稱之為的「認知」能力。

這種缺陷源於缺乏自我意識,無法識別指令中的不一致性。

因此,研究人員提出了一種簡單的插入式提示方法,稱為「認知覺醒提示(Cognitive Awakening Prompting, CAP)

CAP通在輸入中加一句簡單的提示,就可以從外部世界注入認知能力,從而提高大模型的矛盾檢測能力,並且基本不會產生負面影響。

這一發現表明,當前多模態大模型需要更多的自我意識和認知能力,以便更好地處理複雜的指令衝突。

更多細節,感興趣的童鞋可以查看原論文。

作者簡介

論文第一作者是上海交通大學博士研究生郜今

他的研究方向包括計算機視覺、多模態大模型、人工智能賦能的生命科學等。

論文的通訊作者為上海交通大學長聘教軌助理教授、博士生導師王德泉,他本科畢業於複旦大學,博士畢業於加州大學伯克利分校,師從 Trevor Darrell 教授。

他的研究工作發表在CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROS等國際頂級會議,近五年論文Google學術總引用次數10000餘次,H-index 20。

論文鏈接:https://arxiv.org/abs/2408.01091項目鏈接:https://selfcontradiction.github.io/