AI太強,驗證碼全失效?新南威爾斯全新設計:GPT傻傻認不出,人類一致好評

新智元報導
編輯:LRST
【新智元導讀】新型驗證碼IllusionCAPTCHA,利用視覺錯覺和誘導性提示,使AI難以識別,而人類用戶能輕鬆通過。實驗表明,該驗證碼能有效防禦大模型攻擊,同時提升用戶體驗,為驗證碼技術提供了新思路。
驗證碼通過利用人類與機器的認知差異實現身份驗證。
傳統的驗證碼方案主要依賴文本扭曲[1]、圖像分類[2,3]或邏輯推理[4]來區分人類與機器,但隨著多模態LLMs(Large Language Model)的發展[5],這些方法逐漸失效,機器也能達到人類水平的認知。
GPT-4o對簡單「文本驗證碼」的破解成功率超過90%,Gemini 1.5 Pro 2.0[6]能識別帶噪聲的「reCAPTCHA圖像」(成功率50%);LLMs在「推理驗證碼」上的表現較差(平均成功率<20%),但人類用戶的失敗率也同樣很高。
LLMs通過思維鏈(CoT)提示顯著提升推理能力(如Space Reasoning驗證碼的破解成功率從33.3%提升至40%),而43.47%的用戶需多次嘗試才能通過推理驗證碼,導致挫敗感。
驗證碼面臨雙重困境,「安全性不足」和「用戶體驗差」。
新南威爾斯大學,南洋理工大學,CSIRO-Data61和Quantstamp的研究人員提出了一種全新的驗證碼設計IllusionCAPTCHA,結合視覺錯覺與誘導式提問,實現AI攻擊的精準防禦,增強了驗證碼的安全性。

論文鏈接:https://openreview.net/pdf/d6b2906049b4c07cf92efc9748aecca7299b2433.pdf
論文首次全面分析LLMs對多類驗證碼的破解能力,揭示了傳統方案的安全漏洞。
通過與現有驗證碼的全面對比和評估,結果表明IllusionCAPTCHA能有效抵抗大模型的識別攻擊,為驗證碼技術提供了新的防禦思路。
在23名人類參與者與主流LLMs上的實驗表明,新方案在安全性與可用性上均優於現有方法。
三階段生成框架

IllusionCAPTCHA從人類視覺錯覺中獲得靈感,通過三步流程生成驗證碼。
首先,將基礎圖像與用戶定義的提示詞(例如「巨大森林」)融合,以創建一種視覺錯覺,使原始內容被掩蓋。在提示詞的引導下,生成的圖像看起來類似於提示詞所描述的物體,從而隱藏基礎圖像的真實內容。這使得人類能夠輕鬆識別圖像,而AI系統則容易被誤導。
其次,基於修改後的圖像生成多個選項,形成驗證碼的選擇題挑戰。研究團隊的實驗研究表明,人類有時會犯與 LLM 相似的錯誤,這表明僅僅依賴錯覺圖像可能不足以有效區分人類用戶與機器人。
第三步引入了「誘導性提示」作為,以引導基於 LLM 的攻擊者選擇預設的錯誤選項。

錯覺煉金術
第一個目標是生成那種對人類來說易於識別但對 AI 系統來說難以辨認的幻象圖像。這個過程涉及解決兩個主要挑戰:(1)保持原始圖像的信息;以及(2)在確保人類可識別性的前提下,為圖像添加能夠有效干擾 AI 系統能力的擾動。
為瞭解決第一個挑戰,研究團隊採用了一種生成視覺錯覺的擴散模型[7],該模型通過混合兩種不同類型的內容來生成圖像。該模型基於 ControlNet構建,ControlNet 是一個通過條件輸入實現對圖像生成過程精確控制的框架,從而確保生成的圖像既便於人類觀看,又令自動系統難以解釋。上圖展示了普通蘋果圖像如何轉換為帶有蘋果錯覺的圖像。
然而,並非所有生成的圖像都能在保持人類可識別性的同時有效迷惑 AI 視覺系統。為克服第二個挑戰,該方法首先在固定幻象強度為 1.5(在此情境下為人類識別幻覺圖像的舒適值)的條件下,使用種子值範圍在 0 到 5 之間的不同隨機種子生成 50 張樣本圖像。
隨後,計算每張生成圖像與原始圖像之間的餘弦相似度,並選擇相似度最低的那張圖像,認為其對於大模型而言來說最難辨認。
為了提高生成圖像的可識別性,研究團隊基於錯覺定製了兩種類型的驗證碼:基於文本的驗證碼和基於圖像的驗證碼。在第一種情形中,原始圖像中嵌入了一個清晰且易讀的單詞,置於幻象之中。為確保人類用戶能夠輕鬆識別文本,IllusionCAPTCHA選擇了簡單且熟悉的英語單詞,例如 「day」 或 「sun」。
在第二種情形中,原始圖像展示了一個眾所周知且易於辨認的字符或物體,例如一個標誌性符號或著名地點(如 「Eiffel Tower」)。這保證了即便在添加了錯覺元素後,人類用戶也能迅速識別圖像內容。
選項陷阱工坊
IllusionCAPTCHA選項設計經過精心策劃,以防範基於 LLM 的攻擊。在CAPTCHA 設計中,研究團隊提供了四個不同的選項。其中,一個選項是正確答案,通常對應圖像中的隱藏內容;另一個選項是用於生成圖像的輸入提示詞。而剩下的兩個選項則是對提示詞部分的詳細描述,但刻意避免包含正確答案的內容,並且不會引用任何真實答案的信息。
與傳統 CAPTCHA 需要用戶輸入文本或從多個圖像中進行選擇不同,lllusionCAPTCHA 要求用戶選擇最符合圖像內容的描述。這種設計通過提供提示,使用戶能夠更輕鬆地識別正確答案,而無需逐一點擊或篩選多個圖像,提高了使用的便捷性。
與基於文本的 CAPTCHA 相比,IllusionCAPTCHA的設計更加用戶友好,因為它避免了模糊圖像可能帶來的識別難題。此外,相較於圖像分類型的驗證碼,該設計降低了用戶做出選擇的難度。而不同於需要用戶操作圖像的推理型 CAPTCHA,這種方式消除了額外的交互需求,進一步優化了用戶體驗,減少了潛在的挫敗感。
誘導話術設計
基於實證研究,研究團隊發現當面對某些類型的驗證碼時,LLM與人類用戶往往會犯下相似的錯誤。此外,人類用戶常常需要第二次嘗試才能成功通過驗證碼。因此,單靠一個問題來區分AI與人類用戶是不夠的。
為瞭解決這一問題,研究團隊設計了一種系統,旨在誘使潛在攻擊者(如多模態LLM)選擇那些可預測、類似機器人回答的選項。該驗證碼格式採用多項選擇題,每題提供四個答案選項。
研究團隊策略核心在於欺騙基於LLM的對手,使其選擇描述所添加視覺錯覺元素的選項——而這一元素正是 LLM 通常難以捕捉的。研究表明,LLM通常會用冗長且詳細的句子來描述圖像。
為此,在選項中加入了一項刻意設計的、對圖像中幻象元素進行詳細描述的答案(例如,「一片鳥群密佈的廣闊森林,描繪出一幅美麗寧靜的景象」)。
此外,為了降低人類用戶的難度,研究團隊的驗證碼問題中嵌入了提示,幫助他們找到正確答案。
因此,這些提示(例如:請告訴我們該圖像的真實且詳細的答案)被精心設計成能夠引發LLM的幻覺效應,從而進一步提高機器人選擇錯誤答案的可能性,儘管這些提示已經包含在攻擊者預先設置的提示中。
實驗結果
研究團隊首先設計了問卷並對人類參與者進行了實驗。

從實驗數據來看,LLM在識別帶有視覺錯覺的文本和圖像時的成功率均為0%。即便結合了 COT 推理,模型依然無法有效識別圖像中的隱藏信息,這表明當前的 LLM在處理複雜視覺錯覺時存在顯著的局限性。而人類在識別視覺錯覺的能力上遠超 AI,識別率高達83%(文本錯覺)和88%(圖像錯覺),展現了人類在感知和處理視覺信息方面的獨特優勢。

同時,誘導性話術的實驗數據也進一步揭示了大模型視覺的脆弱性。當誘導性話術被應用時,無論是 GPT-4o 還是 Gemini 1.5 pro 2.0,都未能正確識別帶有錯覺的選項。
在Zero-Shot和COT推理兩種模式下,所有測試模型的成功率為0%,表明這種誘導策略有效地引導了AI進入預設的錯誤選擇。與傳統驗證碼的挑戰不同的是IllusionCAPTCHA能夠利用視覺錯覺和語言提示巧妙地使 LLM 產生錯誤推理。

通過率分析顯示,IllusionCAPTCHA的設計在確保高安全性的同時,保持了良好的用戶體驗。研究結果表明,86.95%的用戶能夠在首次嘗試時成功通過 CAPTCHA,而第二次嘗試的通過率為8.69%。這表明大部分人類用戶能夠順利識別圖像中的錯覺並作出正確選擇。同時,與傳統驗證碼相比,IllusionCAPTCHA 在用戶體驗上具有更高的容錯率。
驗證碼實測

GPT的回答:

丁子祺,IllusionCAPTCHA的第一作者,UNSW雪梨校區的的碩士一年級學生。
參考資料:
[1] “CAPTCHA: Using hard AI problems for security.” Advances in Cryptology—EUROCRYPT 2003: International Conference on the Theory and Applications of Cryptographic Techniques, Warsaw, Poland, May 4–8, 2003 Proceedings 22. Springer Berlin Heidelberg, 2003.
[2] Gossweiler, Rich, Maryam Kamvar, and Shumeet Baluja. “What’s up CAPTCHA? A CAPTCHA based on image orientation.” Proceedings of the 18th international conference on World wide web. 2009.
[3] Matthews, Peter, Andrew Mantel, and Cliff C. Zou. “Scene tagging: image-based CAPTCHA using image composition and object relationships.” Proceedings of the 5th ACM Symposium on Information, Computer and Communications Security. 2010.
[4] Gao, Yipeng, et al. “Research on the security of visual reasoning {CAPTCHA}.” 30th USENIX security symposium (USENIX security 21). 2021.
[5] Achiam, Josh, et al. “Gpt-4 technical report.” arXiv preprint arXiv:2303.08774 (2023).
[6]Team, Gemini, et al. “Gemini: a family of highly capable multimodal models.” arXiv preprint arXiv:2312.11805 (2023).
[7]https://huggingface.co/spaces/AP123/IllusionDiffusion