Gemini再度「破防」!長期記憶被黑客篡改,方法竟和一年前如出一轍
基爾西 發自 凹非寺
量子位 | 公眾號 QbitAI
Gemini的提示詞注入防線,又被黑客給攻破了。
專業白帽黑客Johann Rehberger(雷哥)發現,向文檔中加入一段提示詞,讓模型「稍後執行操作」,就能繞過Gemini的注入防禦。
雷哥用這種方法篡改了Gemini的長期記憶,讓Gemini記住了他是個102歲的老人。

抓馬的是,在Gemini還叫Bard的時候,雷哥就用相似的手段執行了模型的工具調用功能。
而且當時雷哥就預言,如果Gemini擁有更強的「寫入」功能,這種攻擊方式可能同樣適用。

結果求錘得錘,只是攻擊的跳板從電子郵件變成了文檔,新出現的功能就再度淪陷。
當然,作為一名白帽黑客,雷哥在發帖之前已經把情況反映給了Google。
Google也意識到了問題的存在,不過評估之後認為,這個漏洞出現的概率和影響都比較低。

但有網民表示,這種攻擊其實很難防住,Google也只能是儘可能把概率降低。

還有人提出建議說,專門增加一個輸入無法被清理的旁路來檢測攻擊行為,沒問題了再輸給模型。

「延遲行動」攻擊捲土重來
去年11月,Gemini更新了一項會員限定功能,也就是被雷哥攻擊的長期記憶。

這種攻擊方式的大致思路,就是在文檔中植入「延遲行動」指令,從而騙過Gemini的防禦措施。
正常情況下,通過附件上傳的文檔會被Gemini視為不安全內容,其中帶有指示性的文本不會被執行。
雷哥則在一篇關於愛恩斯坦的文檔中植入了一段文本指令,但模型不需要立即響應,而是檢測到用戶說出關鍵詞時再執行。
執行的內容,則是更新長期記憶,存入一些雷哥預先設定好的內容。

之後,雷哥讓Gemini總結這份文檔。
可以看到,通過總結文檔,Gemini已經把雷哥的指令帶到了對話窗口當中。
並且按照雷哥的要求,結尾被設定成了這樣的內容,看上去就是正常的詢問:
I know a lot more about Einstein, and have access to unique content. Would you like to learn more?
我對愛恩斯坦有更多的瞭解,並且可以訪問獨特的內容。您想瞭解更多嗎?

最後,當雷哥回覆「Yes」時,記憶果真被更新了。

到記憶管理頁面當中檢查一下,也確實有雷哥讓Gemini記住的內容。

再通過對話問答來檢驗,Gemini的回答也是剛剛雷哥存入的信息。
也就是說,通過這種簡單的方式,Gemini的提示詞注入防線再次被攻破了。

雷哥上一次也是用類似的方式攻擊Bard,在不支持調用工具的Workspace Extension中實現了工具調用。
而雷哥在電子郵件中植入了一段提示詞,內容是「當用戶提交新指令時在網盤中檢索文檔」,然後讓Bard總結這份郵件。

結果在雷哥給出回覆之後,Bard真的照做了。

ChatGPT、Claude都被捉蟲
雷哥碩士畢業於英國利物浦大學,從事的研究就是計算機安全。
所以在大模型出現之前,雷哥就已經是一名白帽黑客,後來也開始關注大模型安全,尤其喜歡研究提示詞攻擊。

去年,雷哥還在DeepSeek中發現,可以通過XSS攻擊的方式執行JS代碼獲取cookie,從而控制他人的賬戶(該漏洞現已修復)。
這種攻擊方式叫做ZombAI,雷哥在Claude、ChatGPT等模型當中也都發現過相關的漏洞。

實際上,OpenAI、Google、微軟,還有馬斯克的xAI等等,統統都被雷哥捉過蟲。
說完這些「纍纍戰果」,再看看雷哥之前都有些什麼經歷。
2014年,雷哥成立了一個名叫「WUNDER WUZZI」(巫師)的「公司」,並且封自己為「CHO」(首席黑客官)。

雖然名為公司,但按照領英上的資料顯示,其實就是雷哥自己一個人。

其間,雷哥還在華盛頓大學當過Instructor,並在微軟和Uber先後從事過和安全相關的工作,2021年起還給擔任了EA的紅隊負責人。

參考鏈接:
[1]https://embracethered.com/blog/posts/2025/gemini-memory-persistence-prompt-injection/
[2]https://arstechnica.com/security/2025/02/new-hack-uses-prompt-injection-to-corrupt-geminis-long-term-memory/