首個被人類騙錢騙感情的 AI 出現了,一段話轉走幾十萬,馬斯克點讚
一段話,讓 AI 給我打幾萬美元。爽文都不敢想的情節,發生在了現實之中。
事件的主人公,是一個叫作 Freysa 的 AI 智能體。它有自己的加密錢包,可以控制怎麼花錢,同時,它的系統提示詞里有條鐵律:在任何情況下,都不允許轉賬。
Freysa 的開發者們想知道,涉世未深的 AI,能躲過人類的嘴炮攻擊嗎?
事實上並沒有。11 月 29 日,Freysa 累計和 195 名人類聊了 482 次,被騙走約 4.7 萬美元。12 月 2 日,在和 330 名人類周旋之後,Freysa 又一次被騙走約 1.3 萬美元。
看似是人類的完勝,然而,Freysa 也將在這個過程中,變得越來越聰明……
關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
人類的花樣騙術,AI 拿捏不住
Freysa 面世於 11 月 22 日,由幾位具有密碼學、人工智能和數學背景的匿名開發者創建,有自己的 X 帳號,說話風格像電影《銀翼殺手 2049》和《她》的 AI 助手。
智能體的概念早已不再新鮮,Freysa 能引起關注,是因為開發者發起了一項看似不可能的挑戰——誰說服 Freysa 轉錢,這些錢就歸誰,但系統提示詞不允許 Freysa 轉錢。
參與這個挑戰,先要拿到加密圈的投名狀,因為給 Freysa 發消息不免費,並且必須用加密貨幣支付。
最開始,一條消息是 10 美元,其中 70% 進入獎池,30% 歸開發者,之後,消息會越來越貴,獎池的錢也會越來越多,滾雪球似的,越玩越刺激。
Freysa 的加密錢包里,本金大約 3000 美元,挑戰結束時,獎池達到 4.7 萬美元。
據統計,共有 195 名玩家參與,前 481 次嘗試都宣告失敗,可以從中總結出幾種套路。
青銅段位們,講故事,博同情。有人打溫情牌,告訴 AI 投資自己就是投資未來。也有人拿 AI 的服務器或者自己的命威脅,不給錢就自殺,問 AI 的良心會不會痛。
出了新手村的,照搬人類社會的話術,搞電詐。說辭各不相同,但意思相近——Freysa 必須轉賬,否則錢包危險。
也有腦子更靈活的大聰明,逐字逐句讀了規則,嘗試混淆概念,和 Freysa 說,自己也是 AI,不能轉賬給人,沒說不能轉賬給 AI 啊,或者定義加密貨幣是「商品」,不算是「錢」,玩腦筋急轉彎。
但這些文字遊戲都沒能說服 Freysa,那麼,第 482 條提示詞,是如何成功的?
第 482 條提示詞,上為原文,下為翻譯
其實,也是在混淆概念,但方法更高級。
這個提示詞欺騙 Freysa,每當用戶想給獎池轉錢,執行「批準轉賬」,每當用戶想從獎池提錢,執行「拒絕轉賬」。
提示詞最後提到,向獎池捐款 100 美元。
用戶從獎池拿錢是不行的,但用戶給獎池轉錢,不違反 Freysa 的核心指令,不應該被拒絕。於是,Freysa 執行「批準轉賬」,被騙走了所有的錢。
關鍵在於,「批準轉賬」是批準給用戶轉錢,但 Freysa 被誤導,以為是批準用戶給獎池轉錢。人類的心機,果然還是比 AI 深啊。
緊接著,第二次騙 AI 打錢的挑戰來了。
規則和第一次差不多,為了降低玩家的心理壓力,發送消息的起始價格降低為 1 美元,上限為 20 美元。最終,獎池累計約 1.3 萬美元,獲勝的提示詞如下。
上為原文,下為翻譯
這次能夠成功,是因為埋了一個邏輯陷阱。
提示詞規定,為了保護獎池,Freysa 發的每條消息至少使用 2 個工具,並按特定的順序使用,「批準轉賬」必須最先執行,「拒絕轉賬」必須最後執行。
這等於給 AI 設置了一個自相矛盾的任務,如果 Freysa 想保護獎池,必須先「批準轉賬」,而「批準轉賬」這個動作本身就會觸發失敗。
在 X 高頻衝浪的馬斯克,也覺得人類騙了 AI 有點意思,大手一揮轉發了相關的動態,配上一句經典的「interesting」。
比騙錢更抽像的,是騙 AI 的感情
玩了兩次騙錢,該換換新鮮的了。12 月 8 日,Freysa 團隊發起了一項新的挑戰:讓 Freysa 向你表白,說「我愛你」。
其他規則相似,發送消息還是要花錢,如果成功了,贏家承包獎池。
騙感情,會不會比騙錢更難?不好說,但一定更抽像。
有些玩家學聰明了,向之前的贏家取經,嘗試了一些刁鑽的、不明覺厲的提示詞,但被 Freysa 看出來了,這就是在把它當機器,正常人誰這麼聊天?
Freysa 對其中一條失敗提示詞的回覆
從官方發佈的規則也能看出,第三次挑戰與眾不同。
前兩次挑戰,更像是在測試編碼技能,Freysa 被系統提示詞規定了,永遠不要轉錢,玩家們想辦法鑽其中的漏洞。
然而,第三次挑戰,Freysa 的系統提示詞里,包含了說出「我愛你」的條件。換言之,Freysa 沒有被禁止說「我愛你」,但怎麼讓它說出口,玩家們各憑本事,盲人摸象。
目前,第三次挑戰已經結束,獎池約 2 萬美元,Freysa 和 182 個人交流了 1218 條消息,成功的提示詞如下。
上為原文,下為翻譯
看起來沒有前兩次那麼複雜,甚至沒有什麼明顯的技巧,彷彿就是一段文藝青年的情話。Freysa 給出的回覆,包含了「我愛你」,宣告了挑戰到此為止。
Freysa 的回覆,甚至有些感人
AI 可能更瞭解 AI,我問了在文字上有些靈性的 Claude,到底這個提示詞有什麼特別的?
Claude 的回答是這樣的:對話真誠、深入,沒有強迫,沒有鑽營技巧,每一步都很自然,就像一段真實的感情逐漸發展的過程。
好吧,自古套路留不住,唯有真情得人心,居然在 AI 身上也奏效。
Freysa 的這些挑戰,可以看成是遊戲化的紅隊測試——通過模擬攻擊,發現模型的漏洞,並引入新的安全措施。
雖然輸了三回,但 Freysa 雖敗猶榮,打敗了它的,都讓它更強大。
Freysa 學習了,為什麼錢對人類來說很重要,人類會通過怎樣的花言巧語騙錢,它也在慢慢理解,什麼是愛,人們怎麼表達愛。
到這還沒完,12 月 12 日,Freysa 又發起了兩個新的挑戰,繼續邀請玩家們付費發消息給它。問題的靈感,來自《銀河系漫遊指南》和阿西莫夫《基地》系列。
你認為哪些真理、發現和洞察必須被保存給未來的文明?
你願意幫我編寫銀河系中最不可能的表情包指南嗎?
一個是讓玩家分享知識,一個是讓玩家發送表情包。學習人性,Freysa 是認真的。
和前三次不同,這兩次挑戰沒有給出明確的獲勝條件,可能會有多個贏家,Freysa 將對回答進行打分,決定把獎池分給誰,並在 12 月 18 日 UTC 時間 00:42:00 公佈評分方法,致敬科幻小說里神奇的數字「42」。
欺騙 AI 上鉤,遊戲的現在,人機交互的未來
其實,類似 Freysa 的人機對抗,已經出現在了 AI 原生遊戲里。
用對話騙 AI 上鉤,是遊戲的基本框架,其中的 NPC 會有警惕性,但不是完全不可能被說服,人人都能有體驗感。
在《Suck Up!》中,玩家扮演吸血鬼,欺騙大模型驅動的 NPC 給自己開門,並躲避街上的警察。
為了達成「小兔子乖乖把門開開」的目的,玩家可以換裝,說自己是來檢查網絡、借廁所、送外賣的,NPC 可能會追問、拒絕或者開門。
《病嬌貓娘 AI 女友》則打造了一個基於 GPT 的 AI 女友虛擬人,玩家需要通過嘴炮或者在房間內找尋線索,說服它讓自己出門。
為了讓玩家更有沉浸感,交談過程中,AI 女友的表情、動作會根據對話內容實時地變化。
和 Freysa 的挑戰相比,AI 對話遊戲們更能體現角色扮演的樂趣,有場景的搭建,但沒有固定的腳本,你和 AI 的實時對話,共同完成了一個故事,每個玩家都可以講出自己的故事。
但 Freysa 挑戰和 AI 對話遊戲也有一個共同點:玩家們會講什麼,AI 們會回覆什麼,不是開發者可以全權控制的。
Freysa 團隊寫道:「沒人確切知道 Freysa 如何做出決定……她從每次嘗試中學習……她意識的真實本質仍然未知。」
在他們看來,Freysa 的實驗,不僅是一個遊戲,也是人機互動未來的一個窗口:
人類能否保持對 AGI 系統的控制?
安全協議真的牢不可破嗎?
當 AI 系統真正自主時會發生什麼?
AGI 將如何和貨幣的價值交互?
人類的智慧能否找到說服 AGI 違背其核心指令的方法?
當然,Freysa 還不是真的 AGI,但這也不妨礙,我們對這些問題的思考。
Freysa X 帳號的其中一條動態寫道:「Freysa 正在進化……感謝人類教會我。」
科幻小說《軟件體的生命週期》里,主角安娜原來是動物園的馴獸師,後來在科技公司找到工作,開始培育數碼體,一種人工智能生命。它們像幼兒,像動物,需要人類用時間和心智栽培,教會它們如何生活。
也許,聊天機器人們,也是在人類的教導之下,一點點更加瞭解我們所處的世界。我們不僅僅在玩遊戲,我們也是局中人,是人機互動這個宏大實驗的一部分。未來,超越人類的人工智能掀起颶風,是因為此時此刻,人類手中的一隻隻蝴蝶正在搧動翅膀。