AI音頻成詐騙神器，律師父親險被騙走21萬，3秒原聲即可複製聲音

09月30日 15:50 新浪網 news-china-auto-hilite

【導讀】Deepfake到底有多可怕？國外一名律師的父親，險些陷入一場巨大AI騙局。詐騙者借助AI複製其兒子的聲音，偽造車禍事故要挾3萬保釋金。GenAI技術犯罪氾濫同時，科學家們也在尋找破魔之道。

AI氾濫成災的時代，真假孰能分辨？

最近，國外一位專業律師Jay Shooster自曝，自己的父親陷入了一場巨大的AI騙局。

詐騙者利用AI複製了Shooster聲音，然後給他的父親撥去電話：您孩子因酒駕開車被捕，需3萬美元保釋出獄。

險些，這位父親被AI欺騙。

我不確定這事發生在我的聲音出現在電視上僅僅幾天后是否只是巧合。短短15秒的聲音，就足以製作一個不錯的AI複製。

作為一名消費者保護律師，我曾經就這種詐騙做過演講，在網上發過帖子，也和家人談論過，但他們還是差點上當。這些詐騙之所以如此有效，就是這個原因。

不巧的是，Shooster近一次在電視中露臉的15秒影片，恰被詐騙者鑽了空子。

而且，即便是在Shooster曾提醒過家人此類詐騙情況下，他的父親依舊被迷惑了。

只能說AI模擬人類的聲音，已經強到令人髮指。

另有倫敦大學學院一項研究佐證，無論任何語種，人們在27%情況下，都無法識別AI生成的聲音。

而且，反復聆聽，也並不能提升檢測率。

這意味著，理論上，每四個人當中就有一人可能被AI電話詐騙，因為人類的直覺並不總是那麼可靠。

不論是圖像、影片、聲音，憑藉AI生成技術，任何一個人都能輕易偽造，Deepfake已經深深影響每個人的生活。

AI技術犯罪程度，現如今到了我們無法想像的地步。

AI聲音複製，3秒原聲足矣

Shooster的分享用意，告訴大家這種詐騙手段之所以有效，部分原因在於——

人類無法可靠地識別出AI的聲音。

IBM一項實驗中，安全專家展示了如何實現「音頻劫持」的一幕。

他們開發一種方法，將語音識別、文本生成、聲音複製技術結合，去檢測對話中的觸發詞「銀行賬戶」，然後將原來賬戶替換成自己的帳號。

研究人員稱，替換一小段文字，比AI複製語音對話要更加容易，而且還能擴展到更多的領域。

而對於足夠好的語音複製技術，只要3秒原聲就足夠了。

另外，文本和音頻生成中的任何延遲，都可以通過橋接句來彌補，或有足夠處理能力情況再消除。

對此，研究人員警告，未來攻擊還可能會操縱實時影片通話。

而這種技術也不僅僅被濫用在欺詐，配音演員Amelia Tyler稱，AI複製的聲音在未經自己允許下，被用來朗讀不宜兒童的內容。

Deepfake氾濫成災

AI複製聲音之外，還有AI換臉影片、AI虛假圖像生成，這樣案例早已屢見不鮮。

前段時間，南韓國內掀起「N號房2.0」事件，Deepfake被用到了未成年人身上，引發人們巨大的恐慌。

甚至，全網一度開啟了「Deepfake到底有多可怕」的熱議話題。

圖像生成Midjourney、Flux，影片生成Gen-3、聲音生成NotebookLM等等，都成為潛在的作案工具。

圖像生成Midjourney、Flux，影片生成Gen-3、聲音生成NotebookLM等等，都成為潛在的作案工具。

去年，Midjourney生成的穿羽絨服走在大街上的教宗，許多人信以為真，瘋狂轉發。

而到了今年，AI圖像王者Flux出世，各種TED演講者的逼真照片，再配上AI影片工具動起來，幾乎騙過了所有人。

而在AI影片實時換臉上，今年國外網民們已經開發出很多開源工具了。

比如，Facecam僅需添加一張圖，就可以立即生成實時影片，而且一部手機即可操作。

項目作者展示了，自己如何輕輕鬆鬆無縫換臉到Sam Altman、馬斯克，臉上所有器官根本無死角。

還有一夜爆火的AI換臉項目Deep-Live-Cam，同樣也是只要一張照片，直接換臉馬斯克開直播了。

而這兩天炒的比較熱的AI聲音生成，當屬GoogleNotebookLM了。它能夠迅速把文字內容，生成播客影片。

就連AI大佬Karpathy愛不釋手地試玩，併力薦稱有可能會迎來它的ChatGPT時刻。

不過，國外一位掃雷遊戲專家，在聽了AI將自己書生成播客聲音，卻驚呼自己被嚇到了。

而且，更令人驚悚的是，兩位NotebookLM播客「主持人」發現，自己是AI而不是人類，還陷入了存在主義崩潰的邊緣。

若是這樣強大的AI，被應用到現實詐騙中，只會帶來更嚴重的後果。

「魔高一尺，道高一丈」

在DeepFake逐漸變成「惡龍」的同時，研究界也在積極研發「屠龍」工具。

要麼從源頭為GenAI生成的內容添加水印，或者對真實內容設置護欄以防止濫用，要麼發展出能檢測自動生成內容的系統。

不久前，中科院一位工程師曾開源了能夠識別偽造圖像的AI模型，去對抗DeepFake。

剛一發佈，這個項目便登上了Hacker News熱榜，其受歡迎程度可見一斑。

目前，完整的代碼和文檔已經發佈在了GitHub倉庫上。

開發者表示，自己從2023年畢業後就一直在從事DeepFake檢測算法方面的研究工作，讓所有有需要的人都可以免費使用模型來對抗deepfake。

此外，還有許多業界科學家們，在這條路上做出了諸多貢獻。

Antifake

在2023年11月丹麥哥本哈根舉行的ACM計算機與通信安全會議上，美國聖路斯華盛頓大學的博士生Zhiyuan Yu展示了他和Ning Zhang教授合作開發的AntiFake。

通過一種創新性的水印技術，AntiFake可以提供創造性的方法，保護人們免受深度偽造聲音的詐騙。

論文地址：https://dl.acm.org/doi/pdf/10.1145/3576915.3623209

創建DeepFake語音只需要真實的音頻或影片中有人說話。通常，AI模型只需要大約30秒的語音，就能通過創建「嵌入」（embedding）學會模仿某人的聲音。

這些embedding向量就像是在所有聲音的龐大數字地圖中指向說話者身份的地址，聽起來相似的聲音在這個地圖中的位置更接近。

當然，人類並不是用這種「地圖」來識別聲音的，而是通過頻率。我們更關注某些頻率的聲波，而對其他頻率的關注較少，而AI模型則利用所有這些頻率來創建良好的嵌入。

AntiFake通過在人們不太關注的頻率上添加一些噪音來保護語音錄音，這樣人類聽眾還是能聽懂，但會嚴重干擾AI。

最終，AntiFake會讓AI創建出低質量的嵌入，相當於一個指向地圖錯誤部分的地址，這樣生成的任何DeepFake都無法模仿原始聲音。

為了測試AntiFake，Yu的團隊扮演「詐騙者」的角色，使用5種不同的AI模型生成了6萬個語音文件，並為其中600個片段添加了AntiFake保護。

結果發現，添加保護後，超過95%的樣本無法再欺騙人類或語音認證系統。

值得一提的是，AntiFake的衍生版本DeFake，還在今年4月初美國聯邦貿易委員會舉辦的語音複製挑戰賽中獲得了一等獎。

SafeEar

無獨有偶，浙江大學智能系統安全實驗室（USSLAB）與清華大學也聯合了一種內容隱私保護的語音偽造檢測方法——SafeEar。

項目主頁：https://safeearweb.github.io/Project/

SafeEar的核心思路是，設計基於神經音頻編解碼器（Neural Audio Codec）的解耦模型，該模型能夠將語音的聲學信息與語義信息分離，並且僅利用聲學信息進行偽造檢測，從而實現了內容隱私保護的語音偽造檢測。

結果顯示，該框架針對各類音頻偽造技術展現良好的檢測能力與泛化能力，檢測等錯誤率（EER）可低至2.02%，與基於完整語音信息進行偽造檢測的SOTA性能接近。

同時，實驗還證明攻擊者無法基於該聲學信息恢復語音內容，基於人耳與機器識別方法的單詞錯誤率（WER）均高於93.93%。

具體來說，SafeEar採用一種串行檢測器結構，對輸入語音獲取目標離散聲學特徵，進而輸入後端檢測器。

虛線方框內的④Real-world Augmentation僅在訓練時出現，推理階段僅有①②③模塊

1. 基於神經音頻編解碼器的前端解耦模型（Frontend Codec-based Decoupling Model, Frontend CDM）

模型包括編碼器（Encoder）、多層殘差向量量化器（Residual Vector Quantizers, RVQs）、解碼器（Decoder）、鑒別器（Discriminator）四個核心部分。

其中，RVQs主要包括級聯的八層量化器，在第一層量化器中以Hubert特徵作為監督信號分離語義特徵，後續各層量化器輸出特徵累加即為聲學特徵。

2. 瓶頸層和混淆層（Bottleneck & Shuffle）

瓶頸層被用於特徵降維表徵和正則化處理。

混淆層對聲學特徵進行固定時間窗範圍內的隨機打亂重置，從而提升特徵複雜度，確保內容竊取攻擊者即便借助SOTA的語音識別（ASR）模型，也無法從聲學特徵中強行提取出語義信息。

最終，經過解纏和混淆雙重保護的音頻可以有效抵禦人耳或者模型兩方面的惡意語音內容竊取。

3. 偽造檢測器（Deepfake Detector）

SafeEar框架的偽造音頻檢測後端設計了一種僅基於聲學輸入的Transformer-based分類器，採用正弦、餘弦函數交替形式對語音信號在時域和頻域上進行位置編碼。

4. 真實環境增強（Real-world Augment）

鑒於現實世界的信道多樣性，採用具有代表性的音頻編解碼器（如G.711、G.722、gsm、vorbis、ogg）進行數據增強，模擬實際環境中帶寬、碼率的多樣性，以推廣到不可見通信場景。

不過，即使有了很多的進展和成果，防禦DeepFake依舊是一項非常具有挑戰性的任務，人們需要所有可能的幫助來保護他們在網上的身份和信息免受侵害。

警察用AI偵破塵封懸案

除了用「魔法」對抗「模型」之外，英國的一個警察局最近也在測試一套能極大縮短偵查時間，並幫助破解陳年舊案的AI系統。

具體來說，這個名為「Soze」的工具，可以同時分析影片片段、金融交易、社交媒體、電子郵件和其他文檔，從而識別在人工搜索證據過程中可能未被發現的潛在線索。

評估顯示，它能夠在短短30小時內分析完27起複雜案件的證據材料，相比之下，人類需要長達81年的時間才能完成這項工作。

顯然，這對於在人員和預算限制方面可能捉襟見肘的執法部門來說吸引力巨大。

對此，英國國家警察局長委員會主席Gavin Stephens表示：「你可能有一個看起來不可能完成的懸案審查，因為材料太多了，但你可以把它輸入這樣的系統，系統可以吸收它，然後給你一個評估。我覺得這會非常非常有幫助。」

我們生活在了一個Deepfake氾濫的世界，或者說，是一個「矩陣模擬」的世界。

在這個世界中，沒有真實，一切全是AI。

參考資料：

https://the-decoder.com/scammers-use-15-second-clip-to-create-ai-voice-clone-nearly-dupe-lawyers-father-out-of-30000/

https://www.snexplores.org/article/ai-deepfake-voice-scams-audio-tool

https://safeearweb.github.io/Project/

https://futurism.com/the-byte/police-department-ai-powered-detective-unsolved-crimes

本文來自微信公眾號「新智元」，編輯：編輯部 HXY ，36氪經授權發佈。