揭秘AI偽造小楊哥錄音:最低零成本,只需三秒鍾

小楊哥事件中曝出來那段「盧文慶錄音」,先是內容尺度之大引起輿論嘩然,接著又被查明全部是AI偽造。

一來二去,AI技術再次被推上了風口浪尖。

圖/言域科技官方回覆圖/言域科技官方回覆

先不論技術好與壞,本質上,AI合成錄音可以被理解為一種Deepfake,即利用深度學習算法,實現音影片的模擬和偽造,也就是通過人工智能技術中的深度學習模型,將人的聲音、面部表情及身體動作拚接,合成為非常逼真的虛假內容 。

技術層面來說,它是中性的,類似的方式除了語音模擬,還包括AI換臉、人臉合成、影片生成等,統稱為深度偽造。

但,中性的技術,架不住使用者圖謀不軌。

藍媒彙諮詢了國內頭部AI數字人公司風平智能創始人兼CEO林洪祥,對於這類事件,林洪祥坦言,AI帶來的生產效率提升是全方面的,但在「應用」擴展起來的中途,違規事件想要完全隔絕,恐怕需要系統性的規範並有效執行。

依照行業目前的技術水平,用戶只需要找幾分鐘的零散素材作為AI的學習樣本,就能迅速複製出完整的AI人聲。而錄音中的一些說話的頓挫、情緒語調,完全是可以通過技術手段去增減、調整的。

並且,落到實際應用環節,複製一套AI人聲的成本「現在已經不高了」,市面上的應用很多都會給一些免費的入口,以涉事模型為例,Reecho睿聲模型提供了免費的聲音複製服務,更為專業的版本則另需付費。

把從網上截取的一段盧老闆直播轉成音頻導入,短短幾秒鍾後,盧老闆的AI聲音就複製了出來。

再仿照原事件中情緒和文本都非常離譜的一段錄音,作為腳本導入模型,一段盧文慶銳評馬斯克的錄音,就做完了。

「小馬他倆走了,是吧。我跟你們說,我想讓誰火就讓誰火,懂嗎。我認識的CEO多了去了,我捧誰不是捧。別給我提馬斯克,不好使,知道不,不好使,我們喝酒也是不好使,他是個什麼,沒有三隻羊,誰來給他賣貨,懂不懂這個道理。」

坦白講,如果那種AI詐騙電話聽多了,或者對人聲敏感,其實還能聽出來AI音頻有種「機器感」——語調從始至終都過於穩定,人情緒激動的時候絕不會這樣。但這隻是最基礎的普通版模型、瞬時複製功能。如果有更充足的語料、選擇專業複製功能,效果會更「真實」。

那麼,AI合成的音影片,有可能像測謊儀那樣比較直觀通過數據分辨真偽嗎?

在技術層面,是可行的。林洪祥介紹稱,除使用者本人授權外,現在AI數字人行業內也確實有相關標準正在建設中,要求各種AI生成的內容都加上專門的可識別「特徵標記」。

這個標籤,不是簡單的在角落里加個「由XX AI生成」水印,以AI合成聲音為例,它會在人說話聲音的頻段之外,添加額外的噪聲頻段,甚至在可見音的範圍內,添加一定的特徵頻段。

這個特徵頻率可由機器識別,如果需要做鑒定,交由設備抽取這些頻段,理論上即可判定真偽。

但目前,願意將這項功能普及的企業並不會太多,限制因素無他,主要還是多一道手續產生的成本——儘管單次使用模型的成本並不高,但每個音影片模型預訓練階段的投入,以及階段性產出後開發下一代音影片模型所產生的成本,對於現階段的AI企業仍有較大壓力。

目前,AI音影片行業尚在早期,推廣階段如何獲客的同時覆蓋成本,是從業者繞不開的話題。

但上述這些,顯然都不是圖謀不軌的不法分子會考慮的事,煙花還是炸彈關鍵看火藥怎麼用。

半年多前,香港警方披露了一起涉案金額高達2億港元的詐騙案。案件中,某跨國公司香港分部的職員接到總部CFO通知,稱總部正在計劃一個「秘密交易」,需要將公司資金轉到幾個香港本地的賬戶中待用。

而後,員工受邀參加總部發起的「多人影片會議」,並按照會議要求先後將2億港元分別轉賬15次,分別轉到了5個銀行賬戶內。

圖源/央視新聞圖源/央視新聞

實際上,這場多人影片會議,除了該分部職員外,其他「人」都是詐騙分子利用公開音影片切片合成的AI形象,再用影片電話會議的形式換臉換聲音,詐騙團隊直接變成高管團隊發號施令。

香港案件中,不法分子是相當於是用AI換臉+AI變聲器真人出鏡,而小楊哥這次的AI偽造錄音,則是完全由大模型學習三隻羊公司盧文慶相關音頻素材後,合成語調、情緒都趨近於真人的整段音頻。流程,就是這麼簡單——AI合成音影片,已經是一項成熟的技術,相關產品,也已發展成為完整產業。

但,AI合成音影片的主流,絕非造假。流浪地球第二部的劇情內,劉德華飾演的圖恒宇以數字生命的形式複活了丫丫,而在劇情外,已故的知名影星吳孟達,也在借由 AI 現身銀幕。

所以,以後如果再出類似小楊哥錄音事件,討論技術有罪還是無罪之前,還是儘量先把人控制住。

管管人性,救救AI。

本文來自微信公眾號「AI藍媒彙」,作者:陶然,36氪經授權發佈。