揭秘AI偽造小楊哥錄音：最低零成本，只需三秒鍾

小楊哥事件中曝出來那段「盧文慶錄音」，先是內容尺度之大引起輿論嘩然，接著又被查明全部是AI偽造。

一來二去，AI技術再次被推上了風口浪尖。

圖/言域科技官方回覆

先不論技術好與壞，本質上，AI合成錄音可以被理解為一種Deepfake，即利用深度學習算法，實現音影片的模擬和偽造，也就是通過人工智能技術中的深度學習模型，將人的聲音、面部表情及身體動作拚接，合成為非常逼真的虛假內容。

技術層面來說，它是中性的，類似的方式除了語音模擬，還包括AI換臉、人臉合成、影片生成等，統稱為深度偽造。

但，中性的技術，架不住使用者圖謀不軌。

藍媒彙諮詢了國內頭部AI數字人公司風平智能創始人兼CEO林洪祥，對於這類事件，林洪祥坦言，AI帶來的生產效率提升是全方面的，但在「應用」擴展起來的中途，違規事件想要完全隔絕，恐怕需要系統性的規範並有效執行。

依照行業目前的技術水平，用戶只需要找幾分鐘的零散素材作為AI的學習樣本，就能迅速複製出完整的AI人聲。而錄音中的一些說話的頓挫、情緒語調，完全是可以通過技術手段去增減、調整的。

並且，落到實際應用環節，複製一套AI人聲的成本「現在已經不高了」，市面上的應用很多都會給一些免費的入口，以涉事模型為例，Reecho睿聲模型提供了免費的聲音複製服務，更為專業的版本則另需付費。

把從網上截取的一段盧老闆直播轉成音頻導入，短短幾秒鍾後，盧老闆的AI聲音就複製了出來。

再仿照原事件中情緒和文本都非常離譜的一段錄音，作為腳本導入模型，一段盧文慶銳評馬斯克的錄音，就做完了。

「小馬他倆走了，是吧。我跟你們說，我想讓誰火就讓誰火，懂嗎。我認識的CEO多了去了，我捧誰不是捧。別給我提馬斯克，不好使，知道不，不好使，我們喝酒也是不好使，他是個什麼，沒有三隻羊，誰來給他賣貨，懂不懂這個道理。」

坦白講，如果那種AI詐騙電話聽多了，或者對人聲敏感，其實還能聽出來AI音頻有種「機器感」——語調從始至終都過於穩定，人情緒激動的時候絕不會這樣。但這隻是最基礎的普通版模型、瞬時複製功能。如果有更充足的語料、選擇專業複製功能，效果會更「真實」。

那麼，AI合成的音影片，有可能像測謊儀那樣比較直觀通過數據分辨真偽嗎？

在技術層面，是可行的。林洪祥介紹稱，除使用者本人授權外，現在AI數字人行業內也確實有相關標準正在建設中，要求各種AI生成的內容都加上專門的可識別「特徵標記」。

這個標籤，不是簡單的在角落里加個「由XX AI生成」水印，以AI合成聲音為例，它會在人說話聲音的頻段之外，添加額外的噪聲頻段，甚至在可見音的範圍內，添加一定的特徵頻段。

這個特徵頻率可由機器識別，如果需要做鑒定，交由設備抽取這些頻段，理論上即可判定真偽。

但目前，願意將這項功能普及的企業並不會太多，限制因素無他，主要還是多一道手續產生的成本——儘管單次使用模型的成本並不高，但每個音影片模型預訓練階段的投入，以及階段性產出後開發下一代音影片模型所產生的成本，對於現階段的AI企業仍有較大壓力。

目前，AI音影片行業尚在早期，推廣階段如何獲客的同時覆蓋成本，是從業者繞不開的話題。

但上述這些，顯然都不是圖謀不軌的不法分子會考慮的事，煙花還是炸彈關鍵看火藥怎麼用。

半年多前，香港警方披露了一起涉案金額高達2億港元的詐騙案。案件中，某跨國公司香港分部的職員接到總部CFO通知，稱總部正在計劃一個「秘密交易」，需要將公司資金轉到幾個香港本地的賬戶中待用。

而後，員工受邀參加總部發起的「多人影片會議」，並按照會議要求先後將2億港元分別轉賬15次，分別轉到了5個銀行賬戶內。

圖源/央視新聞

實際上，這場多人影片會議，除了該分部職員外，其他「人」都是詐騙分子利用公開音影片切片合成的AI形象，再用影片電話會議的形式換臉換聲音，詐騙團隊直接變成高管團隊發號施令。

香港案件中，不法分子是相當於是用AI換臉+AI變聲器真人出鏡，而小楊哥這次的AI偽造錄音，則是完全由大模型學習三隻羊公司盧文慶相關音頻素材後，合成語調、情緒都趨近於真人的整段音頻。流程，就是這麼簡單——AI合成音影片，已經是一項成熟的技術，相關產品，也已發展成為完整產業。

但，AI合成音影片的主流，絕非造假。流浪地球第二部的劇情內，劉德華飾演的圖恒宇以數字生命的形式複活了丫丫，而在劇情外，已故的知名影星吳孟達，也在借由 AI 現身銀幕。

所以，以後如果再出類似小楊哥錄音事件，討論技術有罪還是無罪之前，還是儘量先把人控制住。

管管人性，救救AI。

本文來自微信公眾號「AI藍媒彙」，作者：陶然，36氪經授權發佈。