雷軍國慶將網民「罵」了整整七天，AI語音方向錯了？

誰能想到科技圈頂流之一的雷軍，居然因為AI語音引起互聯網熱議？

國慶期間，小雷的抖音首頁幾乎被雷軍的AI語音包刷屏。影片中的「雷軍」用熟悉的口音帶著些許不耐煩的語氣，戲謔地「抽水」：「這遊戲做成這樣，絕對是來搗亂的！」由於這些用詞與雷軍本人十分相似，評論區也常有人問到：「這真是雷軍本人說的嗎？」

（圖源：抖音）

因神似雷軍說話的語氣和口音，這些語音包已經在短影片平台迅速走紅。但隨著這股雷軍AI語音熱潮席捲網絡，除了給網民們帶來歡樂，也掀起了更深層次的討論。AI語音技術的快速發展正深刻地改變著我們的生活，而它的濫用則讓我們意識到，這項技術帶來的不只是便利，還有潛在的風險：如果雷軍的聲音可以如此輕鬆地被複製和惡搞，那在生活中，其他人的聲音是否也會面臨相同的風險呢？

01 惡搞雷軍，AI語音方向錯了？

實際上，在雷軍AI語音出圈之前，已經有不少明星「中招」。去年末，美國某知名歌手AI語音影片頻頻出圈，影片中的她不僅能說這一口流利的中文，甚至還發表了一些政治傾向明顯的言論，引起巨大爭議。該名歌手的團隊也在瞭解此事後迅速發文澄清，但已經有不少網民信以為真，造成了影響。

作為當代最快實現普適化的AI技術之一，AI語音其實在我們生活中已經相當流行，例如抖音早早就推出了AI配音功能，讓創作者可以輸入一段文字後使用AI進行語音生成，還能模仿不同的口音，不同的人物角色語氣等。

（圖源：剪映）

AI語音主要分為5種模式，分別是語音合成、語音複製、語音識別、深度偽造和自然語言處理。大多數創作者在偽造名人AI語音時，都會使用多種模式進行炮製，比如雷軍的AI語音包，顯然使用了語音合成、語音複製、深度偽造音頻以及自然語言處理的結合。這些技術共同作用，使得AI生成的語音能夠高度逼真地模仿雷軍的聲音和語氣，為用戶提供了一種「真假難辨」的體驗。

當然，假如AI語音合成僅僅停留在惡搞的層面上，或許還不至於讓網民們開始擔憂這項技術的安全性。根據美國聯邦貿易委員會（FTC）的數據，2022年因親友冒充詐騙導致的損失高達2.6億美元，其中很多案件使用了AI語音複製技術。詐騙者通常只需幾秒鍾的語音片段，就能輕鬆模仿受害者親友的聲音，發起「緊急求助」的詐騙。這類騙局在美國、英國和印度等地頻發，且常以老人和年青人作為目標，讓人防不勝防。

AI語音之所以能夠快速席捲全球，並被不法分子利用到行騙當中，其實與其發展形勢過猛也脫不開關係。比如專注於AI語音技術研究的ElevenLabs，在前兩年就開發出了通過卷積神經網絡（CNN）和循環神經網絡（RNN），平台能夠識別和模仿獨特的發音模式，並複現這些特徵，適用於個性化內容製作，例如創建定製的虛擬助手聲音的技術。

（圖源：剪映）

更重要的是，ElevenLabs率先在提供了高保真的聲音複製特性，這使得大多數創造者都能通過它獲得非常逼真的AI語音音頻。

不過，縱使AI語音引起了大眾對安全性的擔憂，但它的到來還是為人類進入到AGI（通用人工智能技術）時代提供了最基礎的技術支持，例如自然語言交流對話，這幾乎出現在所有主流AI工具上，OpenAI、Google、蘋果，都將這項技術視為最重要的交互模式。

02 AI語音被濫用，如何防詐成關鍵

多數普通用戶最常接觸到的AI語音造假，基本上都是惡搞名人語音包進行影片重新配音輸出的內容，比如雷軍。這些惡搞影片不乏粗鄙語言和不當言論，不僅損害了名人的個人形象，還加劇了網絡暴力的蔓延。這些內容在社交媒體上廣泛傳播，誤導了公眾輿論，甚至讓人難以分辨真偽，降低了人們對社交媒體平台的信任。

而雷軍也在個人社交帳號上用三個emoji表情回應了近期AI語音出圈的事情，但並沒有表明要採取任何法律手段。當然，這是因為雷軍的AI語音多數都出現在抖音這樣的短影片平台上，而抖音很早就使用了AI技術的檢測工具，能夠在影片內容里標註相關風險，很大程度上避免了可能存在的糾紛和誤會。

（圖源：微博）

但不法分子往往會將AI語音複製技術應用到金融詐騙上，這種讓人無法分辨真假的語音包，的確存在較大的風險。

然而，面對AI語音濫用帶來的風險，各界已經開始採取措施以加強防範。銀行和金融機構首先意識到了多重身份驗證的重要性。例如，英國的一家在線銀行在強化生物識別和短信驗證後，大幅減少了因語音詐騙而造成的損失。除了多因素驗證，銀行還可以通過AI技術監控潛在的語音欺詐行為，從而有效地保護用戶資金安全。

AI技術提供商同樣意識到自身的責任。ElevenLabs等公司在發現其技術被濫用後，迅速推出了檢測工具，並嚴格限制了未付費用戶的訪問權限。這不僅可以幫助用戶識別虛假音頻，還能減少惡意濫用的機會。AI公司應當進一步發展檢測技術，與政府和行業組織合作，確保AI語音技術在合法、合理的範圍內使用。

（圖源：ElevenLabs）

除了監管機構和AI技術提供商的防詐措施之外，我們普通用戶也需要警惕AI語音詐騙。

首先，許多安全專家建議在家人之間設置一個僅彼此知曉的「安全詞」。這種詞彙不僅僅是防止假冒親友的有效手段，更是為了在緊急情況中迅速確認身份。McAfee的研究表明，AI只需三秒鍾的音頻樣本即可生成相似度達85%的語音複製，增加這種簡單的身份驗證步驟，可以為我們提供額外的安全保障。

在保護個人隱私方面，我們需要時刻謹慎對待自己在社交媒體上分享的內容。AI詐騙者通常利用公開的音頻和影片資料來生成虛假聲音，社交媒體上的信息可能會成為他們的「素材庫」。因此，儘量控制隱私設置，不要隨意上傳自己的語音或影片內容。保持低調的網絡存在感，能夠降低被不法分子盯上的可能性。

（圖源：ElevenLabs）

比如，在短影片平台分享生活時，儘可能不使用自己的原聲，或者是使用AI工具對自己的聲音進行處理後再發佈。

而在金融防詐部分，我們也可以選擇啟用多因素身份驗證，這是一種增加安全性的身份驗證方法，要求用戶提供兩個或更多的驗證信息。例如，在金融交易中，除了語音驗證外，銀行可能還會要求用戶輸入一次性密碼（OTP）或使用生物識別技術，如指紋識別，以進一步驗證身份。這種方法可以有效防止AI語音複製帶來的風險。

最後，也是最重要的，我們需要提高識別AI語音的敏銳度。儘管AI技術能夠模擬聲音的情緒和語調，但有時會存在細微的失真或不連貫。比如，目前雷軍的AI語音在短影片平台十分火爆，但仔細聆聽這些用AI工具複製的語音，我們還是能發現詞語與詞語之間的不連貫性，這也有助於我們分辨這些聲音是否來自本人。

03 寫在最後

AI語音技術的迅猛發展不僅帶來了諸多便利，同時也暴露出一系列新的社會風險。雷軍AI語音包的爆火提醒我們，這項技術在為娛樂和搞笑影片提供素材的同時，也可能成為詐騙者手中的利器。AI語音濫用現象迫使我們反思科技發展的雙刃劍效應。

未來，防範AI語音詐騙不僅是個人和企業的責任，更需要技術提供商和社會各界攜手合作，建立一個更加安全和可信的科技環境。技術的進步應當服務於社會，而非成為破壞社會信任的工具。唯有在監管、技術創新與公共意識三者之間找到平衡，才能真正實現科技的價值。

本文來自微信公眾號「雷科技」，作者：雷科技AI硬件組，36氪經授權發佈。

你可能喜歡