雷軍國慶將網民「罵」了整整七天,AI語音方向錯了?

誰能想到科技圈頂流之一的雷軍,居然因為AI語音引起互聯網熱議? 

國慶期間,小雷的抖音首頁幾乎被雷軍的AI語音包刷屏。影片中的「雷軍」用熟悉的口音帶著些許不耐煩的語氣,戲謔地「抽水」:「這遊戲做成這樣,絕對是來搗亂的!」由於這些用詞與雷軍本人十分相似,評論區也常有人問到:「這真是雷軍本人說的嗎?」

(圖源: 抖音) (圖源: 抖音) 

因神似雷軍說話的語氣和口音,這些語音包已經在短影片平台迅速走紅。但隨著這股雷軍AI語音熱潮席捲網絡,除了給網民們帶來歡樂,也掀起了更深層次的討論。AI語音技術的快速發展正深刻地改變著我們的生活,而它的濫用則讓我們意識到,這項技術帶來的不只是便利,還有潛在的風險:如果雷軍的聲音可以如此輕鬆地被複製和惡搞,那在生活中,其他人的聲音是否也會面臨相同的風險呢?

01 惡搞雷軍,AI語音方向錯了?

實際上,在雷軍AI語音出圈之前,已經有不少明星「中招」。去年末,美國某知名歌手AI語音影片頻頻出圈,影片中的她不僅能說這一口流利的中文,甚至還發表了一些政治傾向明顯的言論,引起巨大爭議。該名歌手的團隊也在瞭解此事後迅速發文澄清,但已經有不少網民信以為真,造成了影響。

作為當代最快實現普適化的AI技術之一,AI語音其實在我們生活中已經相當流行,例如抖音早早就推出了AI配音功能,讓創作者可以輸入一段文字後使用AI進行語音生成,還能模仿不同的口音,不同的人物角色語氣等。 

(圖源:剪映) (圖源:剪映) 

AI語音主要分為5種模式,分別是語音合成、語音複製、語音識別、深度偽造和自然語言處理。大多數創作者在偽造名人AI語音時,都會使用多種模式進行炮製,比如雷軍的AI語音包,顯然使用了語音合成、語音複製、深度偽造音頻以及自然語言處理的結合。這些技術共同作用,使得AI生成的語音能夠高度逼真地模仿雷軍的聲音和語氣,為用戶提供了一種「真假難辨」的體驗。 

當然,假如AI語音合成僅僅停留在惡搞的層面上,或許還不至於讓網民們開始擔憂這項技術的 安全性。 根據美國聯邦貿易委員會(FTC)的數據,2022年因親友冒充詐騙導致的損失高達2.6億美元,其中很多案件使用了AI語音複製技術 。 詐騙者通常只需幾秒鍾的語音片段,就能輕鬆模仿受害者親友的聲音,發起「緊急求助」的詐騙。 這類騙局在美國、英國和印度等地頻發,且常以老人和年青人作為目標,讓人防不勝防。 

AI語音之所以能夠快速席捲全球,並被不法分子利用到行騙當中,其實與其發展形勢過猛也脫不開關係。比如專注於AI語音技術研究的ElevenLabs,在前兩年就開發出了通過卷積神經網絡(CNN)和循環神經網絡(RNN),平台能夠識別和模仿獨特的發音模式,並複現這些特徵,適用於個性化內容製作,例如創建定製的虛擬助手聲音的技術。 

(圖源:剪映) (圖源:剪映) 

更重要的是,ElevenLabs率先在提供了高保真的聲音複製特性,這使得大多數創造者都能通過它獲得非常逼真的AI語音音頻。 

不過,縱使AI語音引起了大眾對安全性的擔憂,但它的到來還是為人類進入到AGI(通用人工智能技術)時代提供了最基礎的技術支持,例如自然語言交流對話,這幾乎出現在所有主流AI工具上,OpenAI、Google、蘋果,都將這項技術視為最重要的交互模式。 

02 AI語音被濫用,如何防詐成關鍵

多數普通用戶最常接觸到的AI語音造假,基本上都是惡搞名人語音包進行影片重新配音輸出的內容,比如雷軍。這些惡搞影片不乏粗鄙語言和不當言論,不僅損害了名人的個人形象,還加劇了網絡暴力的蔓延 。這些內容在社交媒體上廣泛傳播,誤導了公眾輿論,甚至讓人難以分辨真偽,降低了人們對社交媒體平台的信任。 

而雷軍也在個人社交帳號上用三個emoji表情回應了近期AI語音出圈的事情,但並沒有表明要採取任何法律手段。 當然,這是因為雷軍的AI語音多數都出現在抖音這樣的短影片平台上,而抖音很早就使用了AI技術的檢測工具,能夠在影片內容里標註相關風險,很大程度上避免了可能存在的糾紛和誤會。 

(圖源:微博) (圖源:微博) 

但不法分子往往會將AI語音複製技術應用到金融詐騙上,這種讓人無法分辨真假的語音包,的確存在較大的風險。 

然而,面對AI語音濫用帶來的風險,各界已經開始採取措施以加強防範。銀行和金融機構首先意識到了多重身份驗證的重要性。例如,英國的一家在線銀行在強化生物識別和短信驗證後,大幅減少了因語音詐騙而造成的損失。除了多因素驗證,銀行還可以通過AI技術監控潛在的語音欺詐行為,從而有效地保護用戶資金安全。 

AI技術提供商同樣意識到自身的責任。ElevenLabs等公司在發現其技術被濫用後,迅速推出了檢測工具,並嚴格限制了未付費用戶的訪問權限。這不僅可以幫助用戶識別虛假音頻,還能減少惡意濫用的機會。AI公司應當進一步發展檢測技術,與政府和行業組織合作,確保AI語音技術在合法、合理的範圍內使用。 

(圖源:ElevenLabs) (圖源:ElevenLabs) 

除了監管機構和AI技術提供商的防詐措施之外,我們普通用戶也需要警惕AI語音詐騙。

首先,許多安全專家建議在家人之間設置一個僅彼此知曉的「安全詞」。這種詞彙不僅僅是防止假冒親友的有效手段,更是為了在緊急情況中迅速確認身份。McAfee的研究表明,AI只需三秒鍾的音頻樣本即可生成相似度達85%的語音複製,增加這種簡單的身份驗證步驟,可以為我們提供額外的安全保障 。

在保護個人隱私方面,我們需要時刻謹慎對待自己在社交媒體上分享的內容。AI詐騙者通常利用公開的音頻和影片資料來生成虛假聲音,社交媒體上的信息可能會成為他們的「素材庫」。因此,儘量控制隱私設置,不要隨意上傳自己的語音或影片內容。保持低調的網絡存在感,能夠降低被不法分子盯上的可能性。 

(圖源:ElevenLabs) (圖源:ElevenLabs) 

比如,在短影片平台分享生活時,儘可能不使用自己的原聲,或者是使用AI工具對自己的聲音進行處理後再發佈。 

而在金融防詐部分,我們也可以選 擇啟用多因素身份驗證,這是一種增加安全性的身份驗證方法,要求用戶提供兩個或更多的驗證信息。例如,在金融交易中,除了語音驗證外,銀行可能還會要求用戶輸入一次性密碼(OTP)或使用生物識別技術,如指紋識別,以進一步驗證身份。這種方法可以有效防止AI語音複製帶來的風險。 

最後,也是最重要的,我們需要提高識別AI語音的敏銳度。儘管AI技術能夠模擬聲音的情緒和語調,但有時會存在細微的失真或不連貫。比如,目前雷軍的AI語音在短影片平台十分火爆,但仔細聆聽這些用AI工具複製的語音,我們還是能發現詞語與詞語之間的不連貫性,這也有助於我們分辨這些聲音是否來自本人。 

03 寫在最後

AI語音技術的迅猛發展不僅帶來了諸多便利,同時也暴露出一系列新的社會風險。雷軍AI語音包的爆火提醒我們,這項技術在為娛樂和搞笑影片提供素材的同時,也可能成為詐騙者手中的利器。AI語音濫用現象迫使我們反思科技發展的雙刃劍效應。 

未來,防範AI語音詐騙不僅是個人和企業的責任,更需要技術提供商和社會各界攜手合作,建立一個更加安全和可信的科技環境。技術的進步應當服務於社會,而非成為破壞社會信任的工具。唯有在監管、技術創新與公共意識三者之間找到平衡,才能真正實現科技的價值。 

本文來自微信公眾號「雷科技」,作者:雷科技AI硬件組,36氪經授權發佈。