OpenAI語音轉錄工具翻車,盲信AI不可取
作為一家在AI領域深耕多年的獨角獸,OpenAI首次進入公眾視野是在2022年秋季發佈的ChatGPT,但這並不代表OpenAI在ChatGPT之前就毫無建樹。其實在推出ChatGPT前,OpenAI做了打《DOTA2》的AI程序OpenAI Five,以及開源AI語音轉文字工具Whisper。
如果說OpenAI Five是小試牛刀,那麼Whisper自然就是OpenAI方面當時希望用技術揚名的作品。以至於在Whisper發佈四年後的今天,OpenAI還在DevDa活動日中推出了Whisper large-v3-turbo語音轉錄模型。只可惜這次Whisper翻車了,據相關報導顯示,其通過採訪工程師、開發人員和學術研究人員後發現,Whisper編造內容的問題被暴露了出來。
據悉,Whisper很容易編造大段文本、甚至整句話,這些幻覺中包含種族評論、暴力言論,乃至編造的醫生與患者對話。有開發者透露,他用Whisper創建的26000份轉錄樣本中幾乎每一份都出現了幻覺。甚至有開發者分析了100多個小時的Whisper轉錄樣本後發現,其中約有一半內容存在幻覺。
AI會因為幻覺(AI Hallucinations)而胡說八道,其實早已是公認的現實,無論國內的文心一言、Kimi、混元,還是海外的ChatGPT、Gemini,目前還都無法拍著胸脯保證AI不會答非所問、胡編亂造。而AI大模型之所以會產生幻覺,就好比人類會做夢幻一樣,現階段還是無可避免的規律。
儘管AI會幻覺正常,但Whisper如此頻繁地出現幻覺就有些反常了,而「發病」概率過高才是相關報導被廣泛關注的基礎。而且不僅是隨口轉錄會出問題,即便是錄製良好的短音頻,轉錄幻覺的問題還是很普遍,有研究人員在他們檢查的13000多個清晰音頻片段中,就有187個片段中出現了幻覺。
AI致幻的原因其實很簡單,因為大模型就是一個本身就基於概率的黑箱產物,它的預訓練機制是從訓練數據中進行泛化,以便獲得類似人類的推理能力。然而當模型過度調整訓練數據時就會發生過度擬合,有效地記住了該集合的特定輸入和輸出,從而影響其有效處理樣本之外數據的能力。
想要解決AI幻覺,在不改變當下大模型訓練機制的情況下只有唯一一種解法,即將全世界所有的知識都填充到一個數據居里。只可惜,沒有哪一家廠商敢於宣稱擁有一個完全覆蓋所有知識的「圖書館」。但無法避免的幻覺所導致的結果,就是AI會輸出表面上看合理、且富有邏輯,但實際上卻存在事實錯誤或壓根不存在的內容。
人工智能有幻覺才是它肖似人類的關鍵,畢竟人非聖賢孰能無過,AI也一樣。問題是各路AI廠商和媒體為了營造AI熱潮,將AI的能力放大,過於誇大了AI的上限。以至於在宣傳口徑里,基於大模型的AI已經是《終結者》里無所不能的「天網」,進而也放大了AI幻覺的負面性。
當下一個不可忽視的情況,是相比於對AI有所警惕的群體,敢於嚐鮮ChatGPT等AI產品的群體反而會成為AI幻覺的受害者。因為當AI將錯誤以一種有說服力和可信度的方式呈現出來後,習慣於使用AI的人反而會忽視事實驗證的情況,並接收到錯誤的信息。「善遊者溺、善騎者墮,各以所好反自為禍」,老祖宗的話並不是沒有道理。
事實上,目前AI普及最大的難題,就是宣傳調門太高與實際應用的局限性產生了衝突。作為一款語音轉錄產品,Whisper目前已經被不少海外醫療機構啟用,以提升醫生的工作效率,並且在後續的診療過程中,醫療人員大概率會以Whisper轉錄的內容來作為依據。這時候Whisper出現憑空編造醫患對話的情況,又怎能不讓海外網民感到驚恐。
儘管AI大模型、AIGC確實是好東西,可是在相關廠商的宣傳里,幻覺導致的一系列問題被有意無意地忽視了。在用戶的樸素認知里,AI能夠掌握大數據、算力也更強,所以它得出的結論一定是更有參考的價值的,這也是目前市面上AI購物助手誕生的土壤。可一旦AI購物助手產生幻覺,消費者就得損失金錢,Whisper產生幻覺、患者就可能會被誤診。
遊走在權力與責任邊緣的AI,既帶來了巨大的效率提升,還隱藏著無法忽視的風險。對於這樣一柄雙刃劍,要如何用好它如果只聽「販劍」的AI廠商一面之詞顯然不夠。
本文來自微信公眾號「三易生活」(ID:IT-3eLife),作者:三易菌,36氪經授權發佈。