OpenAI語音轉錄工具翻車，盲信AI不可取

10月31日 07:54 新浪網 news-china-auto-hilite

作為一家在AI領域深耕多年的獨角獸，OpenAI首次進入公眾視野是在2022年秋季發佈的ChatGPT，但這並不代表OpenAI在ChatGPT之前就毫無建樹。其實在推出ChatGPT前，OpenAI做了打《DOTA2》的AI程序OpenAI Five，以及開源AI語音轉文字工具Whisper。

如果說OpenAI Five是小試牛刀，那麼Whisper自然就是OpenAI方面當時希望用技術揚名的作品。以至於在Whisper發佈四年後的今天，OpenAI還在DevDa活動日中推出了Whisper large-v3-turbo語音轉錄模型。只可惜這次Whisper翻車了，據相關報導顯示，其通過採訪工程師、開發人員和學術研究人員後發現，Whisper編造內容的問題被暴露了出來。

據悉，Whisper很容易編造大段文本、甚至整句話，這些幻覺中包含種族評論、暴力言論，乃至編造的醫生與患者對話。有開發者透露，他用Whisper創建的26000份轉錄樣本中幾乎每一份都出現了幻覺。甚至有開發者分析了100多個小時的Whisper轉錄樣本後發現，其中約有一半內容存在幻覺。

AI會因為幻覺（AI Hallucinations）而胡說八道，其實早已是公認的現實，無論國內的文心一言、Kimi、混元，還是海外的ChatGPT、Gemini，目前還都無法拍著胸脯保證AI不會答非所問、胡編亂造。而AI大模型之所以會產生幻覺，就好比人類會做夢幻一樣，現階段還是無可避免的規律。

儘管AI會幻覺正常，但Whisper如此頻繁地出現幻覺就有些反常了，而「發病」概率過高才是相關報導被廣泛關注的基礎。而且不僅是隨口轉錄會出問題，即便是錄製良好的短音頻，轉錄幻覺的問題還是很普遍，有研究人員在他們檢查的13000多個清晰音頻片段中，就有187個片段中出現了幻覺。

AI致幻的原因其實很簡單，因為大模型就是一個本身就基於概率的黑箱產物，它的預訓練機制是從訓練數據中進行泛化，以便獲得類似人類的推理能力。然而當模型過度調整訓練數據時就會發生過度擬合，有效地記住了該集合的特定輸入和輸出，從而影響其有效處理樣本之外數據的能力。

想要解決AI幻覺，在不改變當下大模型訓練機制的情況下只有唯一一種解法，即將全世界所有的知識都填充到一個數據居里。只可惜，沒有哪一家廠商敢於宣稱擁有一個完全覆蓋所有知識的「圖書館」。但無法避免的幻覺所導致的結果，就是AI會輸出表面上看合理、且富有邏輯，但實際上卻存在事實錯誤或壓根不存在的內容。

人工智能有幻覺才是它肖似人類的關鍵，畢竟人非聖賢孰能無過，AI也一樣。問題是各路AI廠商和媒體為了營造AI熱潮，將AI的能力放大，過於誇大了AI的上限。以至於在宣傳口徑里，基於大模型的AI已經是《終結者》里無所不能的「天網」，進而也放大了AI幻覺的負面性。

當下一個不可忽視的情況，是相比於對AI有所警惕的群體，敢於嚐鮮ChatGPT等AI產品的群體反而會成為AI幻覺的受害者。因為當AI將錯誤以一種有說服力和可信度的方式呈現出來後，習慣於使用AI的人反而會忽視事實驗證的情況，並接收到錯誤的信息。「善遊者溺、善騎者墮，各以所好反自為禍」，老祖宗的話並不是沒有道理。

事實上，目前AI普及最大的難題，就是宣傳調門太高與實際應用的局限性產生了衝突。作為一款語音轉錄產品，Whisper目前已經被不少海外醫療機構啟用，以提升醫生的工作效率，並且在後續的診療過程中，醫療人員大概率會以Whisper轉錄的內容來作為依據。這時候Whisper出現憑空編造醫患對話的情況，又怎能不讓海外網民感到驚恐。

儘管AI大模型、AIGC確實是好東西，可是在相關廠商的宣傳里，幻覺導致的一系列問題被有意無意地忽視了。在用戶的樸素認知里，AI能夠掌握大數據、算力也更強，所以它得出的結論一定是更有參考的價值的，這也是目前市面上AI購物助手誕生的土壤。可一旦AI購物助手產生幻覺，消費者就得損失金錢，Whisper產生幻覺、患者就可能會被誤診。