研究發現AI能預測你說話時在想什麼
【#研究發現AI能預測你說話時在想什麼#】據美國趣味科學網站3月16日報導,一個經過數十小時真實對話訓練的人工智能(AI)模型,準確地預測了人類的大腦活動,並表明語言結構的特徵無需編碼即可顯現。科學家們利用AI揭開了日常對話中展現的複雜大腦活動。
研究人員表示,AI這一工具可以為語言神經科學提供新的見解,有朝一日,它可以幫助改進旨在識別言語的技術或幫助人們交流。
基於AI模型將音頻轉錄成文本的方式,研究人員能夠比傳統模型更準確地繪製對話過程中發生的大腦活動。傳統模型對語言結構的特定特徵,如音素(構成單詞的簡單聲音)和詞性(如名詞、動詞和形容詞)進行編碼。
這項研究中使用的模型名為Whisper,它採用音頻文件及其文本記錄,將其用作訓練數據,將音頻對應到文本。然後,它使用這一對應的統計數據來「學習」並預測以前從未聽過的新音頻文件的文本。因此,Whisper完全通過這些統計數據工作,而不需要在原始設置中編碼的任何語言結構特徵。儘管如此,這項研究顯示,一旦模型經過訓練,這些結構仍然會出現在模型中。
這項研究結果揭示了這類AI模型——被稱為大型語言模型——是如何工作的。但研究小組更感興趣的是它對人類語言和認知的洞察。識別模型如何培養語言處理能力和人類如何培養這些技能的相似之處,可能有助於設計製造幫助人們交流的設備。
研究報告的主要作者、以色列耶路撒冷希伯來大學的助理教授阿里埃勒·戈德史丹說:「這實際上跟我們如何看待認知有關。」他對本網站記者說,研究結果表明,「我們應該通過這種(統計)模型的視角來思考認知」。
研究人員使用80%的錄製音頻和隨附的文本記錄來訓練Whisper,這樣它就可以預測剩下的20%音頻的文本記錄。
然後,研究小組觀察了Whisper如何捕捉音頻和文本記錄,並將這些表徵與電極捕捉到的人類大腦活動進行了對比。
經過這種分析,他們可以用這個模型來預測未出現在訓練數據中的、伴隨對話的大腦活動。該模型的準確性優於基於語言結構特徵的模型。
儘管研究人員一開始沒有將音素或單詞的內容編程到他們的模型中,但他們發現,這些語言結構仍然體現在模型如何推測文本記錄的過程中。這樣看來,它在沒有得到指示的情況下提取了這些特徵。
德國慕尼黑神經科學中心的研究小組負責人利安哈德·席爾巴赫在給本網站的一封電郵中說,這項研究是一項「開創性的研究,因為它展示了計算聲學-語音-語言模型的工作原理與大腦功能之間的聯繫」。他沒有參與此項研究。
但他補充說:「還需要更多的研究來調查這種關係是否真的意味著,語言模型和大腦處理語言的機制存在相似性。」(編譯/王海昉)