研究揭示 AI 對話方面的缺陷:不知道何時該插話

IT之家 11 月 11 日消息,圖夫茨大學的研究人員發現,大型語言模型在對話中的「插話」方面普遍表現不佳,這限制了它們的對話能力。

據IT之家瞭解,2024 年 11 月 12 日至 16 日在邁阿密舉行的自然語言處理經驗方法會議(EMNLP 2024)上,圖夫茨大學的語言學和計算機科學研究人員將介紹一項研究,該研究揭示了人工智能對話能力的不足之處,並指出了改進其對話能力的可能途徑。這項研究結果已發表在 arXiv 預印本服務器上。

人類在對話中通常會避免同時說話,輪流發言和傾聽。每個人都會評估許多輸入線索,以確定語言學家所謂的「話輪轉換點」(TRP),可以理解為插話的合適時機。TRP 在對話中經常出現,許多時候我們會略過一個 TRP,讓說話者繼續。其他時候,我們會利用 TRP 來輪流發言,分享我們的想法。

長期以來,人們認為對話中的「副語言」信息 —— 語調、單詞和短語的延長、停頓和一些視覺線索 —— 是識別 TRP 最重要的信號。然而,圖夫茨大學心理學和計算機科學教授 JP de Ruiter 表示,如果去掉單詞,只給人們提供韻律 —— 就像你隔著襪子說話時傳出的那種言語的旋律和節奏,他們就無法再察覺出合適的 TRP。

相反,如果只以單調的語音提供語言內容,研究對象將在其中找到大部分與自然語音中相同的 TRP。這表明,對話中輪流發言最重要的線索是語言內容本身,而停頓和其他線索並不那麼重要。

人工智能擅長檢測內容中的模式,但無法以接近人類的能力檢測到合適的 TRP。

原因在於 AI 的訓練數據。大型語言模型,包括最先進的 ChatGPT,都是基於互聯網上的大量書面內容進行訓練的,包括域奇百科條目、在線討論組、公司網站、新聞網站等。

這些數據集中缺少大量轉錄的口語對話,這些對話是即興的,使用更簡單的詞彙和更短的句子,結構也與書面語言不同。AI 不是在對話中「成長」起來的,因此它沒有能力以更自然、更人性化的方式建模或參與對話。

研究人員認為,可以通過對基於書面內容訓練的大型語言模型進行微調,並用一小組對話內容進行額外訓練,使其能夠更自然地參與新的對話。然而,當他們嘗試這樣做時,發現仍然存在一些限制,無法完全複製人類般的對話。

研究人員警告稱,AI 進行自然對話可能存在根本性的限制。它們是基於膚淺的統計相關性來預測下一個單詞,但輪流發言涉及到從對話更深層次的語境中汲取信息,也就是說,AI 可能無法真正理解對話的語境和意圖。

研究人員表示,可以通過對大型語言模型進行預訓練,使其在更大規模的自然口語語料庫上進行訓練,從而克服這些限制。然而,收集如此規模的數據來訓練今天的 AI 模型仍然是一個重大挑戰。與互聯網上的書面內容相比,可用的對話錄音和轉錄數量要少得多。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。