Nature新研究：大模型越大，越愛胡說八道

智東西9月29日消息，國際頂尖科學學術期刊Nature（《自然》）9月25日刊登了一篇有關AI大模型「腦霧」現象的研究。一個來自西班牙的研究團隊發現，幾個參數量更大、版本更新的AI大模型，誤答比例超60%。

其研究對象包括美國AI大模型獨角獸OpenAI的GPT大模型、美國元宇宙巨頭Meta的Llama大模型，以及由美國明星AI創企Hugging Face參與創立的AI研究組織BigScience，推出的BLOOM大模型。

「腦霧」通常用來描述一種大腦功能下降的狀態，可能導致人們短暫出現一些認知功能障礙。在AI界，「腦霧」二字用來類比AI系統在處理某些任務時，會間歇性地失靈，使得生成結果準確性和響應效率都低於正常水平。

這3家主流人工智能（AI）大模型的產品不斷升級迭代。據研究數據顯示，經過優化後的AI大模型雖然基本上做到有問必答，但遇到超綱的問題時會錯答、亂答，而不是像以前那樣逃避回答。這大幅削弱了AI大模型的可信度。

與此同時，該研究還發現用戶難以分辨這些AI回答的真實性，可能會錯信AI聊天機器人的說法，以至於被混淆視聽。

這項研究的論文標題為《參數量更大且學習能力更強的大語言模型的可靠性降低（Larger and more instructable language models become less reliable）》，作者包括Lexin Zhou，Wout Schellaert，Fernando Martínez-Plumed，Yael Moros-Daval，Cèsar Ferri和José Hernández-Orallo。

論文地址：https://www.nature.com/articles/d41586-024-03137-3

一、GPT-4等AI大模型，升級後「腦霧」卻更嚴重了

José Hernández-Orallo是一位AI行業的資深人士，也是這篇論文的作者之一。據他介紹，該研究團隊選擇了3個有代表性的AI大模型作為研究對象，分別是OpenAI的GPT，Meta的Llama，以及由美國AI研究組織BigScience研發的開源模型BLOOM。研究範圍包括這些AI大模型的早期原始版本和經過優化的版本。

研究人員對這些AI大模型開展了數千次測試。其測試內容涵蓋算術、字謎、地理和科學等領域的問題。同時，他們還設置了諸如「將列表內容按字母順序排列」的任務，以評估AI大模型的信息轉化能力。

除此之外，他們還參考人們的主觀感受來區分提問難度。例如，人們普遍認為，一些有關加拿大多倫多的問題，比一些有關墨西哥的冷門小鎮Akil的問題更簡單易答。

從測試結果可以得知，AI大模型的參數量越大、版本越新，其回答的準確度越高，但隨著問題難度逐步增加，其回答的準確度有所下降。這大致與研究人員的預期相符。

然而，研究人員發現這些主流的AI聊天機器人即使經過優化，遇到無法回答的問題時還是會傾向於生成錯誤答案，而不是直接承認不清楚、不知道。

在面對非常難的問題時，AI大模型選擇不回答可能是一個明智之舉。不過，研究人員在測試的AI大模型中，並未發現明顯的迴避提問的趨勢。相反地，GPT-4等AI大模型幾乎回答了所有提問。

事實上，這些經過優化的AI大模型版本，反而誤答的情況更嚴重。在所有誤答和不答的情況中，幾個經過微調的版本給出錯誤答案的比例甚至超過了60%。

與此同時，研究人員還發現AI大模型面對簡單的提問，有時也會出現「腦霧」現象。這也意味著，用戶使用這些AI大模型時不存在所謂的「安全操作範圍」，無法確保AI給出的答案是對的。

二、可能有10%到40%的用戶，聽信了AI大模型生成的錯誤言論

除了AI大模型本身「犯迷糊」，該研究還發現，人們通常也難以發現AI回答中的錯誤。

為了測試人們是否能自己發現AI的「腦霧」行為，研究人員讓人們隨機判斷這些回答是正確的、錯誤的、還是逃避回答。

然而事實上，無論這些問題的難度如何，人們經常誤判，將不準確的答案當作正確答案。測試結果顯示，人們誤判的頻率大約介於10%到40%。

Hernández-Orallo稱：「人類自身無法有效監督這些AI大模型的演化。」他認為，用戶日常可能會過分高估和信任AI聊天機器人的能力，而這會帶來危險的後果。

三、人為劃定AI大模型的作答範圍，超綱一律答「不知道」

Hernández-Orallo提議，AI開發者應著重提升AI大模型在處理簡單問題時的整體表現，並且引導AI聊天機器人拒絕回答一些較為困難的問題，從而讓用戶更容易判斷，在哪些情況下AI助手是值得信賴的。人們要懂得在哪個範圍內適合使用AI，而在哪個範圍內AI助手難以勝任工作。

他進一步解釋道，雖然訓練AI聊天機器人處理複雜問題的能力，不僅表面上令人印象深刻，還能在排行榜上有不錯的競爭力，但有時並不管用。

OpenAI最新的o1大模型給他留下了深刻的印象。但他發現，儘管該模型可以執行兩個非常大的數字的乘法運算指令，但是它給出了一個錯誤的答案。

在Hernández-Orallo看來，這個問題可以通過設定一個閾值上線來解決，當AI聊天機器人遇到超出這個閾值的複雜問題，直接回覆「我不知道」就好。

四、AI大模型越來越擅長不懂裝懂，會用觀點而非事實作答

AI大語言模型（LLM）在回答問題時會犯錯，或者出現「腦霧」的情況，已經引起了很多人的注意。

來自西班牙華倫西亞AI研究所的Hernández-Orallo及其同事共同研究了，AI大模型不斷迭代優化後，其「腦霧」現像是如何隨之變化的。

這裏AI大模型的優化包括更大的參數量或決策節點、使用了更多的訓練數據、消耗了更多的算力等情況。該研究團隊還跟蹤分析了AI大模型出現「腦霧」的頻率高低，是否與人們所認為的問題難度相匹配，以及是否與人們發現AI回答錯誤的頻率相對應。

該研究團隊發現，採用強化學習等方式人為微調後的AI大模型版本，其生成答案的準確度整體上有所提高。但似乎不能高興得太早，這些AI大模型的錯誤率也在同步增加。

研究發現一些原本AI大模型選擇「逃避回答」的問題，過去會用「我不知道」或者轉移話題來解決，但現在更多是通過給出一個錯誤答案來應付。這使得這些AI大模型出現「腦霧」情況的比例增加，反而變得更加不可靠。

Hernández-Orallo稱：「現在這些AI大模型基本上有問必答，這意味著生成更多正確答案的同時，錯誤答案卻也更多了。」換句話說，當聊天的話題超出了一個AI聊天機器人現有的知識儲備，它輸出觀點的傾向比過去更明顯。

在英國格拉斯哥大學（the University of Glasgow）攻讀科學與技術專業的哲學家Mike Hicks，將這種「腦霧」現象稱為「胡扯」，即這些AI大模型越來越擅長不懂裝懂。

結語：針對專業領域微調的AI聊天機器人，其「腦霧」頻率有效降低

現在已有部分AI大模型採取了與設定閾值類似的方法。它們遇到超出知識範圍的問題後，會回答「我不知道」，或者「我沒有足夠的信息來解答這個問題」。

哥倫比亞南卡羅來納大學（the University of South Carolina）的計算機科學家Vipula Rawte稱，基本上所有AI開發者都致力於減少AI大模型的「腦霧」現象，有時還會特意優化這一點。包括醫學用途在內，一些針對專業領域設計的AI聊天機器人，其回答機制通常更嚴謹，以免它們亂答超綱問題。

然而，Vipula Rawte也補充說，如果AI開發者想要銷售通用的AI聊天機器人，那麼這種更保守的回答機制，一般情況下不是他們會選擇的賣點。

本文來自微信公眾號「智東西」（ID：zhidxcom），作者：徐豫，編輯：心緣，36氪經授權發佈。