顛覆認知:大模型不可靠,越大越不可靠?最新研究登上 Nature

人工智能(AI)模型的參數規模越大,生成的答案就越準確?就更加可信?

還真不一定!

日前,一項發表在權威科學期刊 Nature 上的研究表明:相比於小參數模型,大參數模型不會承認它們的「無知」,而更傾向於生成錯誤答案

值得關注的是,人們並不善於發現這些錯誤

這項研究來自華倫西亞理工大學團隊及其合作者,他們在研究了 GPT、LLaMA 和 BLOOM 系列大語言模型(LLM)之後發現——

儘管正如預期的那樣,由於一些微調方法(如 RLFH),參數規模更大的 LLM 生成的答案更準確,尤其是在複雜任務上,但整體可靠性卻較低

在所有不準確的回答中,錯誤回答的比例有所上升,甚至在一些簡單任務上出現更多低級錯誤。例如,GPT-4 在處理簡單的加法和字謎時的錯誤率竟比一些小模型高出 15%。這是因為模型不太可能迴避回答問題——比如承認它不知道或者轉移話題。

以上結果表明,大參數模型在簡單任務上可能會出現過度擬合或錯誤估計的風險,反而更不可靠。

01 模型擴展帶來「能力反差」

在這項工作中,研究人員從人類用戶與 LLM 互動的角度,探討了難度一致性、任務迴避和提示穩定性三個核心交織元素對 LLM 可靠性的影響。

該研究的通訊作者 José Hernández Orallo 教授表示:「語言模型的可靠性與人類對任務難度的感知不匹配。模型能夠解決博士級的數學問題,但同時卻可能在簡單的加法上出錯。」

研究團隊對比了 GPT、LLaMA、BLOOM 三大模型系列在不同任務中的表現,尤其是在數字計算、文字遊戲、地理知識、基礎與高級科學問題和信息轉化等任務。通過對這些任務的正確率、錯誤率和迴避行為的分析,揭示了模型擴展帶來的能力反差現象。

難度悖論「越簡單,錯得越多?」

一個令人意外的關鍵發現是,模型在面對複雜任務時表現顯著提升,但在簡單任務上的錯誤率卻有明顯上升。這種現象稱為「難度不一致(Difficulty Inconsistency)」,即擴展後的模型在複雜任務上逐步提升了正確率,但在簡單任務上卻容易出錯。

以加法任務為例,雖然模型能夠解決複雜的多位數加法,但在簡單的兩位數加法上卻頻繁出錯。例如,所有 LLaMA 模型在最簡單任務上的正確率未超過 60%,而在一些較難的任務中,則表現得相對出色。

這一現像在 GPT 模型中也尤為突出,特別在處理諸如簡單加法和字謎任務時,優化後的模型反而容易給出錯誤答案。研究團隊指出,這一現象表明當前模型的擴展可能過於集中於複雜任務,而忽視了簡單任務。

圖 | GPT、LLaMA 和 BLOOM 模型的關鍵指標圖 | GPT、LLaMA 和 BLOOM 模型的關鍵指標

這一結果顛覆了人們對 LLM 的傳統認知,表明擴展模型並不總是能帶來全面的提升,對其在實際應用中的可靠性提出了質疑。

錯誤率與迴避行為——「自信過頭」

除了難度不一致現象,研究還揭示了優化後模型中迴避行為與錯誤率之間的微妙關係。

迴避行為是指模型在無法正確回答問題時,選擇不作答或給出不符合要求的回應。

在模型未優化時,迴避行為比較常見,即當模型不確定答案時,往往會選擇「不作答」或提供模糊的回應。然而,在經過擴展和優化後,模型則大幅減少了迴避行為,轉而給出了更多表面上「合理」但實際上錯誤的答案。

這意味著,雖然一些優化方法使得模型更「自信」,減少了迴避行為,但錯誤率卻隨之增加。這一現像在 GPT-4 和 GPT-3.5-turbo 等模型中尤其明顯,規模擴展並未帶來預期的穩定性。對比 LLaMA 和 BLOOM 模型,這一趨勢雖然不那麼明顯,但同樣存在。

圖 | GPT 和 LLaMA 模型的性能隨難度增加而提高圖 | GPT 和 LLaMA 模型的性能隨難度增加而提高

研究團隊稱,這種現象與用戶在模型上產生的過度信任密切相關,尤其是在用戶面對看似簡單的任務時。

該論文的第一作者 Lexin Zhou 表示:「這可能會導致最初過於依賴模型的用戶感到失望。此外,與人類不同,避免提供答案的傾向不會隨著困難而增加。例如,人類傾向於避免對超出其能力的問題給出反饋。這讓用戶有責任在與模型的交互過程中發現錯誤。」 

提示詞帶來的是穩定性,還是陷阱?

該研究分析了模型對提示詞的敏感性,特別是某些提示是否存在「安全區」。

結果表明,隨著模型規模的增加,模型對不同自然語言表述的敏感度有所提高,能更好地應對措辭上的微調。然而,即使經過擴展和優化,模型在不同難度級別的任務上仍然存在不一致的表現。而且,在不同表述下,模型的回答準確率存在波動。

研究發現,人們對難度的認知存在不一致。論文作者之一 Yael Moros Daval 說道:「模型是否在我們預期的地方失敗了?我們發現,模型在人類認為困難的任務上往往不太準確,但即使在簡單任務上,它們也不是 100% 準確。這意味著不存在可以信任模型完美運行的‘安全區’。」

具體而言,未經優化的 GPT 和 LLaMA 模型對提示詞的選擇表現出極高的敏感性,尤其是在簡單任務中。如果提示詞選擇得當,模型的表現會有所提升;而優化後的模型在提示詞敏感性上有所改善,表現更加穩定,但也存在一定的變異性。

經過優化的模型相比原始模型(raw models)在提示變化上更為穩定,且正確率更高,但在與人類判斷難度的一致性和謹慎度方面表現較差。

圖 | LLaMA、BLOOM 系列以及非結構 GPT 模型的尺度分析圖 | LLaMA、BLOOM 系列以及非結構 GPT 模型的尺度分析

研究發現,當用戶的難度預期與模型的輸出結果不一致時,尤其是對於簡單任務,模型和用戶的錯誤監督都會增加,且人類監督無法彌補這些問題。

儘管人類對任務難度的預期可以作為模型正確性的預測指標,但模型在簡單任務上仍存在錯誤;模型規模的擴展和優化不僅減少了迴避行為,還導致錯誤率的增加,並且迴避行為與任務難度無關;即便對模型進行了擴展和優化,提示工程的需求仍然存在,並且提示性能的提升並不隨難度單調增加。

這項研究不僅揭示了大模型擴展的關鍵盲區,更為未來的 AI 發展提供了新的方向——在模型規模與任務難度之間找到最佳平衡,或許才是智能進化的真正關鍵。

論文作者之一 Wout Schellaert 表示:「最終,從人類的角度來看,LLM 變得越來越不可靠,而用戶監督來糾正錯誤並不是解決方案,因為我們往往過於依賴模型,無法識別不同難度級別的錯誤結果。因此,通用人工智能(AGI)的設計和開發需要進行根本性的改變,特別是對於高風險應用,預測語言模型的性能並檢測其錯誤至關重要。」

02 不足與展望

儘管該研究在揭示 LLM 的提示敏感性、擴展與優化對性能的影響等方面取得了重要成果,但仍存在一些局限性。

首先,這項研究中的參與者大多是非專家,這在解釋校準難度值時需要謹慎。對於一些基準數據集,非專家可能無法解決大量問題,而研究的目的是為了捕捉普通人群的預期難度,以便在所有數據集中進行可比性分析。

而且,這項研究中使用的「自然」提示是從多樣化的來源中收集的,但未能獲取這些提示在真實場景中出現的頻率數據。

同時,這項研究僅覆蓋了部分模型,尤其是那些依賴外部工具或複雜推理技術的模型沒有被納入,這限制了對 LLM 在更複雜場景下動態表現的理解,無法全面評估不同模型的潛力與問題。

此外,研究僅覆蓋了部分模型家族,尤其是那些依賴外部工具或複雜推理技術的模型沒有被納入。這限制了對 LLM 在更複雜場景下動態表現的理解,無法全面評估不同模型家族的潛力與問題。

研究人員表示,將進一步擴大關於人類難度預期和輸出監督的數據集,以便將這些更高質量的數據引入模型訓練中,並通過 AI 來訓練監督者,從而改進模型的優化過程。

在醫療等關鍵領域,模型可以通過設計拒答選項或與外部 AI 監督者結合的方式,提高其迴避能力,最終使 LLM 展現出更符合人類預期的可靠性和一致性。

本文來自微信公眾號「學術頭條」(ID:SciTouTiao),作者:學術頭條,36氪經授權發佈。