蘋果發文質疑:大語言模型根本無法進行邏輯推理

大語言模型(LLM)是真的會數學推理?還是只是在「套路」解題?

近年來,大語言模型在各種任務中的表現引起廣泛關注。一個核心問題逐漸浮現:這些模型是否真正具備邏輯推理能力,還是僅僅通過複雜的模式匹配來應對看似推理的問題?尤其是在數學推理任務中,模型的表現究竟是在模擬人類思維,還是僅僅通過數據模式匹配得出答案?

日前,來自蘋果公司的 Iman Mirzadeh 及其研究團隊提出了一個名為 GSM-Symbolic 的新基準,針對多個開源模型(如 Llama、Phi、Gemma、Mistral)和閉源模型(如 GPT-4o、o1 系列)進行了大規模評估。

結果顯示,當問題中的數值或名字變化時,模型的會表現出顯著的波動。此外,隨著問題難度的提升(如增加更多子句),模型的表現迅速下降,這表明這些模型在推理複雜問題時非常脆弱。

研究團隊認為,這種表現下降並非偶然,而是因為當前的大語言模型缺乏真正的邏輯推理能力,更多是在基於訓練數據中的模式進行匹配,而非像人類一樣進行符號和邏輯推導。

即使是簡單的變化,如調整問題中的數值,也能導致模型準確率下降 10%。而當問題增加一個額外但無關的子句時,性能下降幅度甚至高達 65%

論文鏈接:https://arxiv.org/abs/2410.05229

大模型不具備形式推理能力?5 大證據來了

三年前,OpenAI 發佈了 GSM8K 數據集(目前常用的一種小學數學推理基準數據集),測試 GPT-3(175B參數)在數學題上的表現,那時 GPT-3 的得分僅為 35%。如今,擁有約 30 億參數的模型已能夠在 GSM8K 測試中取得超過 85% 的得分,參數更大的模型甚至超過 95%。

然而,隨著準確率的提升,疑問也隨之而來:這些模型的推理能力是否真的進步了?它們的表現是否真的體現了邏輯或符號推理能力,抑或是簡單的模式識別,數據汙染,甚至過擬合的結果?

為進一步探索這一問題,研究團隊此發了 GSM-Symbolic,用於測試大語言模型在數學推理中的極限。GSM-Symbolic 基於 GSM8K 數據集,通過符號模板生成多樣化的問題實例,允許更可控的實驗設計。

為了更清晰地觀察模型在面對這些變體問題時的表現,他們生成了 50 個獨特的 GSM-Symbolic 集合,這些問題與 GSM8K 問題類似,但更改了其中的數值和名稱。

基於 GSM-Symbolic,他們從 5 個方面說明了為何他們認為大語言模型不具備形式推理能力:

1. GSM8K 的當前準確率並不可靠

通過對多個開源模型(如 Llama 8B、Phi-3)和閉源模型(如 GPT-4o 和 o1 系列)的大規模評估,他們發現模型在 GSM8K 上的表現存在顯著波動。例如,Llama 8B 的準確率在 70%-80% 之間波動,而 Phi-3 的表現則在 75%-90% 之間浮動。

這也表明,模型在處理相似問題時表現並不穩定,GSM8K 上的高分並不能證明它們具備真正的推理能力。

圖|由 GSM-Symbolic 模板生成的 50 套 8-shot 思想鏈(CoT)性能分佈,顯示了所有 SOTA 模型之間準確性的顯著差異性。

對於大多數型號來說,GSM-Symbolic 的平均性能低於 GSM8K(圖中由虛線表示)。有趣的是,GSM8K 的性能落在分佈的右側,從統計學上講,這應該非常低的可能性,因為 GSM8K 基本上只是 GSM-Symbolic 的一次單一抽樣。

2. 對名稱和數字變動的敏感性

研究還發現,當前的大語言模型對問題中的專有名稱(如人名、食物、物品)的變化仍然很敏感,當數字發生變化時,大語言模型就會更加敏感。

例如,僅僅改變問題中的名字,就可能導致模型的準確率變化高達 10%。如果將這種情況類比到小學數學測試中,僅僅因為改變了人名而導致分數下降 10% ,是非常不可思議的。

圖|當只更改名稱、專有編號或同時更改名稱和編號時,大語言模型的敏感性如何?總體而言,即使只更改名稱,模型也有明顯的性能變化,但當更改編號或合併這些變化時,性能差異更大。

3. 問題難度的增加導致表現急劇下降

研究團隊通過引入三種新的 GSM-Symbolic 變體(GSM-M1、GSM-P1、GSM-P2),通過刪除一個分句(GSM-M1)、增加一個分句(GSM-P1)或增加兩個分句(GSM-P2),來調整問題難度。

圖|通過修改條款數量來修改 GSM-Symbolic 的難度級別圖|通過修改條款數量來修改 GSM-Symbolic 的難度級別

圖|增加條款數量對性能的影響:隨著GSM-M1→GSM-Symb→GSM-P1→GSM-P2的難度增加,性能分佈向左移動(即準確性下降),方差增加。

結果發現,隨著問題難度的增加(GSM-M1 → GSM-Symb → GSM-P1 → GSM-P2),模型的表現不僅下降顯著,且表現波動也變得更加劇烈。面對更複雜的問題時,模型的推理能力變得更加不可靠。

4. 添加無關子句對性能的巨大影響

為進一步測試模型的推理能力,研究團隊設計了 GSM_NoOp 實驗,在原有問題中添加一個似乎相關但實際無關的子句 (hence “no-op”)。

結果顯示,所有模型的表現都顯著下降,包括性能較好的 o1 模型在內。這種現象進一步說明,模型並沒有真正理解數學概念,而是通過模式匹配來得出答案。

圖|在 GSM-NoOp 上,模型的性能明顯下降,較新的模型比舊的模型下降更大。  圖|在 GSM-NoOp 上,模型的性能明顯下降,較新的模型比舊的模型下降更大。

5. 擴展規模和計算能力並不能解決根本問題

此外,他們還探討了通過擴大數據、模型規模或計算能力是否能夠解決推理能力不足的問題。

Mehrdad Farajtabar 表示,儘管 OpenAI 的 o1 系列在性能上有一定改善,但它們也會出現這樣的愚蠢錯誤,要麼是它不明白「現在」是什麼意思,要麼是它不明白「去年」是什麼意思,還有一種更可能的解釋是,更大的訓練數據具有這種模式,所以它又沿用了這種模式。

圖|o1-mini 和 o1-preview 的結果:這兩個模型大多遵循我們在正文中介紹的相同趨勢。然而,o1-preview 在所有難度級別上都顯示出非常強大的結果,因為所有分佈都彼此接近。

他認為,理解大語言模型的真正推理能力對於在現實世界中的應用至關重要,尤其是在 AI 安全、教育、醫療保健和決策系統等對準確性和一致性要求極高的領域。

研究結果表明,當前大語言模型的表現,更像是高級的模式匹配器,而非具備形式推理能力的系統。為了在這些領域安全、可靠地部署大語言模型,開發更為魯棒和適應性強的評估方法顯得尤為重要。

邏輯推理:大語言模型的真正挑戰

研究人員表示,總體而言,這項研究沒有發現大語言模型具備正式的邏輯推理能力,無論是開源模型,還是閉源模型。

它們的行為更像是複雜的模式匹配,甚至很脆弱,以至於簡單改變名字就能導致結果變化約 10%。儘管可以通過增加數據量、參數規模或計算能力,或者為 Phi-4、Llama-4、GPT-5 提供更好的訓練數據來提高表現,但他們認為這隻會帶來「更好的模式匹配者」,而不是「更好的推理者」

有讀者對 10% 的表現波動提出了疑問。對此,Farajtabar 回應道:

「如果你指的是 Llama 3 8B,它確實是一個先進的模型,並且假設已經通過大量精心設計的數據進行了訓練,然而即便如此,10% 的偏差對我來說還是太大了。對於較舊的模型來說,這種波動更為明顯。真正令人擔憂的問題在於,當問題難度稍微提升(例如通過增加一個子句)時,偏差會迅速增加到 16%。是的,或許我們可以通過收集更多類似數據來縮小這些差異,但如果問題難度繼續上升,這種偏差很可能會呈指數級增長。」

隨著大語言模型在各類應用場景中被廣泛採用,如何確保它們能夠處理更複雜、更多樣化的問題,已成為 AI 研究領域面臨的下一個重大挑戰。

未來,大語言模型需要突破模式匹配,真正實現邏輯推理,才能應對不斷變化的現實需求。這也是 AI 社區共同努力的方向。

本文來自微信公眾號  「學術頭條」(ID:SciTouTiao),作者:田小婷,36氪經授權發佈。