蘋果發文質疑：大語言模型根本無法進行邏輯推理

大語言模型（LLM）是真的會數學推理？還是只是在「套路」解題？

近年來，大語言模型在各種任務中的表現引起廣泛關注。一個核心問題逐漸浮現：這些模型是否真正具備邏輯推理能力，還是僅僅通過複雜的模式匹配來應對看似推理的問題？尤其是在數學推理任務中，模型的表現究竟是在模擬人類思維，還是僅僅通過數據模式匹配得出答案？

日前，來自蘋果公司的 Iman Mirzadeh 及其研究團隊提出了一個名為 GSM-Symbolic 的新基準，針對多個開源模型（如 Llama、Phi、Gemma、Mistral）和閉源模型（如 GPT-4o、o1 系列）進行了大規模評估。

結果顯示，當問題中的數值或名字變化時，模型的會表現出顯著的波動。此外，隨著問題難度的提升（如增加更多子句），模型的表現迅速下降，這表明這些模型在推理複雜問題時非常脆弱。

研究團隊認為，這種表現下降並非偶然，而是因為當前的大語言模型缺乏真正的邏輯推理能力，更多是在基於訓練數據中的模式進行匹配，而非像人類一樣進行符號和邏輯推導。

即使是簡單的變化，如調整問題中的數值，也能導致模型準確率下降 10%。而當問題增加一個額外但無關的子句時，性能下降幅度甚至高達 65%。

論文鏈接：https://arxiv.org/abs/2410.05229

大模型不具備形式推理能力？5 大證據來了

三年前，OpenAI 發佈了 GSM8K 數據集（目前常用的一種小學數學推理基準數據集），測試 GPT-3（175B參數）在數學題上的表現，那時 GPT-3 的得分僅為 35%。如今，擁有約 30 億參數的模型已能夠在 GSM8K 測試中取得超過 85% 的得分，參數更大的模型甚至超過 95%。

然而，隨著準確率的提升，疑問也隨之而來：這些模型的推理能力是否真的進步了？它們的表現是否真的體現了邏輯或符號推理能力，抑或是簡單的模式識別，數據汙染，甚至過擬合的結果？

為進一步探索這一問題，研究團隊此發了 GSM-Symbolic，用於測試大語言模型在數學推理中的極限。GSM-Symbolic 基於 GSM8K 數據集，通過符號模板生成多樣化的問題實例，允許更可控的實驗設計。

為了更清晰地觀察模型在面對這些變體問題時的表現，他們生成了 50 個獨特的 GSM-Symbolic 集合，這些問題與 GSM8K 問題類似，但更改了其中的數值和名稱。

基於 GSM-Symbolic，他們從 5 個方面說明了為何他們認為大語言模型不具備形式推理能力：

1. GSM8K 的當前準確率並不可靠

通過對多個開源模型（如 Llama 8B、Phi-3）和閉源模型（如 GPT-4o 和 o1 系列）的大規模評估，他們發現模型在 GSM8K 上的表現存在顯著波動。例如，Llama 8B 的準確率在 70%-80% 之間波動，而 Phi-3 的表現則在 75%-90% 之間浮動。

這也表明，模型在處理相似問題時表現並不穩定，GSM8K 上的高分並不能證明它們具備真正的推理能力。

圖｜由 GSM-Symbolic 模板生成的 50 套 8-shot 思想鏈（CoT）性能分佈，顯示了所有 SOTA 模型之間準確性的顯著差異性。

對於大多數型號來說，GSM-Symbolic 的平均性能低於 GSM8K（圖中由虛線表示）。有趣的是，GSM8K 的性能落在分佈的右側，從統計學上講，這應該非常低的可能性，因為 GSM8K 基本上只是 GSM-Symbolic 的一次單一抽樣。

2. 對名稱和數字變動的敏感性

研究還發現，當前的大語言模型對問題中的專有名稱（如人名、食物、物品）的變化仍然很敏感，當數字發生變化時，大語言模型就會更加敏感。

例如，僅僅改變問題中的名字，就可能導致模型的準確率變化高達 10%。如果將這種情況類比到小學數學測試中，僅僅因為改變了人名而導致分數下降 10% ，是非常不可思議的。

圖｜當只更改名稱、專有編號或同時更改名稱和編號時，大語言模型的敏感性如何？總體而言，即使只更改名稱，模型也有明顯的性能變化，但當更改編號或合併這些變化時，性能差異更大。

3. 問題難度的增加導致表現急劇下降

研究團隊通過引入三種新的 GSM-Symbolic 變體（GSM-M1、GSM-P1、GSM-P2），通過刪除一個分句（GSM-M1）、增加一個分句（GSM-P1）或增加兩個分句（GSM-P2），來調整問題難度。

圖｜通過修改條款數量來修改 GSM-Symbolic 的難度級別

圖｜增加條款數量對性能的影響：隨著GSM-M1→GSM-Symb→GSM-P1→GSM-P2的難度增加，性能分佈向左移動（即準確性下降），方差增加。

結果發現，隨著問題難度的增加（GSM-M1 → GSM-Symb → GSM-P1 → GSM-P2），模型的表現不僅下降顯著，且表現波動也變得更加劇烈。面對更複雜的問題時，模型的推理能力變得更加不可靠。

4. 添加無關子句對性能的巨大影響

為進一步測試模型的推理能力，研究團隊設計了 GSM_NoOp 實驗，在原有問題中添加一個似乎相關但實際無關的子句 (hence “no-op”)。

結果顯示，所有模型的表現都顯著下降，包括性能較好的 o1 模型在內。這種現象進一步說明，模型並沒有真正理解數學概念，而是通過模式匹配來得出答案。

圖｜在 GSM-NoOp 上，模型的性能明顯下降，較新的模型比舊的模型下降更大。

5. 擴展規模和計算能力並不能解決根本問題

此外，他們還探討了通過擴大數據、模型規模或計算能力是否能夠解決推理能力不足的問題。

Mehrdad Farajtabar 表示，儘管 OpenAI 的 o1 系列在性能上有一定改善，但它們也會出現這樣的愚蠢錯誤，要麼是它不明白「現在」是什麼意思，要麼是它不明白「去年」是什麼意思，還有一種更可能的解釋是，更大的訓練數據具有這種模式，所以它又沿用了這種模式。

圖｜o1-mini 和 o1-preview 的結果：這兩個模型大多遵循我們在正文中介紹的相同趨勢。然而，o1-preview 在所有難度級別上都顯示出非常強大的結果，因為所有分佈都彼此接近。

他認為，理解大語言模型的真正推理能力對於在現實世界中的應用至關重要，尤其是在 AI 安全、教育、醫療保健和決策系統等對準確性和一致性要求極高的領域。

研究結果表明，當前大語言模型的表現，更像是高級的模式匹配器，而非具備形式推理能力的系統。為了在這些領域安全、可靠地部署大語言模型，開發更為魯棒和適應性強的評估方法顯得尤為重要。

邏輯推理：大語言模型的真正挑戰

研究人員表示，總體而言，這項研究沒有發現大語言模型具備正式的邏輯推理能力，無論是開源模型，還是閉源模型。

它們的行為更像是複雜的模式匹配，甚至很脆弱，以至於簡單改變名字就能導致結果變化約 10%。儘管可以通過增加數據量、參數規模或計算能力，或者為 Phi-4、Llama-4、GPT-5 提供更好的訓練數據來提高表現，但他們認為這隻會帶來「更好的模式匹配者」，而不是「更好的推理者」。

有讀者對 10% 的表現波動提出了疑問。對此，Farajtabar 回應道：

「如果你指的是 Llama 3 8B，它確實是一個先進的模型，並且假設已經通過大量精心設計的數據進行了訓練，然而即便如此，10% 的偏差對我來說還是太大了。對於較舊的模型來說，這種波動更為明顯。真正令人擔憂的問題在於，當問題難度稍微提升（例如通過增加一個子句）時，偏差會迅速增加到 16%。是的，或許我們可以通過收集更多類似數據來縮小這些差異，但如果問題難度繼續上升，這種偏差很可能會呈指數級增長。」