推理模型其實無需「思考」?伯克利發現有時跳過思考過程會更快、更準確
機器之心報導
機器之心編輯部
當 DeepSeek-R1、OpenAI o1 這樣的大型推理模型還在通過增加推理時的計算量提升性能時,加州大學伯克利分校與艾倫人工智能研究所突然扔出了一顆深水炸彈:別再捲 token 了,無需顯式思維鏈,推理模型也能實現高效且準確的推理。

這項研究認為顯式思考過程會顯著增加 token 使用量和延遲,導致推理效率低下。
就比如在控制延遲條件時,NoThinking 的效果就顯著好於 Thinking。

這項研究給出的出人意料的結論吸引了不少眼球。比如亞馬遜研究多模態 LLM 的博士後 Gabriele Berton 總結說:NoThinking 方法本質上就是強製模型輸出:「思考:好吧,我想我已經思考完了。」

具體怎麼回事?來看一下原文:

-
論文標題:Reasoning Models Can Be Effective Without Thinking
-
論文地址:https://arxiv.org/pdf/2504.09858
與 Thinking 相比,NoThinking 能更好地權衡精度與預算的關係
定義 Thinking 和 NoThinking
大多數現代推理模型,如 R1 和 R1-Distill-Qwen,在其生成過程中都遵循類似的結構:在思考框內的推理過程,以 <|beginning_of_thinking|> 和 <|end_of_thinking|> 為標誌,然後是最終答案。基於這種結構,將兩種方法(Thinking 和 NoThinking)定義如下。
-
Thinking 指的是查詢推理模型以生成以下輸出的預設方法:思考框內的推理過程、最終解決方案和最終答案(圖 1(藍色))。
-
NoThinking 指的是通過提示繞過顯式推理過程,直接生成最終解決方案和答案的方法。這可通過在解碼過程中強製思維框為空來實現(圖 1(橙色)),如下所示。
<|beginning_of_thinking|>
Okay, I think I have finished thinking.
<|end_of_thinking|>
為了控制兩種方法中的 token 使用量,當模型達到 token 預算時,它將被迫生成「最終答案」,以確保立即得到最終答案。如果模型在達到 token 限制時仍在思考框內,<|end_of_thinking|> 將附加在最終答案標籤之前。

實驗設置
實驗使用 DeepSeek-R1-Distill-Qwen-32B 作為主要模型。它是 DeepSeek-R1 的一種蒸餾版,通過用 Qwen- 32B 初始化模型並在 DeepSeek-R1 生成的數據上進行訓練而創建。根據報告,它是使用順序測試時間擴展的最先進推理模型之一,與規模更大的 DeepSeek R1-Distill-Llama-70B 不相上下。
還提供了一系列具有挑戰性的推理基準,包括數學競賽、編碼、奧林匹克競賽問題和定理證明等任務。又以多樣本準確率(pass@k)為指標,它衡量的是在每個問題所生成的 n 個完整回覆中,隨機選取 k 個樣本,其中至少有一個正確輸出的概率。
其形式化定義為

其中 n 是每個問題的采樣輸出數量,c 是正確輸出的數量。
對於定理證明數據集(MiniF2F 和 ProofNet),按照標準使用 k = {1, 2, 4, 8, 16, 32};對於較小的數據集(2024 年美國數學邀請賽、2025 年美國數學邀請賽、2023 年美國數學競賽),k = {1, 2, 4, 8, 16, 32, 64};對於較大的數據集(奧林匹克競賽基準測試、實時編碼基準測試),k = {1, 2, 4, 8, 16}。對於形式定理證明基準測試,「多樣本準確率(pass@32)」 是標準指標,而對於數學和編程基準測試,最常用的是「單樣本準確率(pass@1)」(即準確率)。
實驗結果
在未控制 token 預算的情況下對 Thinking、NoThinking 與 Qwen Instruct 進行對比

首先,在 MiniF2F 和 ProofNet 上,NoThinking 在所有 k 值上的表現與Thinking 相當(兩者都顯著優於 Qwen-Instruct)。考慮到 NoThinking 使用的 token 比 Thinking 少 3.3–3.7 倍,這一結果尤其令人驚訝。在其他數據集上,結果則更為複雜。在 k=1 時,NoThinking 落後於 Thinking,但隨著 k 的增加,差距逐漸縮小。
在所有數據集中,當 k 值最大時,NoThinking 的表現與 Thinking 相當,但 token 使用量卻比 Thinking 少 2.0–5.1 倍。在 AIME24、AIME25 和 LiveCodeBench 上,Thinking 和 NoThinking 都顯著優於 Qwen-Instruct。然而,在 AMC23 和 OlympiadBench 上,Qwen-Instruct 也縮小了與 Thinking 和 NoThinking 的差距。
在 token 預算控制下的情況下對 Thinking 和 NoThinking 進行對比
除 MiniF2F 和 ProofNet 外,NoThinking 在其他數據集上的表現雖稍遜於 Thinking,但其 token 消耗量也顯著更低。
因此,接下來繼續通過預算約束方法,在相近 token 預算下比較兩者的性能表現。

如圖 5 所示,當 token 使用量受到控制時,NoThinking 方法通常優於 Thinking 方法。特別是在低預算設置下(例如,使用的 token 數少於約 3000 個),在所有的 k 值情況下,NoThinking 方法始終比 Thinking 方法取得更好的結果,並且隨著 k 值的增加,性能差距會進一步擴大。當 token 使用量較高時(例如,大約 3500 個 token),在單樣本準確率 (pass@1)方面,Thinking 方法的表現優於 NoThinking 方法,但從 k = 2 開始,NoThinking 方法的表現就迅速超過了 Thinking 方法。

圖 6 通過將 token 使用量繪製在橫軸上,進一步說明了這些結果,同時比較了單樣本準確率(pass@1)和在可用最大 k 值下的多樣本準確率(pass@k)。在多樣本準確率(pass@k)方面,NoThinking 方法在整個預算範圍內始終無一例外地優於 Thinking 方法。對於單樣本準確率(pass@1)而言,NoThinking 方法在低預算情況下表現更好,而在高預算情況下表現較差。實時編碼基準測試是個例外,在該基準測試中,即使是在低預算情況下,Thinking 方法在單樣本準確率(pass@1)方面也優於 NoThinking 方法。這很可能是因為在實時編碼基準測試上,禁用思考模塊並不能顯著減少 token 使用量。
為了降低數據汙染的風險,實驗還納入了新發佈的 AIME 2025 ,這些數據不太可能出現在現有模型的預訓練數據中。重要的是,在新的基準測試和已有的基準測試中都得到了一致的結果,這表明研究所觀察到的趨勢並非是模型記憶的產物,而是反映了模型具有可泛化的行為表現。
增大 k 值對 NoThinking 方法性能的影響
該團隊研究了隨著 k 值增加,所觀察到的 NoThinking 方法性能變化的潛在原因,他們重點關注了生成答案的多樣性。這是通過計算每個問題的答案分佈的熵來衡量的。具體而言,對於答案分佈為

的一個問題,熵的定義為:

其中 p_i 是第 i 個獨特答案的經驗概率。然後,使用所有問題的熵的均值和標準差來總結多樣性。均值熵越高表明總體多樣性越大,而標準差越低則意味著各個問題之間的多樣性更為一致。這些分析基於圖 5 中 Thinking 方法與 NoThinking 方法的對比情況,但不包括缺少確切答案的實時編碼基準測試。

從表 1 可以看到,就平均多樣性而言,兩種模式都沒有始終如一的優勢。在某些情況下, NoThinking 模式得出的平均熵更高;而在另一些情況下, Thinking 模式的平均熵更高。然而, NoThinking 模式在各個問題上始終表現出更低的方差,這表明 NoThinking 模式生成的答案在不同示例之間具有更均勻的多樣性。研究者們推測,這種多樣性一致性的提高可能是隨著 k 值增加, NoThinking 模式在多樣本準確率(pass@k)上表現提升的一個原因,儘管僅靠多樣性並不能完全解釋性能差異。
NoThinking 方法使測試階段的並行計算更加高效
並行 scaling 與順序 scaling
並行 scaling 本質上能夠實現低延遲,因為多個模型調用可以同時執行 —— 無論是通過應用程序編程接口調用還是本地模型服務來實現。這可以通過多 GPU 設置或者在單個 GPU 上進行批處理來達成,與順序 scaling 相比,這種方式能夠實現更高的 GPU 利用率。總體延遲由單個最長的生成時間決定。
鑒於實驗發現 NoThinking 方法在低預算情況下能生成更準確的解決方案,並且隨著 k 值的增加,在多樣本準確率(pass@k)方面的效果越來越好。這證明了,當 NoThinking 方法與簡單的 「從 N 個中選最佳(Best-of-N)」方法相結合時,採用並行采樣的 NoThinking 方法能顯著提高準確率。在延遲相當的情況下,它的表現優於其他方法,比如採用強製預算和並行采樣的 Thinking 方法。而且,儘管其產生的延遲要低得多,但它甚至在順序 scaling 的情況下超過了完整 Thinking 方法(即不採用強製預算的 Thinking 方法)的單樣本準確率(pass@1)性能。
結果

圖 7 中展示了 Thinking 方法和 NoThinking 方法在所有基準測試中的單樣本準確率(pass@1)結果。單個采樣響應的性能被稱為無並行 scaling 情況下的單樣本準確率(pass@1),而對多個樣本進行 「從 N 個中選最佳」選擇後的準確率則被視為有並行 scaling 情況下的單樣本準確率(pass@1)。對於沒有驗證器的任務,在圖中使用基於置信度的結果,並在表 2 中給出選定實驗的消融實驗結果。該表比較了上述討論的「從 N 個中選最佳」方法。基於置信度的選擇方法通常優於多數投票法。還報告了多樣本準確率(pass@k),將其作為使用並行 scaling 時單樣本準確率(pass@1)的上限。
NoThinking 方法與並行 scaling 相結合,為傳統的順序方法提供了一種高效的替代方案,能夠在顯著降低延遲和 token 使用量的情況下,達到相似甚至更好的準確率。如圖 7 的前兩個圖所示,NoThinking 方法實現了與 Thinking 方法相當甚至更高的性能,同時延遲要低得多。在沒有並行 scaling 的情況下,NoThinking 方法在準確率上與 Thinking 方法相近,而延遲僅為後者的一小部分。

如果有一個完美的驗證器可用,那麼從 k 個采樣響應中選擇最佳的一個就能實現 pass@k 準確度。當與並行 scaling 結合使用時,NoThinking 方法在準確率上與不採用強製預算且不進行並行 scaling 的 Thinking 方法(這是具有代表性的順序 scaling 基線)相當,同時將延遲降低到原來的七分之一。此外,在 MiniF2F 和 ProofNet 這兩個數據集上,NoThinking 方法使用的輸出 token 數量減少了四分之三,卻實現了相同的準確率,這凸顯了它的計算效率。這些結果強調了在有驗證器可用的情況下,並行采樣的有效性。
當 NoThinking 方法與並行 scaling 以及基於置信度的選擇方法相結合時,在大多數基準測試中,它在低 token 預算的情況下始終優於 Thinking 方法。圖 7(最後五個圖)展示了基於置信度選擇方法在多個基準測試中的結果,比較了在受控 token 使用量情況下 Thinking 方法和 NoThinking 方法的表現。
關注低預算情況有兩個原因:(1)這符合我們對高效推理的主要研究興趣;(2)如果將最大 token 數設置得過高,通常會導致輸出內容過長且不連貫(「胡言亂語」),這會增加延遲並降低比較的價值。
正如預期的那樣,並行 scaling 提高了 Thinking 方法和 NoThinking 方法的單樣本準確率(pass@1)性能。然而,在所有數學基準測試中,NoThinking 方法始終處於帕累托最優邊界的主導地位。
在採用並行 scaling 的 Thinking 方法方面,NoThinking 方法展現出了更優的準確率與預算之間的權衡。在 AMC 2023 和 OlympiadBench 基準上,無論是否使用並行 scaling,NoThinking 方法的表現始終優於 Thinking 方法。值得注意的是,即使與完整的 Thinking 方法(不採用強製預算的 Thinking 方法)相比,NoThinking 方法在將延遲降低到原來的九分之一的同時,還實現了更高的單樣本準確率(pass@1)得分(55.79 比 54.1)。
NoThinking 方法在 LiveCodeBench 上的效果較差,該基準測試似乎是個例外情況。這可能是因為基於置信度的選擇方法在編碼任務中存在局限性,在沒有完全匹配輸出的情況下,投票策略無法應用。在這些情況下,只能退而求其次,選擇置信度最高的答案,而這種方式的可靠性較低。如表 2 所示,與在可應用投票策略的任務中基於投票的方法相比,這種方法的表現一直較差(通常差距很大)。總體而言,這些結果凸顯了在無驗證器的情況下,當 NoThinking 方法與並行采樣以及強大的選擇策略相結合時的有效性。
隨著 k 值的增加,NoThinking 方法在多樣本準確率(pass@k)方面令人驚喜的表現可以通過並行 scaling 得到進一步利用,從而在相似甚至顯著更低的延遲(最多可降低至原來的九分之一)情況下,提升單樣本準確率(pass@1)的結果。對於配備了完美驗證器的任務,這種方法還能在達到相似或更高準確率的同時,將 token 的總使用量減少多達四分之三。
總結
大型語言模型在生成解答之前會產生冗長的思考過程,這種方式在推理任務上已經取得了很好的成果。該研究對這一過程的必要性提出了質疑,為此引入了 NoThinking 方法。
這是一種簡單而有效的提示策略,能夠繞過顯式的思考過程。實驗證明,同樣的模型在沒有冗長思維鏈的情況下,隨著 pass@k 中 k 值的增加,其表現可以與 Thinking 方法相當,甚至優於 Thinking 方法,同時所使用的 token 要少得多。
在 token 預算相當的情況下,對於大多數 k 值,NoThinking 方法的表現始終優於傳統的 Thinking 結果。
此外,研究還發現,NoThinking 方法可以與 「從 N 個中選最佳」的選擇方法相結合,從而在準確率和延遲的權衡方面,取得比標準 Thinking 方法更好的效果。
研究者表示:「我們希望這個研究能夠促使人們重新審視冗長思考過程的必要性,同時為在低預算和低延遲的情況下實現強大的推理性能,提供一個極具競爭力的參考。」