單靠推理Scaling Law無法成就o1，無限推理token，GPT-4o依然完敗

09月29日 16:24 新浪網 news-china-auto-hilite

【導讀】o1的秘訣，和全新的「推理Scaling Law」關係有多大？Epoch AI最近的對比實驗表明，算法創新才是關鍵。

CoT鑄就了o1推理王者。

它開創了一種推理scaling新範式——隨著算力增加、更長響應時間，o1性能也隨之增長。

這一點，為AI scaling開闢了新的可能性。

既然如此，若是將o1這一訓練過程直接應用到所有LLM中，豈不皆是「推理王者」。

然而，研究機構Epoch AI發現，結果並不是這樣的。

單純的擴展推理計算，根本不能彌合o1-preview和GPT-4o之間的差距。

他們稱，「雖然o1使用了逐步推理方法訓練，但其性能改進，可能還存在其他的因素」。

o1的秘訣是什麼？

上週，在o1-preview和o1-mini發佈之後，Epoch AI研究人員開啟了GPT-4o和o1-preview對比實驗。

他們選擇了一個具有挑戰性的基準測試GPQA進行評估，其中包含STEM領域研究生級別的多項選擇題，而且考慮到模型的隨機性進行了多次運行。

結果發現o1-preview的性能遠遠好於GPT-4o，比Claude 3.5 Sonnet、Llama3.1 405B也拉開了相當大的差距。

這個結果也和OpenAI自己放出的測試結果相吻合，尤其是在AIME和Codeforces這類難度更高的基準上，o1-preview相比GPT-4o的提升更加明顯。

然而，考慮到o1模型相比GPT-4o使用了更多的推理時計算，而且每個問題生成的token也更多，這種比較顯得不太公平。

因此，研究人員使用了兩種方法嘗試增加GPT-4o的輸出token，類似於讓GPT-4o模仿o1的思考過程。

– 多數投票（majority voting）：選擇k個推理軌跡中最常見的答案

– 修正（revision）：給模型n次反思和改進答案的機會

值得注意的是，這些都是相對簡單的方法。其實存在更複雜、有效的方法來利用推理時間計算，比如讓過程獎勵模型作為驗證器參與搜索。

o1模型很可能使用了更複雜的方法，但Epoch研究人員只是想建立一個比較基線，因此選擇了較為基礎的方法。

結果顯示，雖然這兩種方法都生成了更多的token，並提高了GPT-4o的準確性，但依舊無法匹敵o1-preview的性能。

GPT-4o變體的準確率仍然顯著低於o1-preview，差距始終大於10個百分點。

與o1-preview相比，輸出token數量對GPT-4o在GPQA上性能的影響

即使考慮到o1-preview每個輸出token的成本更高，這種性能差距仍然存在。

Epoch AI團隊的推算結果表明，即使在GPT-4o上花費1000美元用於輸出token，準確率仍將比o1-preview低10多個百分點。

對GPT-4o mini進行相同操作後也能得到類似的結果，但在進行模型修正後，結果存在一些差異。

隨著修正次數的增加，模型準確性不會持續提升，反而會在到達一定閾值後開始下降。這可能是由於GPT-4o mini在長上下文推理方面的局限。

從以上結果可以看出，僅僅擴大推理處理能力並不足以解釋o1的卓越性能。

研究作者認為，先進的強化學習技術和改進的搜索方法可能發揮了關鍵作用，凸顯了在Scaling Law之外，算法創新對AI發展的重要性。

但是，我們也並不能確定算法改進是o1-preview優於GPT-4o的唯一因素，更高質量的訓練數據也可能導致性能差異。

推理很強的o1，差在規劃能力

雖然GPQA或AIME這類問題相當困難，但一般只會考察模型的在STEM領域的知識儲備和推理能力。那麼強如o1，它的規劃能力如何？

2022年，亞利桑那州大學的學者們曾經提出過一個用於評測LLM規劃能力的基準套件PlanBench，包括了來自Blocksworld領域的600個任務，要求將一定數量的積木按照指定順序堆疊起來。

在MMLU、GSM8K等傳統基準相繼飽和時，兩年前提出的PlanBench依舊沒有飽和，可見當今的LLM在規劃能力方面依舊有很大的提升空間。

o1之前的模型中，PlanBench準確率很少超過50%

o1之前的模型中，PlanBench準確率很少超過50%

最近，提出PlanBench團隊又測試了一下最新的o1-preview模型，發現雖然o1的結果已經表現出了實質性改進，但仍然存在很大的局限性，不能完全解決規劃任務。

論文地址：https://arxiv.org/abs/2409.13373

論文地址：https://arxiv.org/abs/2409.13373

在Blocksworld任務上，o1實現了97.8%的準確率，遠遠優於LLaMA 3.1 405B之前達到的最好成績62.6%。

在更具挑戰性的任務版本Mystery Blocksworld上，之前的LLM幾乎完全失敗，而o1達到了52.8%的準確率。

此外，為了排除o1的性能提升源於訓練數據中包含基準測試，研究人員還創建了Mystery Blocksworld的隨機變體進行測試（表2中的Randomized Mystery Blocksworld）。

o1在隨機變體測試集上的成績從52.8%下降至37.3%，但依舊超過得分接近於0的之前其他模型。

雖然o1和o1-mini都取得了不錯的成績，但性能並不穩健。隨著任務逐漸複雜、計劃步驟增加，性能會出現直線下降。

在這組含有110個實例的較大Blocksworld數據集上，每個問題都需要20～40個步驟的最佳計劃，而o1的準確率從之前報告的97.8%直接下降至23.6%，而且這些準確率大部分都來自步驟少於28的問題。

相比準確性更高、成本更低的傳統方法，如經典規劃器Fast Downward或LLM-Modulo系統，o1這樣的大型推理模型（LRM）非常缺乏正確性保證，而且使得可解釋性幾乎不可能，因此很難在實際應用中部署。

o1雖強，但絕不是萬能的。OpenAI想要真正實現AGI，還需要走很長一段路。

參考資料：

https://the-decoder.com/openais-o1-probably-does-more-than-just-elaborate-step-by-step-prompting/

https://x.com/EpochAIResearch/status/1838720157545648315

https://the-decoder.com/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations/

本文來自微信公眾號「新智元」，編輯：編輯部 HXY ，36氪經授權發佈。