單靠推理Scaling Law無法成就o1,無限推理token,GPT-4o依然完敗

【導讀】o1的秘訣,和全新的「推理Scaling Law」關係有多大?Epoch AI最近的對比實驗表明,算法創新才是關鍵。

CoT鑄就了o1推理王者。 

它開創了一種推理scaling新範式——隨著算力增加、更長響應時間,o1性能也隨之增長。 

這一點,為AI scaling開闢了新的可能性。 

既然如此,若是將o1這一訓練過程直接應用到所有LLM中,豈不皆是「推理王者」。 

然而,研究機構Epoch AI發現,結果並不是這樣的。 

單純的擴展推理計算,根本不能彌合o1-preview和GPT-4o之間的差距。

他們稱,「雖然o1使用了逐步推理方法訓練,但其性能改進,可能還存在其他的因素」。 

o1的秘訣是什麼?

上週,在o1-preview和o1-mini發佈之後,Epoch AI研究人員開啟了GPT-4o和o1-preview對比實驗。 

他們選擇了一個具有挑戰性的基準測試GPQA進行評估,其中包含STEM領域研究生級別的多項選擇題,而且考慮到模型的隨機性進行了多次運行。 

結果發現o1-preview的性能遠遠好於GPT-4o,比Claude 3.5 Sonnet、Llama3.1 405B也拉開了相當大的差距。 

這個結果也和OpenAI自己放出的測試結果相吻合,尤其是在AIME和Codeforces這類難度更高的基準上,o1-preview相比GPT-4o的提升更加明顯。 

然而,考慮到o1模型相比GPT-4o使用了更多的推理時計算,而且每個問題生成的token也更多,這種比較顯得不太公平。 

因此,研究人員使用了兩種方法嘗試增加GPT-4o的輸出token,類似於讓GPT-4o模仿o1的思考過程。 

– 多數投票(majority voting):選擇k個推理軌跡中最常見的答案 

– 修正(revision):給模型n次反思和改進答案的機會 

值得注意的是,這些都是相對簡單的方法。其實存在更複雜、有效的方法來利用推理時間計算,比如讓過程獎勵模型作為驗證器參與搜索。 

o1模型很可能使用了更複雜的方法,但Epoch研究人員只是想建立一個比較基線,因此選擇了較為基礎的方法。 

結果顯示,雖然這兩種方法都生成了更多的token,並提高了GPT-4o的準確性,但依舊無法匹敵o1-preview的性能。 

GPT-4o變體的準確率仍然顯著低於o1-preview,差距始終大於10個百分點。 

與o1-preview相比,輸出token數量對GPT-4o在GPQA上性能的影響 

即使考慮到o1-preview每個輸出token的成本更高,這種性能差距仍然存在。 

Epoch AI團隊的推算結果表明,即使在GPT-4o上花費1000美元用於輸出token,準確率仍將比o1-preview低10多個百分點。 

對GPT-4o mini進行相同操作後也能得到類似的結果,但在進行模型修正後,結果存在一些差異。 

隨著修正次數的增加,模型準確性不會持續提升,反而會在到達一定閾值後開始下降。這可能是由於GPT-4o mini在長上下文推理方面的局限。 

從以上結果可以看出,僅僅擴大推理處理能力並不足以解釋o1的卓越性能。 

研究作者認為,先進的強化學習技術和改進的搜索方法可能發揮了關鍵作用,凸顯了在Scaling Law之外,算法創新對AI發展的重要性。 

但是,我們也並不能確定算法改進是o1-preview優於GPT-4o的唯一因素,更高質量的訓練數據也可能導致性能差異。 

推理很強的o1,差在規劃能力

雖然GPQA或AIME這類問題相當困難,但一般只會考察模型的在STEM領域的知識儲備和推理能力。那麼強如o1,它的規劃能力如何? 

2022年,亞利桑那州大學的學者們曾經提出過一個用於評測LLM規劃能力的基準套件PlanBench,包括了來自Blocksworld領域的600個任務,要求將一定數量的積木按照指定順序堆疊起來。 

在MMLU、GSM8K等傳統基準相繼飽和時,兩年前提出的PlanBench依舊沒有飽和,可見當今的LLM在規劃能力方面依舊有很大的提升空間。 

o1之前的模型中,PlanBench準確率很少超過50%o1之前的模型中,PlanBench準確率很少超過50%

最近,提出PlanBench團隊又測試了一下最新的o1-preview模型,發現雖然o1的結果已經表現出了實質性改進,但仍然存在很大的局限性,不能完全解決規劃任務。 

論文地址:https://arxiv.org/abs/2409.13373 論文地址:https://arxiv.org/abs/2409.13373 

在Blocksworld任務上,o1實現了97.8%的準確率,遠遠優於LLaMA 3.1 405B之前達到的最好成績62.6%。 

在更具挑戰性的任務版本Mystery Blocksworld上,之前的LLM幾乎完全失敗,而o1達到了52.8%的準確率。 

此外,為了排除o1的性能提升源於訓練數據中包含基準測試,研究人員還創建了Mystery Blocksworld的隨機變體進行測試(表2中的Randomized Mystery Blocksworld)。 

o1在隨機變體測試集上的成績從52.8%下降至37.3%,但依舊超過得分接近於0的之前其他模型。 

雖然o1和o1-mini都取得了不錯的成績,但性能並不穩健。隨著任務逐漸複雜、計劃步驟增加,性能會出現直線下降。 

在這組含有110個實例的較大Blocksworld數據集上,每個問題都需要20~40個步驟的最佳計劃,而o1的準確率從之前報告的97.8%直接下降至23.6%,而且這些準確率大部分都來自步驟少於28的問題。 

相比準確性更高、成本更低的傳統方法,如經典規劃器Fast Downward或LLM-Modulo系統,o1這樣的大型推理模型(LRM)非常缺乏正確性保證,而且使得可解釋性幾乎不可能,因此很難在實際應用中部署。 

o1雖強,但絕不是萬能的。OpenAI想要真正實現AGI,還需要走很長一段路。 

參考資料: 

https://the-decoder.com/openais-o1-probably-does-more-than-just-elaborate-step-by-step-prompting/ 

https://x.com/EpochAIResearch/status/1838720157545648315 

https://the-decoder.com/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations/ 

本文來自微信公眾號「新智元」,編輯:編輯部 HXY ,36氪經授權發佈。