強化學習上大分！清華團隊訓練出數學推理超越 GPT-4o 的 7B 模型

作者 | PRIME 團隊

OpenAI o1 和 o3 模型的發佈證明了強化學習能夠讓大模型擁有像人一樣的快速迭代試錯、深度思考的高階推理能力，在基於模仿學習的 Scaling Law 逐漸受到質疑的今天，基於探索的強化學習有望帶來新的 Scaling Law。

近日，清華大學 NLP 實驗室聯合上海 AI Lab，清華大學電子系及 OpenBMB 社區提出一種新的結合過程獎勵的強化學習方法——PRIME（Process Reinforcement through IMplicit REwards），採用 PRIME 方法，研究人員不依賴任何蒸餾數據和模仿學習，僅用 8 張 A100，花費一萬塊錢左右，不到 10 天時間，就能高效訓練出一個數學能力超過 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。

具體而言，研究人員利用 Qwen2.5-Math-7B-Base 作為基座模型，訓練出了新模型 Eurus-2-7B-PRIME ，並在美國 IMO 選拔考試 AIME 2024 上的準確率達到 26.7%，大幅超越 GPT-4o，Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct，且僅使用了 Qwen Math 數據的 1/10。其中，強化學習方法 PRIME 為模型帶來了 16.7% 的絕對提升，遠超已知的任何開源方案。

該項目一經開源就在海外 AI 社區爆火，短短幾天 GitHub 取得 300+ star。

未來，基於 PRIME 方法和更強的基座模型有潛力訓練出接近 OpenAI o1 的模型。

Blog 鏈接：https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f

GitHub 鏈接：https://github.com/PRIME-RL/PRIME

PRIME 方法介紹

長久以來，開源社區嚴重依賴數據驅動的模仿學習來增強模型推理能力，但這種方法的局限也顯而易見——更強的推理能力需要更高質量的數據，但高質量數據總是稀缺，使得模仿和蒸餾難以持續。雖然 OpenAI o1 和 o3 的成功證明了強化學習有著更高的上限，但強化學習有著兩個關鍵挑戰：（1）如何獲得精準且可擴展的密集獎勵；（2）如何設計可以充分利用這些獎勵的強化學習算法。

PRIME 算法從隱式過程獎勵（implicit process reward）的思想出發解決這兩個問題。隱式過程獎勵模型可以僅在輸出獎勵模型（outcome reward model, ORM）的數據，即答案的最終對錯上進行訓練，而隱式地建模過程獎勵，最終自動訓練出一個過程獎勵模型，這整個過程都有嚴格的理論保證。

詳細推導見：https://huggingface.co/papers/2412.01981