科技

最強32B中文推理大模型易主：開源免費商用，1/20 DeepSeek-R1參數量SOTA，權重代碼數據集全開源

04月13日 20:54 新浪網 tech-auto-hilite

明敏發自凹非寺

量子位 | 公眾號 QbitAI

千億參數內最強推理大模型，剛剛易主了。

32B——DeepSeek-R1的1/20參數量；免費商用；且全面開源——模型權重、訓練數據集和完整訓練代碼，都開源了。

這就是剛剛亮相的Skywork-OR1 (Open Reasoner 1)系列模型——

通用32B尺寸（Skywork-OR1-32B）完全超越同規模阿里QwQ-32B；代碼生成媲美DeepSeek-R1，但性價比更高。

△Skywork-OR1-32B-Preview

數學推理方面：7B、32B都達到同規模最優，數學專項模型（Skywork-OR1-Math-7B）表現更突出。

Skywork，天工是也，來自AIGC巨頭玩家崑崙萬維。

Skywork-OR1系列模型現已全面開源，模型權重、訓練數據集和完整訓練代碼，所有資源均已上傳至GitHub和Huggingface平台。配套的技術博客已發佈於Notion平台，詳細闡述了數據處理流程、訓練方法和關鍵技術發現，為社區提供了完全可複現的實踐參考。

Skywork-OR1系列開源地址：https://github.com/SkyworkAI/Skywork-OR1 （包含模型，代碼，數據）

崑崙萬維天工團隊更多開源項目：https://huggingface.co/Skywork

目前Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續提升，在兩週內會發佈兩個模型的正式版本，同時也會推出更為系統詳盡的技術報告，分享推理模型訓練中的經驗與洞察。

3款模型全量開源

Skywork-OR1 (Open Reasoner 1) 系列開源共有3款模型：

Skywork-OR1-Math-7B：專注數學領域的專項模型，同時也具有較強的代碼能力。
Skywork-OR1-7B-Preview：融合數學與代碼能力，兼顧通用與專業性
Skywork-OR1-32B-Preview：面向高複雜度任務、具備更強推理能力的旗艦版本

團隊對比了Skywork-OR1系列在AIME24、AIME25、LiveCodeBench上的表現。

AIME24/25是美國數學邀請賽基準測試，LiveCodeBench主要評估大語言模型代碼生成和編程能力。

在評測方面，Skywork-OR1系列模型引入avg@k作為核心評估指標，用於衡量模型在進行k次嘗試時成功解決問題的平均表現。

傳統的pass@k指標僅關注「至少一次成功」，相對而言avg@k更關注模型的穩定性和整體推理能力，為模型實際落地提供更全面真實的參考。

在數學方面，通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24與AIME25數據集上均實現了同參數規模下最優表現，32B整體表現基本與DeepSeek-R1齊平。

編程方面，通用模型Skywork-OR1-7B-Preview與Skywork-OR1-32B-Preview在LiveCodeBench上均取得了同等參數規模下的最優性能。

整體而言，Skywork-OR1-32B-Preview甚至與DeepSeek-R1的差距非常微小。要知道後者的參數規模是前者的20倍，這意味著Skywork-OR1能帶來更具性價比的性能表現。

由此綜合來看，Skywork-OR1-32B-Preview成為當前同規模最強中文推理模型，也是現役支持免費商用的模型中最強且最具性價比的成員之一。

此外，數學專項模型Skywork-OR1-Math-7B在AIME24/25的表現遠超當前主流7B級模型，甚至接近蒸餾版Deepseek-32B模型同等水平（DeepSeek-R1-Distill-Qwen-32B）。

如下為該模型在AIME24上的訓練準確率曲線。

最終模型在AIME24和AIME25上分別達到69.8%和52.3%，超越了OpenAI-o3-mini (low)，達到了當前尺寸SOTA性能。與此同時，該專項模型在代碼領域也表現出了較好的泛化性（訓練後，Livecodebench從37.6%提升到43.6%）。

△OpenAI-o3-mini(low)的AIME24分數來自官網，AIME25分數來自評測網站https://matharena.ai/

去年11月，崑崙萬維發佈國內首款中文複雜推理模型Skywork-o1，Skywork-OR1系列模型正是在此基礎上迭代而來。

不同於簡單複刻OpenAI o1模型，Skywork-o1內生出了思考、計劃、反思等能力。它共包括三款模型Skywork-o1-Open、SI’m kywork-o1-Lite和Skywork-o1-Preview，分別適用於不同的應用場景，可以滿足開源到高性能推理的多樣化需求。

Skywork-OR1系列站在Skywork-o1的肩膀上有了更強基座，但想要如此強大，也離不開一系列先進技術加持。

背後秘訣：AGI技術洞藏，訓練效率提升50%

Skywork-OR1在數據處理、訓練策略等方面都做了進一步創新。

首先在數據方面。

為提升模型在數學和代碼方面能力，Skywork-OR1構建了一個高質量數學和代碼數據集。

團隊設計了三個標準進行數據篩選：可驗證性（Verifiable）、正確性（Correct）與挑戰性（Challenging），剔除無法自動驗證的證明類題目、有誤題目、和缺少unit test的代碼問題。

數學領域共計收集11萬道題目，主要依賴NuminaMath-1.5（含約89.6萬題），選用如AIME和Olympiads等較難子集，並補充了如DeepScaleR、Omni-MATH、AIME 1983-2023難題來源。

代碼領域收集了13.7k條高質量代碼問題，主要以LeetCode和TACO數據為主，保留了單元測試完整、驗證通過的問題，並進行向量級語義去重。

在數據過濾部分，團隊對每道題進行了多輪采樣並驗證答案，以避免「全對」或「全錯」現象對策略學習無效——模型生成全部錯誤，無法提供有效的學習信號；「全對」意味著模型已完全掌握，繼續學習會浪費計算資源。

並通過人類審核結合LLM自動判題機制，對語義不清、信息不全、格式錯誤或含有無關內容的項目進行清理。使用LLM-as-a-Judge剔除掉約1-2K道質量不達標的數學題。

其次在強化學習部分，Skywork-OR1使用GRPO（Group Relative Policy Optimization）進行訓練，並引入一系列優化策略。

在訓練時數據優化上，一方面採用雙重過濾策略：

離線過濾：訓練前使用待訓練模型評估數據，剔除正確率為0或1的樣本；
在線過濾：每個epoch動態移除上一輪已完全掌握的數據，確保模型持續面對有挑戰性的內容。

另一方面使用拒絕采樣（Rejection Sampling）進行更精細的實時篩選，在每個訓練步驟中動態剔除當前訓練步中采樣正確率為0或1的樣本。這樣可以維持policy loss、entropy loss和KL loss的合理比例，防止非policy loss比重異常增加導致的訓練不穩定。

在訓練Pipeline優化上主要做了兩方面的探索。

（1）多階段訓練（Multi Stage Training）：從小窗口開始，逐步增加上下文長度(seq_len)，可以促使模型在有限token內高效完成任務；隨後逐步擴展窗口大小，迭代增加生成長度，使模型逐漸掌握更複雜的長鏈思維能力。實驗證明，多階段訓練能顯著縮短訓練時間，同時完全保持模型的長度擴展能力。

（2）截斷優勢掩碼（Truncated Advantage Mask）：在多階段訓練初期，由於上下文窗口限制，複雜問題的回答可能被截斷。因此團隊研究了兩種處理窗口限制下截斷樣本的策略Adv-Mask Before（計算優勢前排除截斷樣本）和Adv-Mask After（計算後將截斷樣本優勢置零）。證明即使不屏蔽截斷樣本，模型也能有效適應並迅速提升性能，也證明多階段訓練框架的魯棒性。

此外，在強化學習訓練中還要保障模型的探索能力。

團隊進行了三方面探索。

第一，高溫度采樣。採用τ=1.0（高於常見的0.6）維持更高群組內多樣性，既保證足夠正確樣本提供學習信號，又允許模型探索更廣泛解決路徑。

第二，提升內在訓練多樣性。通過精細數據過濾、增加批量大小和減少數據重覆使用，可以從源頭上防止模型過早優化到單一輸出方向，同時也保持較高熵值，避免局部最優。

第三，自適應熵控制。只有在熵值低於閾值時才提供熵增加鼓勵，設定目標熵值並動態調整損失係數，同時最小化對正常訓練軌跡的干擾。

最後在保障強化學習訓練的穩定性，團隊對損失函數進行優化。

第一，移除KL損失。研究中發現即使基於高質量SFT模型訓練，KL損失仍限制性能提升。因此，除特定階段外，團隊在所有公開發佈的Skywork-OR1系列模型中均未使用KL損失項，這使模型能夠更充分地探索和優化推理能力。

第二，token級策略損失。移除了策略損失中的長度歸一化項，並將損失在訓練批次內的所有token上進行平均，以提升優化過程的一致性與穩定性。

（更多技術細節和實驗對比可以參照技術博客https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680，或繼續關注後續發佈的技術報告。）

在此訓練策略下，Skywork-OR1-7B和Skywork-OR1-32B-Preview通用推理模型仍處於持續提升狀態，本次開源是當前訓練過程中性能最佳的checkpoint。

預計兩週後，具備更全面能力提升及更強大推理能力的Skywork-OR1正式版本將與大家見面，同樣全面開源。

Hugging Face單月下載量超7萬