完全開源的7B模型,性能比肩主流LLM,訓練成本僅16萬美元,複現DeepSeek的強化學習!

責編 |夢依丹

自從 GPT-3 橫空出世,生成式 AI 徹底點燃了全球科技圈:

  • GPT-4、Claude 3、Gemini、DeepSeek,不斷刷新智能上限

  • 生成文字、代碼、圖像,跨模態進步一日千里

  • 各行各業爭相擁抱大語言模型(LLMs),新的創業潮洶湧而來

儘管 LLMs 如 GPT-4、Claude 等展現了驚人的能力,但閉源模型的閉源特性讓研究者難以深入理解其運作機制,同時開源模型的開放程度有限:

  • 絕大多數頂尖模型閉源,僅限 API 調用

  • 商業化受限,API 費用高昂,且隨時可能漲價

  • 數據隱私、合規性問題難以把控

  • 對於開源模型,往往只公開模型權重,而關鍵的訓練代碼、數據集和配置卻被隱藏,這嚴重阻礙了學術研究和商業化應用

Moxin-7B:從預訓練到強化學習,全面透明的 AI 革新

Moxin-7B 的誕生,正是為瞭解決這一問題! 它由來自東北大學、哈佛、康奈爾等機構的研究團隊聯合開發,完全遵循「開源科學」原則,公開了從數據清洗到強化學習的全流程細節,從預訓練到 DeepSeek 同款強化學習,成為目前透明度最高的開源 LLM 之一。

Moxin-7B 的開源貢獻

  • Moxin-7B-Base 權重、預訓練數據與代碼

  • Moxin-7B-Instruct 權重、SFT 與 DPO 的訓練數據與代碼

  • Moxin-7B-Reasoning 權重、GRPO 的訓練數據與代碼

Moxin-7B 的三大核心突破

1. 真正的「開源科學」:從數據到模型的全透明

  • 完整公開:包括預訓練代碼、超參數配置、數據處理腳本、SFT/RLHF 訓練框架,權重等等。

  • 數據集透明:

預訓練數據:基於高質量語料庫 SlimPajama(627B tokens)和 DCLM-BASELINE,經過嚴格去重和過濾。

指令微調數據:使用 Tulu 3 和 Infinity Instruct,涵蓋數學、代碼、科學文獻等多領域任務。

強化學習數據:採用 OpenThoughts 和 OpenR1-Math-220k,通過 DeepSeek R1 生成的高質量數學推理數據。

2. 高性能低成本:小模型的大能量

  • 訓練成本僅 16 萬美元(對比:GPT-3 訓練成本約 460 萬美元)。

  • 評測表現亮眼:

零樣本任務:在 ARC-C(AI2推理挑戰)上達到 58.64%,超越 LLaMA 3.1-8B(53.67%)和 Qwen2-7B(50.09%)。

數學推理:經過 RL 微調後,在 MATH-500 上準確率 68%,超越 70B 參數的Llama-3-Instruct 模型(64.6%)。

長上下文支持:通過滑動窗口注意力(SWA)和分組查詢注意力(GQA),高效處理 32K 長文本。

3. 技術創新:從架構到訓練策略

  • 模型架構:基於 Mistral-7B 改進,深度擴展至 36 層,採用預層歸一化和混合精度訓練,提升穩定性。

  • 後訓練優化:

指令微調(SFT):使用 Tulu 3 框架,在 939K 指令數據上訓練,增強多任務能力。

偏好優化(DPO):通過 LLM-as-a-judge 標註的偏好數據,讓模型輸出更符合人類價值觀。

  • 強化學習(RL):

採用 GRPO 算法(類似 DeepSeek R1),僅用 7B 參數即可實現高效推理。

訓練框架 DeepScaleR 和 AReal 均開源,支持社區複現。

體現出強化學習對 7B 規模的小模型也有效果。

技術細節大揭秘:打造強力 7B 模型的秘密

1. 基礎架構:在 Mistral-7B 上全面增強

  • 36層 Transformer(比原版 Mistral-7B 的32層更深)

  • 4096維隱藏層,32個Attention頭

  • GQA(Grouped Query Attention)+ SWA(Sliding Window Attention),支持32K上下文處理,且推理速度更快、內存佔用更低

  • 混合精度訓練(FP16)+ 激活檢查點(Activation Checkpointing),顯著減少訓練顯存開銷

  • 採用「滾動緩存機制」,在超長文本推理時,將注意力存儲限制在固定窗口,既保持推理質量,又避免顯存爆炸

2. 數據策略:質量遠勝普通爬蟲數據

Moxin-7B 使用了極為精細的數據篩選流程:

  • 文本數據:SlimPajama + DCLM-Baseline

去除短文本、低質量、重覆網頁,提升語料乾淨度

基於 MinHash-LSH 技術做跨域去重,相似度閾值控制在 0.8 以內

清洗後僅保留約 627B Token(RedPajama 原版的 49% 大小),但信息密度更高

  • 代碼數據:The Stack-dedup

6TB 開源許可代碼,涵蓋 358 種語言

進一步近似去重,避免重覆訓練,移除 40% 以上重覆或近重覆代碼片段

助力模型在編碼理解、代碼生成任務上有優異表現,提升推理能力

  • 推理/數學增強數據:

採用高質量公開數據

集中提升推理、數學、常識問答等方面能力

3. 訓練過程:高效且可控

  • 三階段預訓練策略:

1.基礎階段(2K context)

2.長上下文階段(4K context)

3.能力強化階段

  • 使用 Colossal-AI 進行訓練加速:

1.混合併行(Data Parallelism + Model Parallelism)

2.ZeRO 優化(減少冗餘存儲)

3.混合精度訓練

4.動態調度、異步通信加速

  • 訓練成本僅約 16 萬美元!

1.為小型研究團隊/企業提供了現實範例

4. 微調與強化學習:能力全面拉滿!

預訓練結束後,Moxin 團隊採用雙路線後期優化:

  • 指令微調(SFT+DPO)

採用 open-instruct 開源框架

基於Tülu 3和Infinity Instruct數據集,採用多源指令數據(如CoCoNot, OpenMathInstruct, Evol-CodeAlpaca等)

使用 DPO(Direct Preference Optimization)進一步對齊人類偏好

結果:生成回答更流暢、理解指令更準確

  • 推理強化(CoT + GRPO)

使用高質量鏈式推理數據(OpenThoughts、OpenR1-Math等)進行微調

引入 GRPO 強化學習,提升複雜推理/數學答題能力

採用開源訓練框架 DeepScaleR,支持社區複現

結果:Moxin Reasoning 模型,在數學推理能力上表現卓越

5.Moxin vs. 主流模型:實測對比

  • Base 模型

Zero-shot 測試

表中 Moxin-7B-Enhanced 即為 Moxin-7B-Base 模型,可以觀察到,相比於其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等,Moxin-7B-Base 表現出強勁性能。   

  • Few-shot 測試    

表中 Moxin-7B-Enhanced 即為 Moxin-7B-Base 模型,可以觀察到,相比於其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等,Moxin-7B-Base 表現出強勁性能。   

  • Instruct 模型

表中Moxin-7B-DPO即為Moxin-7B-Instrcut模型,可以觀察到,相比於其他Instruct模型如Qwen2.5-7B-Instruct,Moxin-7B-Instruct表現亮眼。

  • Reasoning 模型        

相比於其他baselines如Qwen2.7-Math-7B-Base,Moxin-7B-Reasoning表現突出,體現出強化學習對7B規模的小模型也有效果。

結語:開源的力量

Moxin-7B 證明了一點:高性能 LLM 不必是黑箱。它的全透明策略不僅降低了研究門檻,還為中小企業提供了可控的AI解決方案。Moxin-7B 的開源貢獻:

  • Moxin-7B-Base 權重、預訓練數據與代碼

  • Moxin-7B-Instruct 權重、SFT 與 DPO 的訓練數據與代碼

  • Moxin-7B-Reasoning 權重、GRPO 的訓練數據與代碼

立即體驗:

  • GitHub:github.com/moxin-org/Moxin-LLM

  • HuggingFace:huggingface.co/moxin-org