解碼DeepSeek創新之道:三代模型演進路線圖

DeepSeek R1是AI領域里程碑創新。

作者 |  祖楠

從整體上看,DeepSeek演進了三代模型:

DeepSeek-LLM(V1)完善了全棧框架,主要follow LLaMA;

DeepSeek V2完善了DeepSeek整個創新的模型架構,包括MLA和DeepSeekMoE,以及後訓練RL採用的GRPO;

DeepSeek V3在V2模型架構的基礎上,解決了如何通過全棧協同訓練更大規模的MoE模型,模型能力達到頭部大模型水平;

DeepSeek R1是AI領域里程碑創新,Aha Moment為下一代智能指出了一條路徑。

文章來源:黃大年茶思屋科技網站

01.

DeepSeek-LLM (V1)

1. 高質量數據的構建:構建了一個包含約2萬億tokens的多語言數據集,主要涵蓋中文和英文。通過數據去重、過濾和重混(remixing)三個階段,確保數據多樣性和高質量。

2. 模型架構借鑒LLaMA:模型在總體上借鑒了LLaMA的設計,但在細節上進行了調整。例如,7B模型採用30層網絡,而67B模型採用95層網絡,同時在部分模塊(如注意力機制中採用了Grouped-Query Attention以降低推理成本)上有所不同。

3. 超參數設置:討論了批次大小和學習率與模型規模之間的關係,並提出了基於大規模實驗的多步學習率衰減策略。與傳統的餘弦調度器相比,這種策略不僅能保證性能,還方便模型的持續訓練。

4. Scaling Laws研究:重新審視了模型規模和數據規模的擴展定律,提出了基於「非嵌入FLOPs/token」的新模型規模表示方法,並通過IsoFLOP分析得出最優的模型與數據擴展分配策略。發現不同數據集之間的質量差異會對擴展定律產生明顯影響,高質量數據更有助於訓練更大規模的模型。

5. 自研完善基礎infrastructure:基於HAI-LLM的輕量級訓練框架,集成了數據並行、張量並行、序列並行和流水線並行等多種技術,並利用Flash Attention和ZeRO-1技術進一步提升硬件利用率和訓練效率。

6. 完善了pretraining和alignment(SFT+DPO)策略,證明SFT和DPO提升模型性能都是有效的。

7. 完善evaluation數據和框架,構建並強化了safety evaluation整體策略。

整體來講,DeepSeek V1搭建了大模型的全棧技術框架,主要以解決開源工作為主,模型架構創新很少,infrastructure層自研創新很多,完善了大模型架構設計策略,超參數策略,alignment及evaluation。

02.

DeepSeekMath

1. 數學領域大規模預訓練語料的構建策略:提出了一套迭代式數據採集流程,用於從Common Crawl中提取數學相關內容。利用OpenWebMath作為種子數據,首先使用fastText分類器進行初步篩選,再通過域劃分和人工標註擴充種子數據,從而不斷優化分類器,最終構建出包含約120B數學tokens的DeepSeekMath Corpus。與現有數學預訓練語料(如MathPile、OpenWebMath、Proof-Pile-2)相比,該語料庫規模更大、質量更高,並且具有多語言(主要是英語和中文)覆蓋能力。

2. 預訓練模型策略:基於選用DeepSeek-Coder-Base-v1.5 7B作為預訓練起點,證明先進行代碼預訓練可以顯著提升模型的數學推理能力。實驗結果顯示,在數學預訓練後,即使模型參數量較小(7B),其數學問題解決能力已接近甚至超越某些大規模閉源模型(如Minerva 540B)。

3. 創新的強化學習算法GRPO(重要原創創新):Group Relative Policy Optimization (GRPO) 作為Proximal Policy Optimization (PPO) 的變體,取消了對critic模型的依賴,而是通過「組內評分」來估計基線,從而大幅降低了訓練時的內存消耗和計算資源。該方法在數學指令調優階段得到了顯著提升,在同一數據條件下,通過GRPO進一步提高了模型在各類數學基準(如GSM8K、MATH以及其他外域數學任務)的表現。

4. 同時討論了Rejection Sampling Fine-Tuning (RFT)、Direct Preference Optimization (DPO)和PPO等方法歸納為直接或簡化的強化學習技術,系統探討了在線與離線訓練、結果與過程監督以及單回合與迭代強化學習等關鍵因素,這為後續V3和R1的訓練奠定了很強的理論和數據基礎。

總結,DeepSeekMath的探索為R1奠定了很強的理論和數據基礎,關鍵原創創新有兩點

1. 大規模高質量數學語料構建:通過精心設計的數據篩選流水線和多次迭代,構建出遠超現有資源的120B tokens數學語料,為數學預訓練奠定了堅實基礎。

2. GRPO強化學習算法:提出了取消critic模型的GRPO,通過組內評分來優化訓練,既提高了數學指令調優階段的效率,又降低了內存和計算資源的消耗,從而在數學基準上取得了領先表現。

03.

DeepSeek V2

1. 高質量數據:DeepSeek V2繼續做了大量工作以構建高質量的訓練數據提升到8.1T tokens。

2. 提出了核心架構創新MLA和DeepSeekMoE

(1)Multi-head Latent Attention (MLA) 的發明核心是為瞭解決KV緩存瓶頸:MLA通過對Key與Value進行低秩聯合壓縮,將高維表示映射到一個較低維的潛在空間中,再在推理階段通過上投影恢復所需維度。這樣既能大幅減少存儲KV緩存所需的內存,又能保留足夠的信息用於準確的注意力計算。採用MLA後,模型在保持甚至超過傳統MHA性能的同時,其KV緩存量顯著降低,從而大幅提升了推理效率,允許更大批量和更長序列的處理。

(2)DeepSeekMoE架構的發明核心在探索MoE的極限:現有的MoE架構(如GShard)在專家劃分上往往較為粗粒度,容易導致知識冗餘;同時,在專家選擇和負載均衡方面存在分佈不均、通信開銷過高等問題,這些問題都會增加訓練成本和不穩定性。

  • 細粒度專家劃分:DeepSeekMoE對專家進行更細緻的分割,使每個專家在特定領域或任務上更專精,從而提高知識獲取的準確性和效率。

  • 共享專家隔離:同時設計了一部分共享專家,用於捕捉通用知識,避免各個路由專家之間的重覆計算(知識冗餘),實現更合理的專家職責分配。

  • 專家並行與負載均衡機制:在訓練時採用專家並行策略,並引入輔助損失(包括專家級、設備級和通信級平衡損失)以及token-dropping策略,確保每個專家的負載相對均衡,控制跨設備通信開銷,從而降低訓練成本並提升整體訓練效率。

3. 引入DeepSeekMath的GRPO策略後,通過RL訓練DeepSeek V2 Chat策略,證明模型性能得到有效提升。

總結,DeepSeek-V2通過在Transformer架構中引入MLA和DeepSeekMoE兩項關鍵創新,有效解決了傳統模型在大規模預訓練和長序列推理過程中面臨的內存和計算瓶頸問題,同時在保證高性能的前提下實現了更經濟、更高效的訓練與推理。這兩個創新為後續V3和R1沿用

04.

DeepSeek V3創新點

1. 數據:持續構建高質量的訓練數據,提升到14.8T tokens。

2. DeepSeek V3架構沿用V2的MLA和DeepSeekMoE,又提出了兩個小的創新點用於提升模型性能:

  • auxiliary-loss-free strategy for load balancing:對於每個專家,在路由時為其加上一個偏置項(僅用於路由選擇),在訓練過程中根據當前專家是否過載進行動態調整(增加或減少偏置),這一策略保持專家負載均衡而不引入額外損失,從而不會對模型性能造成明顯干擾,同時節點限制路由確保在專家並行時跨設備通信最小化,使得大規模MoE模型訓練更穩定、高效。

  • Multi-Token Prediction (MTP) :引入了MTP模塊和相應訓練目標,既能提升模型預測精度,也可用於推理時的speculative decoding,從而加速生成過程。

3. 提出一系列創新點,核心為瞭解決怎麼在受限硬件上訓練更大規模的MoE模型:

  • 首創FP8 Mixed Precision Training Framework:首次在極大規模模型上引入並驗證了FP8混合精度訓練框架。通過支持FP8運算和存儲實現了訓練加速和減少內存佔用。

  • 訓練框架優化:DualPipe算法實現流水線並行,減少流水線空泡實現了計算與通信重疊;開發了專門的跨節點All-to-All通信內核,以充分利用InfiniBand (IB) 和NVLink的帶寬,從而確保各節點之間的數據交換高效且低延遲。

4. 兩階段訓練的上下文擴展策略:pre-traning後通過兩階段的訓練策略將上下文擴展到128K。

5. 後訓練蒸餾DeepSeek-R1提升V3推理能力,經過DeepSeek-R1蒸餾的數據能顯著提升模型在LiveCodeBench和MATH-500兩個基準測試中的Pass@1指標,知識蒸餾雖然能夠提升模型性能,但同時也會大幅增加平均響應長度。

6. DeepSeek-V3可以作為生成式獎勵模型:

  • DeepSeek-V3在RewardBench上的表現與最優版本的GPT-4o-0806和Claude-3.5-Sonnet-1022相當,甚至超過了其他版本的表現,這表明其判斷能力非常出色。

  • DeepSeek-V3探討了self-rewarding策略,通過模型自身的投票評估結果來生成獎勵信號,實現自我優化。這種方法不僅提高了模型的對齊效果,還為未來在更廣泛任務中的獎勵機制設計提供了新的思路。

05.

R1創新點

1. R1的目標是完全通過無標註的數據進行推理能力的訓練,最終希望實現模型的自我進化。

2. Reasoning領域里程碑R1-Zero:R1-Zero直接將強化學習應用於基礎模型,使得模型能夠使用思維鏈(CoT)來解決複雜問題,模型也展現了自我驗證、反思和生成長思維鏈等能力。這是業界首個公開研究證明了無需使用SFT,僅僅通過RL就可以顯著增強LLM的推理能力,是Reasoning領域的里程碑性工作。

  • 強化學習使用DeepSeekMath中提出的GRPO策略。

  • Reward Modeling:1) Accuracy Reward:usually rule based model,2)Format reward:強製模型生成CoT過程。Aha Moment of R1-Zero:在RL訓練過程中會出現Aha moment,模型突然「恍然大悟」,並分配更多的思考時間重新考慮初始條件策略,這說明了通過提供正確的激勵,模型可以自主發展出先進的解決問題的策略。「Aha Moment」是通過強化學習,解鎖下一層LLM智能的可能路徑。

3. DeepSeek-R1:為瞭解決R1-Zero生成結果可讀性差和語言混合的問題,通過在冷啟動階段加入推理數據做SFT的方法訓練了R1,解決了R1-Zero的問題。

06.

V3和R1的相互促進

1. R1是基於V3-Base模型開發的。

2. V3在post training環節使用了R1產生的高質量推理數據,顯著提升了V3模型的推理能力。

3. V3在post training環節同樣使用了和R1一樣的RL策略,提升推理能力並對齊人類偏好。

4. V3/R1的post training環節都使用了V3作為Reward model對非數學編程場景提供反饋。

5. Distilling R1 for V3: Distilling R1可以提升V3的推理能力,但會影響到處理一般問題的能力,增加反應長度,考慮到模型準確性和計算效率,V3主要蒸餾了R1的數學和編程能力。這個方向未來可探索空間很大,基模型和推理模型之間的邊界很淡,未來是否會融合,邁入下一層智能,值得期待

07.

DeepSeek未來發展方向

1. 持續優化模型架構:繼續研究和改進模型架構,進一步提升訓練和推理效率。未來目標之一是實現對無限上下文長度的高效支持,同時突破Transformer現有的架構局限,推動模型表達能力的邊界。

2. 提升訓練數據的數量和質量:持續迭代和擴充訓練數據,不僅要增加數據量,還要探索引入更多樣化的訓練信號,從多個維度推動數據規模的提升,從而進一步提高模型性能和泛化能力。

3. 增強深度思考能力:針對模型的深度推理和問題解決能力,將進一步研究如何擴展模型的推理長度和深度,以增強模型在複雜認知任務中的智能表現和問題求解能力。

4. 開發多維度綜合評測方法:探索更加全面、多維度的模型評估方法,避免僅針對固定基準進行優化,防止對模型能力產生誤導性的評估。通過多角度考量模型在各類任務和實際應用中的表現,確保對模型能力有更為準確和客觀的基礎性評估。