DeepSeek 模型綜述:V1 V2 V3 R1-Zero
來源 | 專知
1. 引言
隨著人工智能(AI)技術的快速發展,大型語言模型(LLMs)在自然語言處理(NLP)、代碼生成和決策支持等領域取得了顯著進展。然而,傳統的LLMs在多步邏輯推理、抽像概念化和潛在關係推斷等方面仍存在局限性。DeepSeek AI通過計算高效的架構,如DeepSeek Mixture-of-Experts(MoE)框架,解決了這些挑戰,減少了推理成本,同時保持了性能。DeepSeek v3是一種通用LLM,優化了指令跟隨和推理能力,DeepSeek Coder專注於代碼生成和軟件工程,DeepSeek Math處理符號和定量推理,DeepSeek R1-Zero和DeepSeek R1則設計用於跨領域問題解決,且只需最少的微調。通過開源硬件無關的實現,DeepSeek拓寬了高性能AI的訪問範圍。本文綜述了DeepSeek的架構進展,比較了其與最先進LLMs的特點和局限性,並探討了其對AI研究的影響,詳細討論了未來工作的潛在方向。

2. 相關工作
近年來,AI領域的進展催生了專門優化的模型,用於推理、數學問題解決和代碼生成,補充了在文本任務中表現出色但在數學精度和結構化問題解決方面表現不佳的通用LLMs。為了彌補這些差距,AI研究越來越關注增強下一代模型的推理能力和計算效率。
2.1 OpenAI GPT
OpenAI的GPT-4於2023年3月發佈,是一種多模態模型,能夠處理文本和圖像。基於Transformer架構,GPT-4在數學推理和語言理解等任務上超越了GPT-3。GPT-4估計擁有1.8萬億參數,顯著大於GPT-3的1750億參數。GPT-4最初支持8,192個令牌(GPT-4-8K)和32,768個令牌(GPT-4-32K)的上下文窗口。2023年晚些時候,GPT-4 Turbo的推出將上下文窗口擴展到了128K個令牌。儘管GPT-4在圖像字幕生成和問題解決等任務中表現出色,但在醫學、法律或技術領域等專業領域中,模型可能會生成聽起來合理但實際上不正確或捏造的信息(幻覺)。
2.2 Claude 3.5
Claude 3.5於2024年發佈,是Anthropic語言模型家族的最新進展。基於先前版本,Claude 3.5強調安全性、對齊性和性能,在推理、語言理解和處理複雜任務(如文本和代碼生成)方面有所改進。Claude 3.5擁有約2500億參數,在準確性和倫理對齊方面優於早期模型。它支持高達200K個令牌的擴展上下文,能夠更好地處理較大的輸入。通過人類反饋強化學習(RLHF)和憲法AI的增強,Claude 3.5減少了不良響應、偏見,並更好地與人類意圖對齊。Claude 3.5在編碼和科學推理等專業領域表現出色,具有更高的透明度和倫理保障。然而,當輸入複雜或模糊且接近上下文限制時,性能可能會下降。
2.3 LLaMA 3.1
LLaMA 3.1於2024年發佈,是Meta的LLaMA(大型語言模型Meta AI)家族的最新版本,繼LLaMA 1(2022年)和LLaMA 2(2023年)之後。LLaMA 1擁有高達650億參數,而LLaMA 2則擴展到700億參數,並提供了較小的變體(7B、13B),增強了泛化和多語言能力。LLaMA 3.1進一步推進,擁有4050億參數和128K個令牌的上下文窗口,通過分組查詢注意力提高了效率。LLaMA 3.1在編碼、邏輯問題解決和低資源語言任務中表現出色。與GPT-4等封閉模型不同,LLaMA 3.1保持開放權重,可供研究和商業使用,但僅限於文本輸入。通過自動紅隊測試(模擬攻擊或從對手角度測試系統的實踐)和過濾訓練數據等安全措施,LLaMA 3.1有助於減少不良輸出。
2.4 Qwen 2.5
Qwen2於2024年6月發佈,是Qwen系列的最新版本,繼Qwen1.5(2024年2月)和原始Qwen(2023年8月)之後。Qwen1.5擁有高達720億參數的模型,強調效率和開源可訪問性,而Qwen2則擴展到1100億參數,在推理、多語言支持和編碼能力方面有所改進。Qwen2利用128K個令牌的上下文窗口,通過YaRN(上下文擴展微調)等創新實現穩定的長上下文處理。Qwen2在數學推理、代碼生成和低資源語言理解等任務中優於其前身。對齊技術包括RLHF、直接偏好優化(DPO)和精選的安全數據集,以減少不良響應。
2.5 Gemini 2.0
Gemini 2.0是Google最新的多模態LLM,基於1.0和1.5版本,提供了更強大的生成式AI能力,涵蓋文本、圖像、音頻和影片。Gemini 2.0 Flash最初作為實驗性變體引入,提供了比其前身Gemini 1.5 Flash顯著的速度和效率提升,而不會犧牲質量。它支持代理AI和原生工具使用,允許模型調用外部函數(如Google搜索和地圖)並集成流數據以擴展實時應用。通過在數學、代碼生成和多語言音頻輸出等任務中的更好表現以及增強的能源效率,Gemini 2.0旨在為開發者和終端用戶提供全面、經濟高效的AI解決方案。
3. DeepSeek及其變體
DeepSeek模型基於Transformer架構,通過分組查詢注意力(GQA)和FlashAttention 2進行優化。GQA通過分組查詢共享鍵值頭來平衡效率和質量,FlashAttention 2是一種計算感知算法,通過平鋪和重計算優化GPU內存使用。這些增強功能減少了內存開銷並提高了推理速度。核心注意力機制遵循以下公式:
Attention(Q,K,V)=softmax(QKTdk)V

3.1 DeepSeek 7B
DeepSeek 7B是一個70億參數的模型,設計用於通用任務,如推理、編碼和文本生成。它採用預歸一化、僅解碼器的Transformer設置,具有RMSNorm歸一化和SwiGLU激活的饋送層。該模型結合了RoPE和GQA,由30個Transformer層、32個注意力頭和4096的隱藏維度組成,上下文窗口範圍從4K到32K個令牌,可通過RoPE調整。DeepSeek Chat是一個更大的變體,擁有670億參數,包括95個Transformer層、64個注意力頭和8192的隱藏維度。
3.2 DeepSeek MoE-16B
DeepSeek MoE-16B是一個160億參數的MoE模型,每個令牌僅激活26億參數,通過動態路由輸入通過16個專家網絡中的2個。這種稀疏激活將推理成本降低了70%,同時保持了與類似大小的密集模型相當的性能。它在涵蓋代碼、數學和通用文本的多樣化數據集上進行了預訓練,專注於高質量數據和專家專業化,以處理代碼生成和數學推理等任務。
表I展示了其他基於DeepSeek的專用變體。

3.3 DeepSeek V2
DeepSeek V2系列包括DeepSeek V2,擁有2360億總參數和210億活躍參數,跨越60層和128K上下文長度,以及DeepSeek V2 Lite和兩個聊天機器人。在架構上,它集成了MLA(多頭潛在注意力)、低秩近似和MoE框架,以減少內存使用,同時保持深度上下文理解。該系列在8.1T個令牌上進行了預訓練,使用YARN從4K擴展到128K,並通過1.2M個實例進行了SFT,以提高幫助性和安全性,最終形成了未發佈的DeepSeek V2 Chat(SFT)。它通過兩階段RL過程進一步優化:第一階段專注於數學和編碼,使用基於編譯器反饋和地面真實標籤的獎勵模型;第二階段旨在提高幫助性、安全性和規則遵從性,利用基於人類偏好和手動編程的三個獎勵模型。

3.4 DeepSeek V3
DeepSeek V3代表了LLM的重大升級,使用14.8T個令牌從多語言語料庫中進行預訓練,並採用稀疏MoE架構,擁有6710億參數,每個任務僅激活370億參數。這種設計通過動態分配資源以滿足特定任務需求,提高了計算效率,從而降低了運營成本。
該模型包括一個路由系統,具有1個共享專家和256個路由專家,具有動態偏差調整功能,以確保專家利用的平衡,提高了可擴展性和可靠性。此外,多令牌預測(MTP)增強了模型在複雜語言和推理任務中的能力。儘管其架構先進,DeepSeek V3仍面臨一些局限性:
計算和硬件需求:由於其6710億參數,需要高端硬件,限制了資源受限用戶的訪問。
路由和負載平衡的複雜性:模型的動態路由可能會錯誤路由或過度優先考慮專家,可能會降低輸出質量。調整動態偏差以適應多樣化任務仍然具有挑戰性。
潛在注意力壓縮風險:MLA在注意力模式中丟失細節,可能會影響長上下文序列中細微依賴關係的跟蹤能力。
接下來,DeepSeek R1-Zero和DeepSeek R1是DeepSeek V3架構的高級變體,旨在解決其局限性。

3.5 DeepSeek R1-Zero

獎勵通過基於規則的信號指導優化過程,以提高訓練效率並防止黑客攻擊。準確性獎勵通過確定性檢查確保響應正確,例如驗證數學解決方案是否符合所需格式或代碼是否通過指定測試。格式獎勵通過要求推理和答案在
ϵϵ和懲罰係數ββ調節策略更新的穩定性和遵循性,保持平衡的學習過程。
圖2展示了DeepSeek R1-Zero模型的訓練過程,顯示了從輸入到輸出的流程。最初,輸入由LLM處理,然後通過GRPO進一步優化,並根據RLHF進行調整,生成最終輸出。這一循環確保模型不斷改進,在複雜任務和操作效率方面表現出色。
DeepSeek R1-Zero鼓勵湧現行為,如迭代自我反思和擴展推理鏈,提高了複雜任務的準確性。然而,挑戰包括可讀性差和語言混合。此外,當同行組NN較小或缺乏多樣性時,基於組的優勢估計可能會受到高方差的影響,這可能導致策略更新不穩定。

3.6 DeepSeek R1
DeepSeek R1順序生成令牌,並通過生成思考令牌來闡明其推理過程,從而為問題解決分配額外時間,如圖3所示。
其訓練管道包括以下步驟,如圖4所示:
-
冷啟動微調:使用精選數據集和思維鏈(CoT)增強清晰度並加速RL。
-
推理聚焦的RL:通過基於規則的獎勵改進編碼、數學和邏輯。
-
拒絕采樣和監督微調:優化響應並擴展寫作、事實問答和角色扮演能力。
-
最終RL對齊:確保遵循人類偏好,提高幫助性和安全性。
以下是DeepSeek R1模型的主要增強功能:
3.6.1 改進的搜索策略
蒙特卡羅樹搜索(MCTS)受AlphaGo啟發,曾嘗試系統地探索解決方案空間,但由於以下原因,證明在計算上不可行:
-
擴展的搜索空間:令牌級生成顯著增加了複雜性。
-
無效的價值模型:訓練一個強大的引導模型困難,導致擴展性差。
-
收斂到局部最優:該方法在複雜推理任務中往往無法泛化。
DeepSeek R1用更簡單的拒絕采樣方法取代了MCTS,從中間RL檢查點選擇高質量響應。通過結合多樣化的獎勵信號,模型不僅在推理方面有所改進,還在與人類偏好對齊方面有所提升。
表II展示了DeepSeek R1、ChatGPT-4、Claude 3.5、LLaMA 3.1、Qwen 2.5和Gemini 2.0的全面比較。
4. 討論
DeepSeek通過優先考慮領域特定優化、透明度和成本效率,與GPT-4.0、Claude 3.5、LLaMA 3.1、Qwen 2.5和Gemini 2.0等通用模型區分開來。雖然主流LLMs專注於廣泛的適應性,DeepSeek則專注於精確推理和決策製定,使AI更加實用和可靠。
DeepSeek R1是DeepSeek的最新變體,集成了文本、數據庫和知識圖譜,採用思維鏈(CoT)進行逐步推理和Pro Search進行上下文感知響應。這提高了數學、編碼和決策製定等領域的準確性,同時保持了清晰度。在編碼中,R1在提供答案之前概述其邏輯,使用戶能夠驗證其推理。
與專有模型不同,DeepSeek R1是開放訪問的,降低了成本,同時保持了在不同領域的競爭性能。其高效設計,包括8位浮點精度(FP8),優化了內存使用,使其能夠在資源有限的環境中部署。通過降低財務和技術門檻,DeepSeek使資源有限的地區、小型企業和研究人員能夠訪問先進的AI。
早期版本的DeepSeek R1,DeepSeek R1-Zero存在格式不一致和多語言輸出問題。為瞭解決這個問題,冷啟動數據生成強製執行結構化格式和簡潔摘要以提高清晰度。DeepSeek R1在以下方面表現出色:
-
優化計算:FP8將內存需求比32位模型減少了75%。
-
任務特定性能:基準測試顯示,它在英語語言(DROP(3-shot F1))、中文語言(CLUEWSC)、編碼(HumanEval-Mul)和數學推理(MATH-500(EM))方面與專有模型相當或優於它們。
-
可擴展性:其開放訪問方法使醫療保健、金融和教育等領域受益,其中精度和成本效率至關重要。
5. 結論與未來工作
DeepSeek R1提高了推理、效率、透明度和決策製定能力。其效率和清晰的推理為資源節約和可理解的AI設定了新標準。通過提供強大的開源性能,它挑戰了專有模型,使先進的AI工具更加可訪問,並在關鍵領域建立了信任。
未來的工作可以集中在將DeepSeek R1的基礎能力應用於各個領域的現實世界挑戰。在醫療保健領域,改進結構化症狀分析並整合醫學知識圖譜可以提高診斷準確性。在教育領域,自適應輔導系統可以將複雜概念分解為清晰的逐步推理,使學習更加有效。科學研究可以受益於將實驗數據與理論模型連接的AI驅動方法,加速材料科學等領域的發現。
通過更好的硬件-軟件集成,可以在物聯網和邊緣設備上更有效地運行AI,同時減少能源消耗,從而實現效率的進步。在自動駕駛系統和法律AI等高風險領域確保透明度,將需要可審計的推理路徑和內置的偏見緩解策略。通過社區驅動開發和專有增強相結合的開放源代碼生態系統擴展,可以幫助為公共和企業需求定製AI工具。
除了這些領域,AI在金融中的應用,如通過市場圖譜分析進行實時風險評估,以及通過地緣政治知識圖譜集成進行供應鏈管理,可以改變決策過程。展望未來,建立倫理問責標準,賦予領域專家AI驅動的洞察力,以及完善平衡規模與精度的混合架構,將是關鍵。DeepSeek R1有潛力推動一個建立在效率、透明度和現實世界影響基礎上的AI景觀。
參考文獻
[1] J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F. L. Aleman, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat et al., “Gpt-4 technical report,” arXiv preprint arXiv:2303.08774, 2023.
[2] Anthropic, “Claude 3.5 sonnet,” Blog post, 2024, accessed: 2024-07-15. [Online]. Available: https://www.anthropic.com/news/claude-3.5-sonnet
[3] A. Dubey, A. Jauhri, A. Pandey, A. Kadian, A. Al-Daille, A. Lerman, A. Mathur, A. Schelten, A. Yang, R. Fan et al., “The llama 3 herd of models,” arXiv preprint arXiv:2407.21783, 2024.
[4] A. Yang, B. Yang, B. Zhang, B. Hui, B. Zheng, B. Yu, C. Li, D. Liu, F. Huang, H. Wei et al., “Qwen2. 5 technical report,” arXiv preprint arXiv:2412.15115, 2024.
[5] DeepMind, “Gemini 2.0,” https://deepmind.google/technologies/gemini/, 2023, accessed: 2025-01-01.
[6] X. Bi, D. Chen, G. Chen, S. Chen, D. Dai, C. Deng, H. Ding, K. Dong, Q. Du, Z. Fu et al., “Deepseek llm: