DeepSeek甩出了一張「王炸」

12月26日消息，國產大模型DeepSeek推出DeepSeek-V3，一個強大的混合專家（Mixture-of-Experts, MoE）語言模型。主要的技術迭代是671B的MoE，37B的激活參數，在14.8萬億個高質量token上進行了預訓練。

AI圈表示，「聖誕節真的來了」。

翻譯翻譯，首先，從訓練時間看，正如DeepSeek在發佈報告中指出的那樣，「儘管其表現出色，DeepSeek-V3的完整訓練僅需2.788M H800 GPU小時。」

打個比方，如果對標Llama 3 系列模型，其計算預算為 3930 萬 H100 GPU Hours—— 大約可以訓練 DeepSeek-V3 十五次。

從成本上看，如果我們假設 H800 GPU 的租金為每 GPU 小時 2 美元，DeepSeek-V3 的總訓練成本僅為 557.6萬美元。

不僅如此，在最新發佈的技術報告里，經過與DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022幾個模型的跑分， DeepSeek-V3 在多個性能基準測試中表現出色。在MATH500、AIME2024和Codeforces三個維度更是遙遙領先，數學和編程能力極強，一度超過 GPT-4o 和 Claude 3.5 Sonnet 這兩大領先的閉源模型。雖然在某些語言理解和軟件工程任務中稍有遜色，但也是TOP2尖子選手。

DeepSeek自言，這得益於採用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構，實現了高效的推理和經濟高效的訓練。又引入了輔助損失自由負載平衡策略和多token預測訓練目標，提升了模型性能。同時，在14.8萬億個高質量token上進行了預訓練時，通過監督微調和強化學習階段充分挖掘了其潛力。

綜合評估顯示，DeepSeek-V3優於其他開源模型，性能接近領先的閉源模型。並且，訓練過程非常穩定，沒有遇到不可恢復的損失峰值或回滾。相比之下，在同一天，ChatGPT再次宕機，修復時間尚未確定。

Meta AI 研究科學家田淵棟在X上對 DeepSeek-V3 「極有限的預算」和「強勁的表現」深感驚喜。

曾為 Glean 和 Google Search 的創始團隊成員的 VC Deedy更是將DeepSeek-V3讚為「世界上最好的開源大模型」。

DeepSeek-V3的基礎模型以英語和中文為主的多語言語料庫上進行預訓練，因此主要在一系列以英語和中文為主的基準測試上評估其性能，同時也在一個多語言基準測試上進行評估。而基於其內部集成的HAI-LLM框架，具體跑分如下：

如上可以看到 V3 在英語、編程、數學、中文、多語言幾個維度的表現。

英語（English）：DeepSeek-V3 Base 在大多數測試中表現最佳，例如在 BBH(EM)、MMLU(EM)、MMLU-Redux(EM)、DROP(F1)、ARC-Easy(EM)、ARC-Challenge(EM)、HellaSwag(EM)、PIQA(EM)、WinoGrande(EM)、TriviaQA(EM) 和 AGIEval(EM) 等測試中。在 Pile-test(BPB) 基準測試中，DeepSeek-V3 Base 的得分為 0.548，也略高於其他模型。
代碼（Code）：DeepSeek-V3 Base 在 HumanEval(Pass@1)、MBPP(Pass@1)、LiveCodeBench-Base(Pass@1)、CRUXEval-I(EM) 和 CRUXEval-O(EM) 等測試中表現突出。
數學（Math）：DeepSeek-V3 Base 在 GSM8K(EM)、MATH(EM)、MGSM(EM) 和 CMath(EM) 等測試中表現優異。
中文（Chinese）：DeepSeek-V3 Base 在 CLUEWSC(EM)、C-Eval(EM)、CMMLU(EM)、CMRC(EM)、C3(EM) 和 CCPM(EM) 等測試中表現良好。
多語言（Multilingual）：DeepSeek-V3 Base 在 MMMLU-non-English(EM) 測試中表現最佳。