中國 AI 公司 DeepSeek-V3 以低成本實現前沿人工智能性能

01月03日 01:39 TechRitual tech-auto-hilite

中國 AI 科技公司 DeepSeek 近日發布了其最新大型語言模型 DeepSeek-V3。根據其公布的基準測試結果，該模型已成為目前最強大的開源大型語言模型。值得注意的是，儘管其訓練成本僅為 560 萬美元，遠低於大型科技公司通常的投入，但其性能卻能與領先的非開源模型相媲美。

DeepSeek-V3 的訓練僅使用了 280 萬 GPU 小時，成本約為 560 萬美元，遠低於競爭對手。在各種基準測試中，該模型的性能與 GPT-4 和 Claude 3.5 相當，尤其在數學和編程任務上表現出色。其高效性得益於創新的架構和訓練技術，包括一種名為「無輔助損失負載均衡」的全新訓練方法。

值得注意的是，DeepSeek 作為一家規模較小的初創企業，能夠在有限的預算下取得這一成就。OpenAI 的創始成員 Andrej Karpathy 在社交媒體上表示，DeepSeek 以極低的預算訓練出前沿水平的大型語言模型，並開源其權重，這看似輕而易舉。據悉，DeepSeek 完全依靠其對沖基金業務自籌資金，未尋求任何外部投資。

DeepSeek-V3 的技術核心是採用混合專家（Mixture-of-Experts，MoE）架構，總參數達 6710 億，但每個標記僅激活 370 億參數。這種選擇性激活方法與創新訓練技術的結合，使模型在保持高效的同時實現了高性能。特別是在數學推理和編程任務上，DeepSeek-V3 有時甚至超越了 OpenAI 和 Anthropic 等業界領先者。

DeepSeek 表示，他們採用了 FP8 混合精度訓練和高效的管道並行性等技術，顯著降低了計算需求。相比之下，Meta 的 LLaMA 3 模型訓練需要約 3080 萬 GPU 小時。這意味著 DeepSeek-V3 在訓練效率上比 LLaMA 3 高出約 11 倍。

考慮到當前一些最大的 AI 訓練集群使用約 10 萬個 GPU，訓練成本可能高達數十億美元，DeepSeek-V3 的成就更加引人注目。該模型僅使用 2048 個 H800 GPU 在約兩個月內完成訓練，表明高效的架構和訓練方法能夠顯著減少前沿 AI 開發所需的資源。

然而，DeepSeek-V3 的成功也引發了一些爭議。有人質疑其訓練數據是否包含來自專有模型（如 GPT-4 或 Claude 3.5 Sonnet）的數據。如果屬實，這將違反服務條款協議，即所謂的「ToS 洗錢」。

儘管如此，DeepSeek-V3 在 Hugging Face 平台上的開源發布仍符合行業推動 AI 能力民主化的廣泛趨勢。其無輔助損失負載均衡策略和多標記預測（MTP）技術為訓練效率和推理速度設立了新的基準。

對於 AI 行業而言，DeepSeek-V3 可能預示著大型語言模型開發方式的潛在範式轉變。這一成就表明，通過巧妙的工程設計和高效的訓練方法，可能無需以前認為所需的大規模計算資源就能實現前沿的 AI 能力。

隨著行業對這些發展的消化，DeepSeek-V3 的成功可能會促使人們重新評估現有的 AI 模型開發方法。隨著開源模型與非開源模型之間的差距不斷縮小，公司可能需要在日益激烈的競爭環境中重新評估其戰略和價值主張。

【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced/
【教學】香港 iPhone 如何使用 Apple Intelligence！設定方法與功能/
【教學】5 個「香港」免費使用 ChatGPT 的方法/
【說明】4 個方法，讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

日本電話卡|台灣電話卡|韓國電話卡| 此文章《中國 AI 公司 DeepSeek-V3 以低成本實現前沿人工智能性能》發佈於Techritual Hong Kong。