剛剛,DeepSeek首曝V3降成本秘訣,軟硬協同突破Scaling天花板

DeepSeek最新論文深入剖析了V3/R1的開發歷程,揭示了硬件與大語言模型架構協同設計的核心奧秘。論文展示了如何突破內存、計算和通信瓶頸,實現低成本、高效率的大規模AI訓練與推理。不僅總結了實踐經驗,還為未來AI硬件與模型協同設計提出了建議。

剛剛,DeepSeek再爆新論文!

論文並沒有重覆DeepSeek-V3的詳細架構和算法細節。相反,它從硬件架構和模型設計雙重視角出發,探討兩者如何相互配合,以實現低成本的大規模訓練和推理。

具體來說,論文聚焦以下內容:

硬件驅動的模型設計:分析硬件特性(如FP8低精度計算和縱向/橫向擴展網絡屬性)如何影響DeepSeek-V3的架構選擇。

硬件與模型的相互依賴:研究硬件能力如何推動模型創新,以及LLMs不斷增長的需求如何驅動下一代硬件的發展。

未來硬件發展方向:從DeepSeek-V3中提煉出實用見解,指導未來硬件與模型架構的協同設計,為可擴展、成本效益高的AI系統鋪平道路。

論文地址:https://www.arxiv.org/pdf/2505.09343論文地址:https://www.arxiv.org/pdf/2505.09343

近年來,隨著大語言模型(LLMs)的快速發展,暴露了當前許多硬件方面的挑戰,包括內存容量、計算效率和互聯帶寬的瓶頸。

DeepSeek-V3使用2048個NVIDIA H800 GPU進行訓練,展示了硬件與模型協同設計可以有效應對這些挑戰,實現大規模的高效訓練和推理。

文章深入分析了DeepSeek-V3/R1模型架構及其AI基礎設施,介紹了其中的關鍵創新,例如:

多頭潛注意力機制(MLA),提升內存效率;

混合專家(MoE)架構,優化計算與通信的平衡;

FP8混合精度訓練,充分發揮硬件性能;

多平面網絡拓撲,減少集群級網絡開銷。

基於DeepSeek-V3開發中遇到的硬件瓶頸,研究團隊與學術界和工業界的同行展開了更廣泛的討論,這些方向包括精確的低精度計算單元、縱向擴展與橫向擴展的融合,以及低延遲通信網絡/架構的創新。

這些交流表明,硬件與模型的協同設計在應對AI工作負載不斷增長的需求中至關重要。

DeepSeek特別證明了有效的軟硬件協同設計可以使大模型的高效訓練成為可能,為小團隊創造了公平的競爭環境。

DeepSeek模型的設計原則

DeepSeek-V3的開發體現了硬件導向的LLM設計理念,每項設計決策都緊密結合硬件限制,以優化性能和成本效率。

如圖1所示,DeepSeek-V3採用了在DeepSeek-V2中驗證有效的DeepSeek-MoE(混合專家架構)和多頭潛在注意力(MLA)架構。

DeepSeek-MoE充分發揮了MoE架構的潛力,而MLA則通過壓縮鍵值(KV)緩存大幅降低了內存佔用。

此外,DeepSeek-V3引入了FP8混合精度訓練,顯著降低計算成本,使大規模訓練更具實用性,同時不影響模型質量。

為了提升推理速度,DeepSeek-V3集成了基於多標記預測模塊的推測解碼技術,大幅提高了生成速度。

在模型架構之外,團隊還通過部署雙層多平面Fat-Tree網絡替換傳統的三層Fat-Tree拓撲,探索了成本效益高的人工智能基礎設施,降低了集群網絡成本。

這些創新旨在解決擴展LLM的三大核心挑戰:內存效率成本效益推理速度

FP8混合精度訓練

GPTQ、AWQ之類的量化技術已經廣泛用於將模型的位寬降低到8位、4位甚至更低,大幅減少內存需求。

不過,這些技術主要用在推理階段來省內存,而不是訓練階段。

NVIDIA的Transformer Engine早就支持FP8混合精度訓練,但在DeepSeek-V3之前,還沒有開源的大型模型在訓練中用上FP8。

研究團隊通過基礎設施和算法團隊的深度合作,經過大量實驗和創新,開發了一個適用於MoE模型的FP8訓練框架。

圖1展示了訓練流程中用到FP8精度的前向和反向計算部分。

採用細粒度量化策略:激活以1 × 128的tile為單位進行量化,模型權重以128 × 128的block為單位進行量化。

雖然FP8在加速訓練方面潛力巨大,但硬件上還有幾個問題需要解決,才能充分發揮它的能力:

FP8累積精度問題:在NVIDIA Hopper GPU的Tensor Core中,FP8的累積精度受限,影響了訓練大模型的穩定性。具體來說,32個尾數相乘後,會根據最大指數右移對齊,Tensor Core只保留最高的13位小數進行加法,超出範圍的位直接截斷。

精細量化挑戰:tile-wise和block-wise 量化方式在Tensor Core到CUDA Core傳輸部分結果時,會帶來較大的反量化開銷。這導致頻繁的數據移動,降低計算效率,也讓硬件利用更複雜。

為瞭解決現有硬件的局限性,研究團隊對未來的設計提出以下建議:

提高累積精度:硬件應該將累積寄存器的精度提升到合適的值(比如FP32),或者支持可配置的累積精度。這樣可以根據不同模型在訓練和推理中的需求,靈活平衡性能和精度。

原生支持精細量化:硬件應直接支持精細量化,讓Tensor Core能接收縮放因子並實現分組縮放的矩陣乘法。這樣,部分和的累積及反量化可以在Tensor Core內部直接完成,直到輸出最終結果,避免頻繁數據移動,降低反量化開銷。NVIDIA Blackwell支持的微縮放數據格式就是一個很好的工業實踐,展現了原生量化的實際好處。

LogFMT:通信壓縮

在當前的DeepSeek-V3架構中,研究團隊採用了低精度壓縮技術來優化網絡通信。

在專家並行(EP)過程中,他們使用精細的FP8量化來分發token,相比BF16格式,通信數據量減少了50%,顯著縮短了通信時間。

不過,由於精度要求,合併階段目前仍使用較高精度的BF16格式。團隊正在積極測試FP8、定製精度格式(比如E5M6)以及FP8和BF16的混合方案,以進一步減少通信量。

除了傳統的浮點數格式,他們還嘗試了一種全新的數據類型,稱為對數浮點格式(LogFMT-nBit),其中n表示位數,最高位為符號位S。

通過將激活值從線性空間映射到對數空間,激活值的分佈更加均勻。

由於GPU的對數/指數運算帶寬不足,且編碼/解碼過程對寄存器的壓力較大,如果將編碼/解碼與全對全通信融合,額外開銷可能高達 50%~100%。因此,儘管實驗驗證了該格式的有效性,團隊最終未採用它。

為FP8或定製精度格式提供原生的壓縮/解壓縮單元支持,是未來硬件的一個可行方向。這能有效降低帶寬需求,優化通信流程。減少的通信開銷在帶寬密集型任務(如MoE訓練)中尤其有益。

硬件的互聯驅動設計

DeepSeek-V3採用了NVIDIA H800 GPU SXM架構,該架構基於英偉達的Hopper架構。

但為了監管的要求,在FP64計算性能和NVLink帶寬方面有所縮減(從900GB/s降至400GB/s)。

為彌補節點內帶寬的不足,每個節點配備了八個400G InfiniBand (IB) CX7網絡接口卡,以增強跨節點(scale-out)通信能力。

針對這些硬件限制,DeepSeek-V3模型在設計上做了多項協同優化。

硬件相互感知的並行策略

訓練階段避免張量並行(Tensor Parallelism,TP),因為在受限的NVLink帶寬下TP效率低下;推理階段可選擇性地使用TP以降低延遲。

增強的流水並行(Enhanced Pipeline Parallelism,PP):採用DualPipe管線並行,將注意力和MoE的計算與通信重疊,減少流水線氣泡並平衡顯存使用,提升總體吞吐 。

加速專家並行(Expert Parallelism,EP):利用節點上8個400Gbps IB NIC實現高速全互聯通信(>40GB/s),並開源了DeepEP實現,以高效支持MoE訓練。

這些策略充分考慮硬件瓶頸,有效提升了訓練效率。

節點限制路由(Node-Limited Routing)

由於H800平台內外網帶寬約為4:1(NVLink≈160GB/s vs. 單個400Gbps IB≈40GB/s),DeepSeek-V3在模型設計中加入了「節點受限」路由策略 。

H800架構中,節點內(NVLink)和節點間(IB)的帶寬差異約為4:1。

NVLink實際可達到約160GB/s的帶寬,而每個400Gbps IB NIC的有效帶寬約為40GB/s。

為了平衡並充分利用較高的節點內帶寬,DeepSeek-V3在TopK專家選擇策略上進行了硬件協同設計。

具體而言,DeepSeek-V3引入了節點限制路由 (Node-Limited Routing) 策略。

例如,在8個節點(共64個GPU)和256個路由專家(每個GPU 4個專家)的配置下,每個Token被路由到一個共享專家和8個路由專家。

如果這8個目標專家分佈在所有8個節點上,通過IB的通信時間將是8t(t為通過IB發送一個Token的時間)。

通過利用更高的NVLink帶寬,路由到同一節點的Token可以通過IB發送一次,然後在節點內通過NVLink轉發給其他GPU,從而實現IB流量的去重。

當一個Token的目標專家分佈在M個節點時,去重後的IB通信成本降至Mt (M<8) 。

DeepSeek-V3將256個路由專家分為8組,每組32個專家,並將每組部署在單個節點上。

在此基礎上,通過算法確保每個Token最多路由到4個節點,從而減輕IB通信瓶頸,提高訓練過程中的有效通信帶寬。

縱向擴展與橫向擴展的融合

研究團隊在硬件設計的基礎上,在編程框架層面也提出了一些建議:

統一網絡適配器:設計連接到統一縱向和橫向擴展網絡的NIC或I/O Die,並支持基本交換功能,如將數據包從橫向擴展網絡轉發到縱向擴展網絡內的特定GPU。

專用通信協處理器:引入專用協處理器或可編程組件(如I/O die)處理網絡流量,從GPU SM卸載數據包處理,并包含硬件加速的內存複製功能。

靈活的轉發、廣播和歸約機制:硬件應支持跨縱向和橫向擴展網絡的靈活轉發、廣播操作(用於EP分發)和歸約操作(用於EP合併),以提高有效帶寬並降低網絡特定操作的計算複雜度。

硬件同步原語(Hardware Synchronization Primitives):提供細粒度的硬件同步指令,以在硬件層面處理內存一致性問題或亂序數據包到達,消除基於軟件的同步機制(如RDMA完成事件)引入的額外延遲和編程複雜性。

未來的硬件設計將能夠顯著提升大規模分佈式AI系統的效率。

大規模網絡驅動設計

DeepSeek-V3構建了一個多平面Fat-Tree (Multi-Plane Fat-Tree, MPFT) 拓撲來支撐大規模訓練。

如圖3所示,每個節點有8塊GPU和8個IB NIC,每對GPU–NIC連接到一個獨立的網絡平面。如圖3所示,每個節點有8塊GPU和8個IB NIC,每對GPU–NIC連接到一個獨立的網絡平面。

節點間交換機選用64端口400G IB交換機,該拓撲理論上支持多達16,384塊GPU(共2048節點)。

在MPFT架構下,假設理想情況下每個NIC具有多個物理端口分別連向各平面,並在邏輯層面做鏈路捆綁,則一個隊列對可以跨平面並行發送/接收數據包,這要求網卡本身必須原生支持亂序放置(out-of-order placement)功能。

成本與拓撲對比,從成本角度看,MPFT的兩層拓撲支持超過1萬節點,網絡成本顯著低於三層Fat-Tree。

表3給出了各拓撲的成本對比:兩層FT和多平面FT成本約為4.39$/端點,略低於 Slim Fly (4.4$/端點),遠低於三層FT (7.5k$/端點) 及 Dragonfly (5.8k$/端點)  。

也就是說,MPFT在成本效率上與三層FT、Slim Fly和Dragonfly相比具有明顯優勢。

此外,多平面設計天然實現流量隔離:各平面獨立運行,一個平面擁塞或故障不會影響其他平面。

為了驗證多平面網絡設計的有效性,DeepSeek在集群上進行了真實環境下的實驗,通過修改集群的網絡拓撲,對比了多平面兩層Fat-Tree(MPFT)與單平面多軌Fat-Tree(MRFT)的性能表現。

全互聯通信與EP場景下,如圖5所示,多平面網絡的全互聯通信性能與單平面多軌網絡非常接近。全互聯通信與EP場景下,如圖5所示,多平面網絡的全互聯通信性能與單平面多軌網絡非常接近。

這種性能上的一致性主要得益於NCCL的PXN機制,該機制在多軌拓撲中通過NVLink優化了流量轉發,而多平面拓撲同樣能夠受益於這一機制。

如圖6所示,在16張GPU上進行的全互聯通信測試中,MPFT 與 MRFT 的延遲差異幾乎可以忽略。

為了進一步評估MPFT在實際訓練中的全互聯通信表現,對訓練中常見的EP通信模式進行了測試。

如圖7所示,在多平面網絡中,每張GPU的通信帶寬都超過了40GB/s,表現出穩定且高效的性能,能夠滿足訓練過程的帶寬需求。

DeepSeek-V3模型的訓練吞吐量

研究還對比了在MPFT與MRFT網絡中訓練DeepSeek-V3模型的各項訓練指標,結果列於表4。

MFU(Model Flops Utilization)是以BF16峰值性能為基礎計算的,其中Causal MFU只計算注意力矩陣下三角部分的計算量,而Non-Causal MFU則包括整個注意力矩陣的計算量。

1F、1B 和 1W分別表示前向計算時間、輸入反向傳播時間和權重反向傳播時間。

架構優勢:MPFT實際上是多路徑Fat-Tree (Multi-Rail Fat-Tree,MRFT) 的特殊子集,兼容NVIDIA/NCCL對多路徑網絡的優化技術 。

通信效率與吞吐:得益於多平面並行,實際訓練過程中MPFT能充分利用每個GPU上40GB/s以上的吞吐能力 。

在同樣配置下,兩種拓撲的tokens/day、模型浮點利用率(MFU)等基本一致。

這表明MPFT在通信效率上與傳統MRFT持平,同時具備擴展性優勢。

研究團隊還把 InfiniBand(IB)和RoCE擺上同一條跑道做對比,結果顯示——在延遲上,IB一路領跑,是分佈式訓練、推理等對時延極其敏感的任務的首選網絡方案。

但是IB價格高昂:IB設備動輒貴上一大截,想在超大規模集群裡普及成本很高。

端口數受限:主流IB交換機只有64個端口,而常見RoCE交換機可做到128個端口,規模一上去,IB很快就碰到擴展天花板。

RoCE性價比高但「短板」明顯——怎麼辦?團推提出了如下思路:

針對時延仍偏高,專用低延遲RoCE交換機:借鑒HPE Slingshot等方案,砍掉傳統以太網里用不到的功能,專為RDMA加速。Broadcom已放出 AIFH 機制 和下一代低延遲交換機的消息。

針對ECMP路由擁塞,自適應路由(AR):動態把流量撒到多條路徑;相比靜態路由表更靈活,能顯著減輕NCCL all‑to‑all 等場景里的鏈路擠壓。

RoCE借助專用交換機、智能路由和更細粒度的擁塞控制,正努力追平IB的時延優勢;而IBGDA則進一步把通信鏈路打磨到極致。

對未來硬件架構設計的討論與展望

研究團隊總結了DeepSeek-V3的經驗教訓,提出以下未來硬件發展的方向:

1. 系統魯棒性挑戰

大規模訓練系統面臨多種可靠性風險。首先,高性能互連(如 IB、NVLink)易出現暫時性中斷,在全互連密集通信時可能導致訓練失敗 。

其次,節點或GPU宕機、ECC內存糾錯失敗等單點故障會毀掉長時間運行的任務,且系統規模越大,故障概率越高。

最後,靜默數據損壞(Silent Data Corruption)如多位翻轉或計算錯誤難以被ECC檢測,卻會悄然影響模型質量。

2. CPU與GPU通信瓶頸

現代AI系統中,CPU不可或缺,但當前CPU–GPU互連成為性能瓶頸。

PCIe接口的帶寬在大規模模型參數更新、梯度傳輸或KV緩存同步時極易飽和。

為此,未來系統應採用直接的CPU–GPU互連(如NVLink或Infinity Fabric),將CPU和GPU置於同一「scale-up」域內,消除PCIe瓶頸 。

3. 智能互聯網絡發展方向

為了滿足AI工作負載對低延遲和高帶寬的需求,未來互連網絡需要更智能化。針對智能互聯網絡論文提出了若干關鍵技術:

Co-Packaged Optics(共封裝光學)通過將矽光子集成到交換機或NIC中,可在保證能效的同時大幅提升帶寬,可擴展性更好。

無損網絡(Lossless Network)則要求在不丟包的前提下進行擁塞控制;雖然傳統基於信用的流控(CBFC)機制可實現無損傳輸,但容易產生頭阻塞,因此亟需端到端擁塞控制算法來優化注入速率,避免病態擁塞。

自適應路由技術也是必需的,如分組噴灑(packet spraying)或基於實時網絡狀況的路徑選擇,可動態平衡負載,緩解熱點和瓶頸問題。

4. 基於內存語義的通信與順序控制問題

採用加載/存儲(load/store)語義的節點間通信具有效率高且易編程的優勢,但現有方案受限於內存訪問順序問題。為保障數據一致性,發送方需顯式插入內存屏障(fence)以確保數據寫入和標誌位更新的嚴格順序,這導致額外的往返延遲(R湯臣)與吞吐量降低。同類亂序問題也見於消息語義的RDMA操作中。 

建議在硬件層內建順序保證機制,尤其是提出一種「區域獲取/釋放」(RAR)機制,通過硬件維護的位圖跟蹤區域狀態,避免發送方顯式使用內存屏障。RAR適用於內存語義和消息語義RDMA,可大幅提高性能與實用性。 

5. 網絡內計算與壓縮優化

專家並行(EP)的dispatch與combine階段分別類似於網絡多播與小規模規約,為網絡內優化提供空間。 

dispatch階段:建議在硬件實現自動的數據包複製與多目標轉發,以降低通信開銷。 

combine階段:儘管網絡內規約存在不均衡負載挑戰,但仍有優化潛力。 

低精度壓縮(LogFMT):若原生集成至網絡硬件,能進一步提高通信效率,減少帶寬佔用並提升整體系統吞吐量。 

6. 內存帶寬瓶頸與創新方案

模型規模指數增長導致內存帶寬成為性能瓶頸,特別是對Transformer類架構而言。研究團隊提出兩種應對方案: 

堆疊式DRAM加速器:通過3D堆疊技術大幅提升內存帶寬並降低訪問延遲,特別適合內存吞吐密集型的MoE推理任務。 

芯片級系統集成(SoW):通過晶圓級集成技術實現更大面積的計算密度和內存整合,進一步提升系統整體性能。 

DeepSeek-V3展示了軟硬件協同設計在提升大規模人工智能系統的可擴展性、效率和穩健性方面的巨大潛力。

通過解決當前硬件架構的局限性,並提出切實可行的建議,研究團隊為下一代面向AI優化的硬件指明了發展方向。

隨著AI任務在複雜度和規模上的持續增長,這些創新將對推動智能系統的未來發展至關重要。

參考資料:

https://www.arxiv.org/abs/2505.09343 

本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。