Meta 構建分佈式 RoCEv2 網絡:探索串聯數萬片 GPU,訓練千億參數級 AI 模型

IT之家 8 月 7 日消息,Meta 公司於 8 月 5 日發佈博文,表示為了滿足大規模分佈式 AI 訓練對網絡的需求,構建了基於 RoCEv2 協議的大規模 AI 網絡

RoCEv2 的全稱是 RDMA Over Converged Ethernet version 2,是一種節點間通信傳輸方式,用於大部分人工智能容量。

Meta 公司已成功擴展了 RoCE 網絡,從原型發展到部署了眾多集群,每個集群可容納數千個 GPU。

這些 RoCE 集群支持廣泛的生產型分佈式 GPU 訓練工作,包括排名、內容推薦、內容理解、自然語言處理和 GenAI 模型訓練等工作負載。

Meta 公司為分佈式 AI 訓練專門建立了一個專用的後端網絡,能夠獨立於數據中心網絡的其他部分進行發展、運行和擴展。

訓練集群依賴於兩個獨立的網絡:前端(FE)網絡用於數據攝取、檢查點和日誌記錄等任務,後端(BE)網絡用於訓練,如下圖所示:

訓練機架連接到數據中心網絡的 FE 和 BE。FE 的網絡層次包括機架交換機 (RSW)、結構交換機(FSW)等,其中包含存儲倉庫,為 GPU 提供訓練工作負載所需的輸入數據。

後端結構是一個專門的結構,它以無阻塞的架構連接所有 RDMA 網卡,無論它們的物理位置如何,在集群中的任意兩個 GPU 之間提供高帶寬、低延遲和無損傳輸。

為了應對 LLM 模型訓練對 GPU 規模的需求,Meta 設計了聚合訓練交換機(ATSW)層,將多個 AI 區域互連起來。此外,Meta 還優化路由、擁塞控制等方面,以提升網絡性能。

IT之家附上參考地址