超節點算力集群創新聯合體成立:中國移動、浪潮、阿里雲等參與,打造 GPU 卡間互聯體系

IT之家 12 月 26 日消息,以「創新驅動智啟新程」為主題的 2024 中國人工智能大會(CCAI)開幕禮於本月在北京召開,超節點算力集群創新聯合體揭牌儀式舉行。

會上,北京市科委、中關村管委會、中國移動、浪潮集團、阿里雲、清華大學、中國科學院等單位共同為「超節點算力集群創新聯合體」揭牌。

據中國移動介紹,隨著人工智能大模型的迅猛發展,其參數規模正向超萬億級別演進,模型的性能和泛化能力不斷提升,對高性能智算基礎設施的需求更為迫切。在此背景下,傳統單台智算服務器僅能容納 8 張 GPU 芯片的算力模式正被「超節點算力集群」這一形態所取代,以適應日益增長的算力需求。

「超節點算力集群創新聯合體」的 GPU 卡間互聯是基於中國移動原創的 OISA(全向智感互聯)協議所構建,OISA 旨在打造一個高效、智能、靈活且開放的 GPU 卡間互聯體系,該架構致力於支持大模型訓練、推理、高性能計算等數據密集型的 AI 應用。

為了實現這一目標,OISA 採用了全向連接設計,確保大規模 GPU 之間對等通信;引入智能感知設計,通過定義流量感知標籤,並結合流控和重傳機制,優化數據傳輸效率。

在協議層面,OISA 採用精悍的報文格式、支持內存和消息的多語義融合、多層次流控重傳以及預設集合通信加速等多個關鍵技術,實現高帶寬、低時延和高可靠的 GPU 通信能力。

在當前 Gen1.1 版本下,OISA 支持超節點內任意 GPU 卡間的點對點讀寫互聯帶寬達到 896GB/s,每個 OISA-Switch 芯片支持 128 個端口、交換容量 51.2T

IT之家從中國移動官方獲悉,中國移動未來將全面支持超節點算力集群創新聯合體發展,計劃聯合產業界優先完成在單層 Switch 條件下基於 OISA 互聯技術的 32/64 卡超節點產品落地,並加速 128 卡超節點產品的輸出。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。