華為雲黃瑾:傳統計算架構已難以支撐AI技術代際躍遷,超節點架構開闢AI產業新路徑

新浪科技訊 5月16日晚間消息,在今日的華為雲AI峰會上,華為雲副總裁黃瑾發表主題演講,介紹了更多CloudMatrix 384超節點技術優勢與細節。他指出,隨著大模型訓練和推理對算力需求的爆炸式增長,傳統計算架構已難以支撐AI技術的代際躍遷,超節點架構的誕生不僅是技術的突破,更是以工程化創新開闢AI產業的新路徑。

當前,大模型訓練經曆了從早期小模型在單卡訓練、小參數大模型在單機訓練,到現在MoE、長序列、多模態大模型都在AI集群上訓練的演進過程。AI算力的瓶頸,從單卡算力的瓶頸到單機內總線帶寬的瓶頸,再到現在集群間通信帶寬的瓶頸,需求增長了1萬倍。然而過去的8年里,單卡硬件的算力增長了40倍,但是節點內的總線帶寬只增長了9倍,跨節點的網絡帶寬只增長了4倍,這使得集群網絡通信成為當前大模型訓練和推理的最大挑戰。

黃瑾表示,面對這些挑戰,華為雲推出了採用全對等互聯架構的CloudMatrix 384超節點。這項技術創新跳出單點技術限制走向系統性、工程性的創新算力架構,直面通信效率瓶頸、內存牆製約、可靠性短板三大技術挑戰。通過新型高速互聯總線實現384張卡互聯成為一個超級雲服務器,最高提供300Pflops的算力規模,比業界同類產品領先67%。

目前,基於CloudMatrix的超節點集群已經在蕪湖、貴安、內蒙規模上線,黃瑾介紹,華為雲CloudMatrix 384超節點具備MoE親和、以網強算、以存強算、長穩可靠、朝推夜訓、即開即用六大技術優勢,以系統架構創新重新定義新一代AI基礎設施。

黃瑾強調,華為雲超節點創新系統架構的背後,是華為雲堅持“昇騰雲服務支持百模千態,盤古大模型重塑千行萬業”的戰略。一直以來華為雲持續推動昇騰AI雲服務全面升級,通過打磨昇騰雲的訓練、推理的性能、可靠性和性價比,為中國乃至全球客戶提供好用、易用的AI算力雲服務。現已全面適配了DeepSeek在內的160多個大模型,以雲服務的方式,協助客戶進行模型的開發,訓練,託管和應用。昇騰AI雲服務上線以來,面向政府、金融、零售、互聯網、交通、製造等行業已經服務六百多家創新先鋒企業,加速行業智能化應用的快速落地。