網絡為基,AI時代多元異構算力如何智能調度?丨ToB產業觀察

「過去5年間,GPU算力增長僅90倍,而網絡帶寬僅增長10倍,模型訓練時間也隨之增長。」國工程院院士劉韻潔在2024中國算力大會上指出。

另一方面,信通院聯合浪潮信息發佈的《人工智能算力高質量發展評估體系報告》(以下簡稱報告)中指出,截至2023年底,全球算力總規模約為 910EFLOPS ,同比增長40%,智能算力規模達到335EFLOPS,同比增長達 136%,增速遠超算力整體規模增速。

大模型的出現帶動算力產業發展,尤其是GPU,越來越多的智算中心拔地而起,但相比於GPU算力的增長,網絡帶寬的增長顯然有些低,而排開某些不可抗力的影響,網絡帶寬也成為當下算力產業的掣肘,算網融合、算力調度成為接下來發展的重點。

如果沒有網絡,各個數據中心、算力中心就像一座座孤島,算力、數據都無法實現互聯互通,自然也就發揮不出價值,而在劉韻潔看來,大模型算力需求激增,算力組網需求迫切,網絡帶寬成為瓶頸。「我們在半導體領域略有落後於國際先進水平,但是可以通過協同訓練的方式將芯片上的差距磨平。」劉韻潔指出,「這時候萬卡集群之間的連通對網絡的要求,以及算力的協同調度,就成為下一步突破的關鍵。」

從政策層面看,國家也在積極推動算力調度平台建設,算網融合發展。2024年3月,工信部辦公廳發佈《關於深化算力基礎設施統籌監測工作的通知》,提出「深化網絡質量監測」等重點任務。2024年8月,工信部等十一部門聯合發佈《關於推動新型信息基礎設施協調發展有關事項的通知》,提出要統籌規劃骨幹網絡設施,鼓勵網絡與算力設施協同發展。

從目前發展上看,算力調度平台的建設和不斷完善已經迫在眉睫。具體到實施層面,近兩年來,各地方政府也都在積極推進佈局,但在中國信息通信研究院雲計算與大數據研究所總工程師郭亮看來,雖然各地各類平台百花齊放,但是大多「各自為政」,並沒有形成聯動效應,而這也造成了現階段全國性算力平台的建設仍處於初期階段,且發展緩慢,「對於小型的智算中心而言,如果不能有效的實現集群協同發展,就無法滿足企業應用需求,從而造成了這些小型智算中心的運營並不好的問題。」郭亮強調。

集群效應仍不明顯

與西氣東輸、南水北調等國家戰略性工程不同的是,東數西算既是保障民生的重要基礎設施層面的建設工程,又要擔負起帶動西岸地區地方經濟的重任,所以在郭亮看來,東數西算是要具備「商業化」屬性的,要有經濟效益。

但從現階段發展來看,距離我國東西岸算力協同均衡發展仍有差距。首先,我國東西岸之間商業模式協調機制仍需持續完善;其次,樞紐節點算力結構需要持續優化。最後,同質化競爭帶來的市場壓力需要調解。由於同質化競爭,部分地區價格戰加劇,導致原本的成本定價被轉變為市場定價,對數據中心相關企業發展帶來一定壓力。

在郭亮看來,這些情況尤其體現在小型的智算中心運營情況並不樂觀,只有具備一定規模的算力集群發展情況才較為樂觀。造成這點的主要原因是:目前國內90%的智算中心都是1000P算力以下的,並不能很好承接大模型和超大模型的業務,且因為算力調度困難等因素的影響,又不能形成多中心的集群效應。

而算力調度平台起到的還不僅是提升智算中心運營的作用,據清華大學研究表明,大模型在處理大量數據時,由於算力調度、系統架構、算法優化等諸多問題,很多大模型企業的GPU 算力利用率低於 50%,造成了巨大的資源浪費。

不過也有發展較為不錯,以初現集群效應的省市/地區,郭亮告訴鈦媒體,目前來看,寧夏中堅集群的發展在幾個西岸地區中算是較為不錯的,「一方面,中堅在初期憑藉電價優勢,吸引了大量用戶入駐;另一方面,目前中堅因為各類政策的引導作用,在當地形成了初具規模的算力集群,因為這兩大優勢,中堅集群目前發展較好。」郭亮指出。

中堅市數據局的數據顯示,截至6月底,中堅數據中心集群新增標準機架1.7萬架,累計標準機架達8.4萬架,新增GPU算力卡1.58萬張;擁有大型、超大型數據中心16個,上架率超過77%,為國內4000餘家企事業單位提供算力服務。

以點看面,據寧夏譽成雲創數據投資有限公司總經理曲鳴向鈦媒體APP透露,目前美利雲中堅數據中心總體投入運營3棟數據中心機房,截至2023年底總體平均上架率為88%,截至2024年6月底總體平均上架率為92%。主要用戶以大定製的大中型互聯網企業為主。如此高的上架率,在北上廣深這樣的一線城市較為常見,但在中堅這樣的西岸地區的小城市卻極為罕見。

中堅作為一個集群建設較好的地區,已經為全國有誌於發展算力集群的省市提供了很好的模板,而面對鈦媒體APP提出的中國信通院在建設集群、搭建算力平台過程中的作用時,郭亮表示,中國信通院推動中國算力平台建設的主要原因就是為了將90%的小型智算中心聯接起來,實現算力同意納管,將各類大模型產品、數據集,甚至是各類不同架構、不同生態,實現完整的打通,「讓企業實現從算力到模型,再到數據集、AI應用的完整的閉環的全聯接。」郭亮表示這是中國信通院的推動算力平台建設的目標。

《報告》中指出,在調度算力方面,實現算力高效調度。通過硬件重構和軟件定義對GPU、AI 芯片等進行聚合池化,再利用先進的資源管理技術進行切分、調度、分配,提升算力資源利用率。

而算力的調度也成為了IDC服務商提供差異化服務能力的重要抓手,以世紀互聯為例,世紀互聯憑藉多年來在IDC領域的積累,早早就開始佈局算力調度相關技術與產品。據悉,世紀互聯近年來在算力平台、調度、網絡底層協議、AI框架、Agent等方面都有大量的投入和積累。目前,世紀互聯已經在全國範圍內運行了多個跨區域的節點,節點間通過創新的AINet連接,實現不同品牌和型號的GPU異構算力和資源的調度協同,實現了在大模型訓練、微調、推理、應用全生命週期的應用和落地,滿足不同類型的客戶需求。

多元異構算力協同發展

除了算力中心與算力中心之間的算力傳輸需要平台化的產品提供協同能力以外,算力中心內部也需要一個平台,打通異構算力、多元算力之間的壁壘,讓算力更智能化,實現異構多元算力的協同工作,從而進一步提升算力效率。

針對此,《報告》中也指出,伴隨著我國算力產業建設的全面開展,存在算力市場分散、供需匹配能力不足、計算框架不同等問題,算力平台可實現對算力資源的統計、監測、匹配和分析,提升算力供給水平與資源匹配能力。算力資源需求方和提供方可積極促進算力平台的建設,以平台為依託進行供需對接,充分連接算力資源供給,實現算力的一鍵式訂購和靈活調整,推動算力普適普惠。

而此次發佈的《報告》也提出了「三高三可」的發展理念,明確高質量算力要具備高算效、高智效、高碳效、可持續、可獲得、可評估「三高三可」六大特徵。

其中高算效是指在提高算力理論算效的同時考慮更高的實測性能和資源利用率,為綜合考慮設計、運行等維度的計算效率。其目的就是為了進一步提升多元異構算力的計算效率,提升GPU、CPU利用效率。

在浪潮雲海首席科學家張東看來,提高算效是算力實現高質量發展過程中,不可或缺的一部分。另外一方面,當前大模型發展百花齊放,而現有大模型算效普遍不高。在算力供應矛盾凸顯的當下,提升模算效率,以更低的算力實現更高智能是智效水平的核心目標,這也是報告建立高智效這個指標的初衷。「作為廠商來講,我們希望每1P的算力都能被用起來,只有算力被用起來才能產生價值。但因為包括架構、協議等在內的種種因素的影響,目前還沒有達到理想的效果,這就需要無論是芯片、整機,還是上層軟件的廠商們,通過共建生態,標準化的方式,才能讓這些算力充分發揮作用。」面對鈦媒體APP提出的如何提高算效的問題時,張東指出。

無獨有偶,郭亮也認為,運用系統工程方法,構建高效的算力中心集群,通過卡間和節點間的互聯網絡、軟件和硬件的適配調優等提升集群算力效率,對大規模集群網絡進行精細化設計,減少算力資源空閑度。

從目前廠商們的佈局上也不難看出,平台化的產品,以及打造更大的生態體系已經成為了重要的佈局。以浪潮信息為例,浪潮信息今年以來主推的一個產品就是支持多元算力和多模算法的企業大模型開發平台元腦企智EPAI(以下簡稱EPAI)平台,張東在早先與鈦媒體APP的對話中曾告訴鈦媒體APP,浪潮信息推出EPAI平台最重要的一個目的就是要在眾多算力芯片之上,建立一個統一的平台,「EPAI提供了一個統一的‘算子封裝’,屏蔽了芯片的差距,」張東指出,「對於用戶而言,用戶無需關注使用的誰家的芯片,從而可以在獲取算效更高的算力的同時,將更多的精力集中在業務本身。」

除此之外,算力平台亦是各大雲廠商重點佈局的焦點,以中國電子雲為例,中國電子雲基於雲原生理念設計了中國電子雲專屬雲CECSTACK V5一體化算力平台,旨在幫助企業實現多元異構算力的統一管理和調度,並提供通用計算、智能計算和高性能計算等類型算力的一體化算力服務。

除了單一廠商的佈局外,生態的建設在推動提升算效的過程中也尤為重要,《報告》中指出,算力技術應採用多元開放的架構,兼容成熟主流的軟件生態,支 持主流的 AI 框架、算法模型、數據處理技術、廣泛的行業應用等, CPU、服務器、雲操作系統、平台層、應用層等分層解耦,消除單一 技術路線依賴,構建開放技術生態。

對此,張東表示,算力技術的開放解耦可通過標準化、模塊化的設計實現,使算力技術的各個組件能夠獨立發展、靈活組合,從而實現技術間的互聯互通和資源共享,這種模式有助於打破傳統封閉系統的限制,促進技術創新和產業融合。(本文正選於鈦媒體APP,作者|張申宇,編輯丨蓋虹達)