中國算力大會對話|劉韻潔院士:國產算力要通過GPU集群補短板

AI(人工智能)時代同樣也是算力的時代。國內外的科技企業、電信運營商紛紛「卷」起了萬卡乃至超萬卡,但生態兼容、異構計算等難題也成為行業必須翻越的高山。

9月28日,在2024中國算力大會開幕禮期間,中國工程院院士劉韻潔接受新京報貝殼財經等媒體採訪時表示,短時間內國內端點GPU仍無法與國外競爭。彌補短板的可能辦法是建設算力網絡「把整個算力練起來」,發揮GPU集群效果。

另外,他指出,不能簡單判斷哪類企業建設算力網絡更有優勢,主要還得通過技術評判。「看你的技術能不能使用、怎麼發展,看你的創新、走的路徑是不是符合需要。」對於算力成本問題,他仍強調「要用新技術解決」。

目前,劉韻潔研究的確定性網絡技術能節省60%到70%的成本,他聯合其他機構推出的算網調度項目,能夠實現多個異地訓練達到單點訓練80%的效率。

中國工程院院士劉韻潔。受訪對象供圖。中國工程院院士劉韻潔。受訪對象供圖。

建議走行業大模型賽道,要解決數據流通和算力利用率問題

「中國要走行業大模型這條路。」劉韻潔在主旨演講中強調。他認為,國內通用大模型短期內跟美國相比可能差距較大,並且追趕起來具有一定難度。

他提出,國內模型企業如果能夠在通用大模型基礎上,把行業數據訓練好、做好行業大模型,「完全可以走出中國道路」。他看好這一技術方向是因為他認為「中國行業數據最完整、全面」。

同時他表示,發展行業大模型需要政府、企業、資本一起努力。他向貝殼財經記者表示,當前,國內數據的共享、流通程度仍有待加強,這對訓練行業大模型產生了影響,「大家還在摸索」哪類賽道更有前景。

2024中國算力大會披露的數據顯示,全國算力總規模達246 EFLOPS。據劉韻潔觀察,國產算力已具備一定規模,但利用率不算十分理想。

「算力想要服務實體經濟,得幾方都說好。」劉韻潔認為,首先算力和網絡提供方要說好,「(因為)它們通過這些服務獲得了效益」。另外政府要說好,「(因為)政府解決了問題」。最後企業要說好,「(因為)企業通過使用算力、網絡提升了自身效率」。

他強調,只是「一方說好」的效果並不持久,這代表行業沒有建立起算力生態。「不解決生態問題,大家也用不起來(算力)。」

確定性網絡是未來算力網基礎技術之一,將節省60%-70%成本

「大模型訓練要求數據無損傳輸,對丟包、抖動和時延等網絡指標提出要求。」劉韻潔說。他以國際數據標準為例解釋稱,丟包率達千分之五,傳輸效率將下降50%。

他進一步解釋道,這就像在利用整條100G帶寬傳輸數據時,只有50G的帶寬有用。「當下降到1%時,它的效率約等於0,這就沒辦法訓練、推理。」

網絡不丟包需要採用RDMA(遠程直接內存訪問)協議。該技術使計算機能夠直接訪問遠程計算機的內存,在內存層面進行數據傳輸而無需GPU頻繁介入,減少數據傳輸過程中收發端的處理延遲及資源消耗。

如何達到大模型訓練、推理的數據傳輸標準?劉韻潔認為,確定性網絡技術相對符合要求,他判斷它是「將來算力網的一項基礎技術」。劉韻潔透露,2022年他帶領團隊在35個城市開通了確定性網絡,目前城市數量已增至39個,能做到端到端的時延、抖動小於50微秒,實現零丟包。

在研發確定性網絡技術過程中,劉韻潔認為最重要的技術突破是光電融合,它帶來帶寬利用率、電網成本能耗等方面的突破。

其中在成本方面,他以某一自動駕駛企業為例解釋稱,該企業在全國4個地方20輛車每天產生的自動駕駛數據,先傳回上海再傳到貴陽訓練,大概需要兩條10G和一條1G的電路,一年花費一千萬元左右。

用不起怎麼辦?改用硬盤收集數據,在兩個城市間運輸,考慮數據丟失、硬盤損害等情況,一年需要190萬元左右。而利用確定性網絡,通過切片提供服務,「一年12萬元就可以」。

劉韻潔強調,這種程度的降本通過網絡共享實現。他在主旨演講中展示的數據顯示:已在試驗網上運行三個月以上,參數效率達95%以上,成本節省60%到70%。

發揮GPU集群效果彌補國產算力短板

算力網絡可能成為未來國產算力超越國外算力的方向嗎?劉韻潔表示,更準確的理解是「彌補短板」。他認為,短時間內,我們端點GPU仍無法與國外競爭。「可能我在單個方面比不過你,但發揮群體力量後有可能比得上。」他進一步強調,發揮GPU集群效果需要建設網絡「把整個算力練起來」。

他認為,大模型可以走協同訓練、分佈式訓練的路子,「10萬張卡在一個地方訓練,電力會吃不消。」他透露,他的團隊與中國科學院、國家超級計算無錫中心等機構聯合推出的全國算力網絡調度項目,能夠達到分鐘級解決排隊問題的效果,多個異地訓練達到單點訓練80%的效率。「基本上,分佈式訓練、協同訓練是可行的。」

當談及如何協調算力硬件與軟件發展關係時,劉韻潔提出,軟硬件要結合、融合發展。

他表示,硬件生產消耗地球物理資源。「(每)消耗一點,資源就少一點。」而軟件相對靈活,可以修改,對物理資源消耗較少,「這是一個很重要的社會發展理念」。另外,劉韻潔認為,軟件開發消耗一定的人力資源,但應用AI後,開發效率有所加快。他繼而提出,凡是能用軟件代替的部分,儘量發展軟件。

「但軟件不是萬能的,必須滿足算力所要求的硬件條件。」他認為,軟件無法承擔的部分要與硬件結合發展。

如何打造共享的算力網絡生態?劉韻潔建議,有關政府部門要把它協同、管理起來,企業和科研機構等要密切配合。「這是一個整體工程,但目前大家都是自己悶頭干自己的。」

新京報貝殼財經記者 韋英姿

編輯 林子

校對 劉軍