HPC 2024：上半年建 140 個智算中心，但實際需求正萎縮

09月30日 17:31 新浪網 news-china-auto-hilite

超算與智算正在加速融合。

作者｜朱可軒

編輯｜陳彩嫻

9 月 24 日至 26 日，第 20 屆 CCF 全國高性能計算學術年會（CCF HPC China 2024）在武漢市中國光穀科技會展中心舉行，主題為「華章廿載新質未來」。

本屆大會由 12 位院士領銜，攜手了來自算力領域的 400 多位頂尖學者，進行學術交流和專題分享。值得一提的是，此次參會人數也創下曆屆新高，總數突破 4000 人。

在當下的智算時代，面對軟硬件兼容複雜、訓練集群故障頻發、可用算力效率不高、電力及空間限制等算力相關「卡脖子」的問題，多名業內大佬闡述了自身認知。

在結合海內外發展的判斷下，他們也先後展開了包括「高通量以太網(ETH+)」「晶圓級變結構計算」「類腦算力」等在內多種解法的分享和探討。

值得一提的是，有關於全球市場中「算力的盡頭是電力」的類似焦慮，在會上也出現了不同的聲音——中國工程院院士鄔江興特別強調了「用電力拚算力」這一發展範式的不可持續。

另外，AI 科技評論注意到，作為一年一度為超算、智算、數算等提供學術交流機會的平台，在今年的 CCF HPC 中，「超智融合」被一眾大咖反復提及，成為本屆大會最鮮明的特點。

這也是在不少業內人士的預判中，未來解決國內計算瓶頸的重要路徑。

超算是可以用來訓練 AI 的，而國內過往在超算領域的豐富經驗積累，需要移植到智算領域中來，超算和智算走向融合已然成為大勢所趨。

這一趨勢的出現，也標誌著 HPC 由傳統通用計算主導的科學計算，逐步過渡到了異構加速的 AI 計算新時代。

需要關注的是，近年，對於「算力網」這一概念的呼聲走高也同超智融合息息相關。這也是基於中美需求差異的洞察下，更為符合國內算力市場現狀的解決方案之一。

算力的瓶頸與破局之道

當前，國內在算力集群之上已有不少千卡、萬卡級別的實踐，但要實現十萬卡，甚至超萬卡的突破仍頗具挑戰性。

國產算力究竟還有哪些「卡脖子」的問題？在此次 CCF HPC China 2024 上，業界大咖齊聚一堂對此作出討論，與此同時，也帶來了多種不同的解題思路。

「大算力需要大集群的擴展，但大集群並不一定能夠提供大算力」，高通量以太網聯盟執行主席、中國科學院計算技術副研究院王展分析。

「今天基於並行的計算範式，對於每次的計算迭代來說，完成之後 GPU 之間都要通過全局參數和提督同步才能進行下一輪迭代，這種同步通信的特質決定了訓練集群很強的‘木桶短板’效應，任何一點擁塞、故障，都會導致整個集群訓練性能的損失或下降。」

所以，「為了讓大集群獲得好的算力，提高算力的線性擴展度，需要做很多方面的優化工作，包括上面的算法、通訊框架、並行的計算模式，以及計算和網絡協同，存儲和網絡的協同等等。」他總結髮現，「其中最核心的需求是需要一個穩定高性能的網絡互聯。」

去年，大模型的興起帶動了算力需求的提升，而王展觀察到，「彼時，許多頭部互聯網和雲計算公司都還沒有基於以太網成熟的解決方案，一時間業內唱衰以太網，認為只有 InfiniBand（IB）才可以提供高性能的網絡互聯。」

發展至今年，「高通量以太網（ETH+）」逐漸走向主流舞台，也在今年的大會上再度引來一波熱議。而從海外巨頭的動向來看，據王展透露，AMD 發佈的 UALINK 聯盟也或將改為以太網：

「目前，AMD 採用的是 Infinity Fabri（IF ）的私有協議，在服務器內部是基於全互聯，而它下一步的 GPU 一定是採用 Infinity Fabric Switch放在服務的外部，這方面如何構建將成為行業重要風向標。」

不過，「高通量以太網（ETH+）」僅僅是解決思路之一，鄔江興給出的「答卷」則聚焦於「晶圓級變結構計算」。

在他看來，國內算力發展還有著以下難點：

一是性能增長與算力需求的矛盾凸顯；二是還原論模式導入帶寬、時延和單位算力密度的插損；三是剛性計算架構造成總體效率低下；四是存儲程序控制機理存在自在性安全矛盾。

當前，晶上計算正成為大規模、低功耗、高密度、高性能計算系統主流，這一點從世界主流廠商的佈局中可以窺見一斑——

2019 年，美國 AI 芯片獨角獸 Cerebres Systems 首推晶圓級處理器 WSE 系列挑戰英偉達。2021年，特斯拉也推出了晶圓級 Dojo 處理器，此外，也包括英特爾的 M2+ 晶圓級拚裝、台積電的 TSMC-SoW 等等。

而和前述佈局稍有不同的是，鄔江興講述了「軟件定義晶上繫統（SDSoW）」的新概念。

他提出了一個「SMV困境定理」，即現實技術物理環境在滿足全生命週期可擴展性前提下，任何單一技術體制都不可能在S、M、V三維空間內同時達到最優，這也是當前國產算力發展之時，所面對的計算架構單一性與算力需求多樣性的矛盾所在。

針對這一「不可能三角」，「變結構計算」則是關鍵突破點。據鄔江興介紹，變結構計算的第一性原理為軟件定義的節點+互聯，SDSoW 則是這一解法的物理實現載體。

不同的算力處理特徵適用場景各有差異，於是芯片也需要實現異構融合，這也同人腦處理任務具有相似之處。沿著這套邏輯，「類腦算力」的概念也成為當前業界前沿的思考之一。

「類腦處理器（BPU）更加接近生物腦信息處理特徵，比較適用於一些密度比高的矩陣和稀疏矩陣，以及知識圖譜、動力學方程的運算，處理非結構化隨機排布的數據運算更有效率。」中國科學院院士張旭如是說道。

當前，在全球範圍內均有類腦計算相關佈局——去年年底，廣東智能科學與技術研究院發佈了天琴芯類腦晶圓計算芯片，今年 4 月，英特爾也發佈了 Hala Point 大型神經擬態系統。

不過，類腦芯片在功耗上能夠佔據一定優勢的同時，對於成本問題，在業內仍有部分顧慮的聲音存在。

另外，值得一提的是，電力也是算力發展過程中屢屢被強調的關鍵一環。

「我在一年前預測過芯片短缺，而下一個短缺的將是電力，明年將沒有足夠的電力來運行所有芯片。」特斯拉首席執行官埃隆·馬斯克曾發表過這方面的擔憂。

無獨有偶，此前，OpenAI 創始人山姆·奧特曼也曾提出類似警告：「下一波生成型人工智能系統消耗的電力將遠遠超出預期，能源系統將難以應對，未來AI的技術取決於能源，我們需要更多的光伏和儲能。」

美國科技巨頭們的焦慮盡顯，海外研究機構曾有報告稱，ChatGPT 每天要響應大約 2 億個請求，在此過程中消耗超過 50 萬度電力，這基本相當於 1.7 萬個美國普通家庭的用電量。

針對國內情況，鄔江興在會上對此發表了不同看法，他強調了「用電力拚算力」這一發展範式的不可持續。「算力的極限不是電力，不應該是電力，電力支持不了算力的持續發展。」鄔江興堅持認為。

「超智融合」已成大勢所趨

今年以來，「超智融合」也已成為業界廣泛認可的國內 HPC 新趨勢，這一點在本次大會上體現尤為明顯。

「超算是可以用來訓練超大模型的」，清華大學計算機系教授陳文光在演講中提到，「過去，我國在超算上是有很好的基礎的，那為什麼到了智算時代，所有人都覺得我們落後了很多，是不是可以把超算領域的經驗移植到智算領域裡面來，通過‘超智融合’的方式。」

他也在過往實踐中驗證了這一觀點的可行性——

「我們在新神威計算機上研發了一個大模型訓練框架叫‘Bagualu’，不過之前沒有說要去超智融合，所以在雙精度算力和半精度算力上面只做到了 1：4。但是如果這台機器能做到 1：16，用來做 AI 訓練的話也會有一定競爭力。」陳文光說道。

他認為，超智融合或為解決國內算力瓶頸的重要路線：

「確實超算過去只有科學和工程計算作為主要的應用，面臨商業用戶相對來說是比較少的問題，如果能夠做到很好的超智融合，也能給國產超級計算及的商業應用，提高整個的投資效率起到很好的作用。」

並行科技董事長、CCF 副理事長陳健對於「超智融合」的趨勢也有類似的感受。

在他看來，「在 AI 的進化史中，較長時間內我們理解 AI 是 AI，超算是超算。但從去年開始，AI的大模型訓練需求暴漲，這是典型的並行計算應用，底層需要超級計算機，是以 GPU 為主的超級計算機。其實超算也並不是說只有 CPU 的超級計算機，我們去看 top500，70% 是英偉達和 AMD 的 GPU 搭建起來的超級計算機，主要的算力是由 GPU 來組成的。」

自「百模大戰」打響後，過去兩年，業內不少實踐發現，傳統的基於雲主機、虛擬化所搭建的雲服務平台，面對大模型訓練並不合適，而最關鍵的一點在於，沒有解決卡與卡之間性能的問題，也就是超算中常用的帶寬問題，或者說計算與通信的比例關係。

陳健將當前大模型的算力需求總結為以下方面——超大規模大模型訓練供不應求，包括微調在內的常規的大模型訓練供大於求。

對於常規大模型訓練，目前看到的情況是：「今年上半年大概有 140 多個智算中心在建，全國在規劃中的共有 250 多個智算中心，這部分算力搭建出來之後，大概率是 2000 卡以下的集群，而現在這樣的需求正在萎縮。」

其中，關鍵原因在於兩方面——「卷」基礎大模型的廠商變少以及隨著基礎大模型版本的更新迭代，許多行業模型的存在價值正在消失。

當前，業內有關「算力網」建設的呼籲，則是在對「超智融合」這一趨勢的預判之下給出的解決方案，對此，大會現場也有不少相關討論。

國防科技大學院士王懷民介紹道，「超算與智算融合不僅體現在算力中心，還出現在更廣泛範圍內算力中心資源的有效連接和共享，所以我們都在呼喚中國算力網的出現。」

這也是由中美需求上的差異所決定的，美國的算力主要集中在雲服務商手裡，通信運營商並沒有很強的算力，也並沒有強調建立算力網，而是利用分佈式的系統和編程語言技術來解決雲的孤立的問題。

中國工程院院士李國傑以天空實驗室為例介紹了美國的當前情況——

「Spark 的發明人 Ion Stoica 組建了一個 SkyComputing 實驗室，2022 年正式啟動，主要是想解決雲服務平台的孤島問題，想要發展成一種公共服務。主要包括三層平台，兼容層隱藏雲之間的差異，雲間層尋找不同服務的最佳性價比，互惠對等層則主要實現免費和快速地在雲間傳輸。」

說回到國內，據李國傑觀察，當前，由於在訓練過程中需要頻繁交換模型參數和梯度信息，所以實現反向傳播的延遲通常要控制在毫秒級以下，國內的龍頭企業都在做支持 10 萬 GPU 卡以上規模的大模型，但採用的都是相對集中的集群系統，並沒有採用異地分佈式計算。

「他們的集群一般裝在一個園區，可能有幾個樓，分成幾個計算島，島裡面進行張量並行和流水線並行，島之間做數據並行。但數據並行有個大問題，它要求一個 GPU 就要把整個模型參數存起來，GPT4 有 1.8 萬億參數，可能需要 10 個 TB 以上的內存，這個成本非常高。」他說道。

同時，他還表示，「在西岸建很多小的超算中心、智算中心，聯合起來就可以解決我們國家的人工智能訓練問題，這樣的想法可能並不太可靠。」

較為可行的解法還是「算力網」。

在李國傑的設想中，「算力網要發揮智能時代的基礎設施的作用，也需要像有瀏覽器、微信一樣的全民的普及應用。」

當前算力提供商、政府及學界紛紛在呼籲算力網的建設，在這方面也做出了不同的努力：

運營商佈局雲網融合，地方政府建算力樞紐中心，計算機界則聚焦於分佈式計算的基礎研究，例如，中科院計算所在做信息高鐵項目、劉韻潔院士在做確定性計算網絡、蔣昌俊院士在做機動性的方艙計算。

不過李國傑也發現，目前，真正需要這種遠程算力的關鍵用戶到底在哪，暫時還不是很清楚。

未來，在用戶需求洞察的基礎之上，前述各方佈局可以形成一定合力。

「最迫切的一點在於為需要幾百卡、幾千卡做訓練的中小模型單位找到合適的算力，如果把這件事真正做好了，就能打磨出算力網的 1.0 版本。幾年後，推理會比訓練需要更多算力，等到那時再升級 2.0 版本的算力網。」李國傑預判。

當前，算力網的抽像還涉及以下四個問題：一是怎麼統一命名資源空間，也就是實現算力資源的池化；二是怎麼提供一個萬維網網頁一樣的運行式抽像；三是怎麼提供一個統一的編程方法；四是怎麼系統性評價算力網的性能。

你可能喜歡