HPC 2024:上半年建 140 個智算中心,但實際需求正萎縮

超算與智算正在加速融合。

作者|朱可軒

編輯|陳彩嫻

9 月 24 日至 26 日,第 20 屆 CCF 全國高性能計算學術年會(CCF HPC China 2024)在武漢市中國光穀科技會展中心舉行,主題為「華章廿載  新質未來」。

本屆大會由 12 位院士領銜,攜手了來自算力領域的 400 多位頂尖學者,進行學術交流和專題分享。值得一提的是,此次參會人數也創下曆屆新高,總數突破 4000 人。

在當下的智算時代,面對軟硬件兼容複雜、訓練集群故障頻發、可用算力效率不高、電力及空間限制等算力相關「卡脖子」的問題,多名業內大佬闡述了自身認知。

在結合海內外發展的判斷下,他們也先後展開了包括「高通量以太網(ETH+)」「晶圓級變結構計算」「類腦算力」等在內多種解法的分享和探討。

值得一提的是,有關於全球市場中「算力的盡頭是電力」的類似焦慮,在會上也出現了不同的聲音——中國工程院院士鄔江興特別強調了「用電力拚算力」這一發展範式的不可持續。

另外,AI 科技評論注意到,作為一年一度為超算、智算、數算等提供學術交流機會的平台,在今年的 CCF HPC 中,「超智融合」被一眾大咖反復提及,成為本屆大會最鮮明的特點。

這也是在不少業內人士的預判中,未來解決國內計算瓶頸的重要路徑。

超算是可以用來訓練 AI 的,而國內過往在超算領域的豐富經驗積累,需要移植到智算領域中來,超算和智算走向融合已然成為大勢所趨。

這一趨勢的出現,也標誌著 HPC 由傳統通用計算主導的科學計算,逐步過渡到了異構加速的 AI 計算新時代。

需要關注的是,近年,對於「算力網」這一概念的呼聲走高也同超智融合息息相關。這也是基於中美需求差異的洞察下,更為符合國內算力市場現狀的解決方案之一。

1

算力的瓶頸與破局之道

當前,國內在算力集群之上已有不少千卡、萬卡級別的實踐,但要實現十萬卡,甚至超萬卡的突破仍頗具挑戰性。

國產算力究竟還有哪些「卡脖子」的問題?在此次 CCF HPC China 2024 上,業界大咖齊聚一堂對此作出討論,與此同時,也帶來了多種不同的解題思路。

「大算力需要大集群的擴展,但大集群並不一定能夠提供大算力」,高通量以太網聯盟執行主席、中國科學院計算技術副研究院王展分析。

「今天基於並行的計算範式,對於每次的計算迭代來說,完成之後 GPU 之間都要通過全局參數和提督同步才能進行下一輪迭代,這種同步通信的特質決定了訓練集群很強的‘木桶短板’效應,任何一點擁塞、故障,都會導致整個集群訓練性能的損失或下降。」

所以,「為了讓大集群獲得好的算力,提高算力的線性擴展度,需要做很多方面的優化工作,包括上面的算法、通訊框架、並行的計算模式,以及計算和網絡協同,存儲和網絡的協同等等。」他總結髮現,「其中最核心的需求是需要一個穩定高性能的網絡互聯。」

去年,大模型的興起帶動了算力需求的提升,而王展觀察到,「彼時,許多頭部互聯網和雲計算公司都還沒有基於以太網成熟的解決方案,一時間業內唱衰以太網,認為只有 InfiniBand(IB)才可以提供高性能的網絡互聯。」

發展至今年,「高通量以太網(ETH+)」逐漸走向主流舞台,也在今年的大會上再度引來一波熱議。而從海外巨頭的動向來看,據王展透露,AMD 發佈的 UALINK 聯盟也或將改為以太網:

「目前,AMD 採用的是 Infinity Fabri(IF )的私有協議,在服務器內部是基於全互聯,而它下一步的 GPU 一定是採用 Infinity Fabric Switch放在服務的外部,這方面如何構建將成為行業重要風向標。」

不過,「高通量以太網(ETH+)」僅僅是解決思路之一,鄔江興給出的「答卷」則聚焦於「晶圓級變結構計算」。

在他看來,國內算力發展還有著以下難點:

一是性能增長與算力需求的矛盾凸顯;二是還原論模式導入帶寬、時延和單位算力密度的插損;三是剛性計算架構造成總體效率低下;四是存儲程序控制機理存在自在性安全矛盾。

當前,晶上計算正成為大規模、低功耗、高密度、高性能計算系統主流,這一點從世界主流廠商的佈局中可以窺見一斑——

2019 年,美國 AI 芯片獨角獸 Cerebres Systems 首推晶圓級處理器 WSE 系列挑戰英偉達。2021年,特斯拉也推出了晶圓級 Dojo 處理器,此外,也包括英特爾的 M2+ 晶圓級拚裝、台積電的 TSMC-SoW 等等。

而和前述佈局稍有不同的是,鄔江興講述了「軟件定義晶上繫統(SDSoW)」的新概念。

他提出了一個「SMV困境定理」,即現實技術物理環境在滿足全生命週期可擴展性前提下,任何單一技術體制都不可能在S、M、V三維空間內同時達到最優,這也是當前國產算力發展之時,所面對的計算架構單一性與算力需求多樣性的矛盾所在。

針對這一「不可能三角」,「變結構計算」則是關鍵突破點。據鄔江興介紹,變結構計算的第一性原理為軟件定義的節點+互聯,SDSoW 則是這一解法的物理實現載體。

不同的算力處理特徵適用場景各有差異,於是芯片也需要實現異構融合,這也同人腦處理任務具有相似之處。沿著這套邏輯,「類腦算力」的概念也成為當前業界前沿的思考之一。

「類腦處理器(BPU)更加接近生物腦信息處理特徵,比較適用於一些密度比高的矩陣和稀疏矩陣,以及知識圖譜、動力學方程的運算,處理非結構化隨機排布的數據運算更有效率。」中國科學院院士張旭如是說道。

當前,在全球範圍內均有類腦計算相關佈局——去年年底,廣東智能科學與技術研究院發佈了天琴芯類腦晶圓計算芯片,今年 4 月,英特爾也發佈了 Hala Point 大型神經擬態系統。

不過,類腦芯片在功耗上能夠佔據一定優勢的同時,對於成本問題,在業內仍有部分顧慮的聲音存在。

另外,值得一提的是,電力也是算力發展過程中屢屢被強調的關鍵一環。

「我在一年前預測過芯片短缺,而下一個短缺的將是電力,明年將沒有足夠的電力來運行所有芯片。」特斯拉首席執行官埃隆·馬斯克曾發表過這方面的擔憂。

無獨有偶,此前,OpenAI 創始人山姆·奧特曼也曾提出類似警告:「下一波生成型人工智能系統消耗的電力將遠遠超出預期,能源系統將難以應對,未來AI的技術取決於能源,我們需要更多的光伏和儲能。」

美國科技巨頭們的焦慮盡顯,海外研究機構曾有報告稱,ChatGPT 每天要響應大約 2 億個請求,在此過程中消耗超過 50 萬度電力,這基本相當於 1.7 萬個美國普通家庭的用電量。

針對國內情況,鄔江興在會上對此發表了不同看法,他強調了「用電力拚算力」這一發展範式的不可持續。「算力的極限不是電力,不應該是電力,電力支持不了算力的持續發展。」鄔江興堅持認為。

2

「超智融合」已成大勢所趨

今年以來,「超智融合」也已成為業界廣泛認可的國內 HPC 新趨勢,這一點在本次大會上體現尤為明顯。

「超算是可以用來訓練超大模型的」,清華大學計算機系教授陳文光在演講中提到,「過去,我國在超算上是有很好的基礎的,那為什麼到了智算時代,所有人都覺得我們落後了很多,是不是可以把超算領域的經驗移植到智算領域裡面來,通過‘超智融合’的方式。」

他也在過往實踐中驗證了這一觀點的可行性——

「我們在新神威計算機上研發了一個大模型訓練框架叫‘Bagualu’,不過之前沒有說要去超智融合,所以在雙精度算力和半精度算力上面只做到了 1:4。但是如果這台機器能做到 1:16,用來做 AI 訓練的話也會有一定競爭力。」陳文光說道。

他認為,超智融合或為解決國內算力瓶頸的重要路線:

「確實超算過去只有科學和工程計算作為主要的應用,面臨商業用戶相對來說是比較少的問題,如果能夠做到很好的超智融合,也能給國產超級計算及的商業應用,提高整個的投資效率起到很好的作用。」

並行科技董事長、CCF 副理事長陳健對於「超智融合」的趨勢也有類似的感受。

在他看來,「在 AI 的進化史中,較長時間內我們理解 AI 是 AI,超算是超算。但從去年開始,AI的大模型訓練需求暴漲,這是典型的並行計算應用,底層需要超級計算機,是以 GPU 為主的超級計算機。其實超算也並不是說只有 CPU 的超級計算機,我們去看 top500,70% 是英偉達和 AMD 的 GPU 搭建起來的超級計算機,主要的算力是由 GPU 來組成的。」

自「百模大戰」打響後,過去兩年,業內不少實踐發現,傳統的基於雲主機、虛擬化所搭建的雲服務平台,面對大模型訓練並不合適,而最關鍵的一點在於,沒有解決卡與卡之間性能的問題,也就是超算中常用的帶寬問題,或者說計算與通信的比例關係。

陳健將當前大模型的算力需求總結為以下方面——超大規模大模型訓練供不應求,包括微調在內的常規的大模型訓練供大於求。

對於常規大模型訓練,目前看到的情況是:「今年上半年大概有 140 多個智算中心在建,全國在規劃中的共有 250 多個智算中心,這部分算力搭建出來之後,大概率是 2000 卡以下的集群,而現在這樣的需求正在萎縮。」

其中,關鍵原因在於兩方面——「卷」基礎大模型的廠商變少以及隨著基礎大模型版本的更新迭代,許多行業模型的存在價值正在消失。

當前,業內有關「算力網」建設的呼籲,則是在對「超智融合」這一趨勢的預判之下給出的解決方案,對此,大會現場也有不少相關討論。

國防科技大學院士王懷民介紹道,「超算與智算融合不僅體現在算力中心,還出現在更廣泛範圍內算力中心資源的有效連接和共享,所以我們都在呼喚中國算力網的出現。」

這也是由中美需求上的差異所決定的,美國的算力主要集中在雲服務商手裡,通信運營商並沒有很強的算力,也並沒有強調建立算力網,而是利用分佈式的系統和編程語言技術來解決雲的孤立的問題。

中國工程院院士李國傑以天空實驗室為例介紹了美國的當前情況——

「Spark 的發明人 Ion Stoica 組建了一個 SkyComputing 實驗室,2022 年正式啟動,主要是想解決雲服務平台的孤島問題,想要發展成一種公共服務。主要包括三層平台,兼容層隱藏雲之間的差異,雲間層尋找不同服務的最佳性價比,互惠對等層則主要實現免費和快速地在雲間傳輸。」

說回到國內,據李國傑觀察,當前,由於在訓練過程中需要頻繁交換模型參數和梯度信息,所以實現反向傳播的延遲通常要控制在毫秒級以下,國內的龍頭企業都在做支持 10 萬 GPU 卡以上規模的大模型,但採用的都是相對集中的集群系統,並沒有採用異地分佈式計算。

「他們的集群一般裝在一個園區,可能有幾個樓,分成幾個計算島,島裡面進行張量並行和流水線並行,島之間做數據並行。但數據並行有個大問題,它要求一個 GPU 就要把整個模型參數存起來,GPT4 有 1.8 萬億參數,可能需要 10 個 TB 以上的內存,這個成本非常高。」他說道。

同時,他還表示,「在西岸建很多小的超算中心、智算中心,聯合起來就可以解決我們國家的人工智能訓練問題,這樣的想法可能並不太可靠。」

較為可行的解法還是「算力網」。

在李國傑的設想中,「算力網要發揮智能時代的基礎設施的作用,也需要像有瀏覽器、微信一樣的全民的普及應用。」

當前算力提供商、政府及學界紛紛在呼籲算力網的建設,在這方面也做出了不同的努力:

運營商佈局雲網融合,地方政府建算力樞紐中心,計算機界則聚焦於分佈式計算的基礎研究,例如,中科院計算所在做信息高鐵項目、劉韻潔院士在做確定性計算網絡、蔣昌俊院士在做機動性的方艙計算。

不過李國傑也發現,目前,真正需要這種遠程算力的關鍵用戶到底在哪,暫時還不是很清楚。

未來,在用戶需求洞察的基礎之上,前述各方佈局可以形成一定合力。

「最迫切的一點在於為需要幾百卡、幾千卡做訓練的中小模型單位找到合適的算力,如果把這件事真正做好了,就能打磨出算力網的 1.0 版本。幾年後,推理會比訓練需要更多算力,等到那時再升級 2.0 版本的算力網。」李國傑預判。

當前,算力網的抽像還涉及以下四個問題:一是怎麼統一命名資源空間,也就是實現算力資源的池化;二是怎麼提供一個萬維網網頁一樣的運行式抽像;三是怎麼提供一個統一的編程方法;四是怎麼系統性評價算力網的性能。