Nature:探秘世界最快超算的一天

新智元報導  

編輯:祖楊

【新智元導讀】在美國田納西州東區的山區,一台名為Frontier的破紀錄超算為科學家提供了前所未有的機會,讓他們得以研究從原子到星系的一切。

超算建設如火如荼,無論是主權AI還是科技巨頭,都在源源不斷地給英偉達輸血、建數據中心。

而在這之前,截止到2023年12月,世界上運算速度最快的超算,是位於美國田納西州橡樹嶺的Frontier,也被稱為OLCF-5。

Frontier配備的是AMD的CPU和GPU,有5萬個處理器(其中包含3.8萬個GPU),運算速度為1.102 exaFLOPS,即每秒1.102百億億(1018)次浮點運算。

這個速度甚至比10萬台筆記本同時工作還要更快,而且在2022年首次亮相時,Frontier還破了一個紀錄——第一次突破了百億億次運算速度的門檻。

Frontier超算的覆蓋面積比兩個籃球場還要大Frontier超算的覆蓋面積比兩個籃球場還要大

之所以要追求如此卓越的速度和規模,是為了滿足各領域前沿科學研究中模擬計算的需要。

Frontier十分擅長創建模擬,並能同時捕捉到大尺度的模式和小尺度的細節,比如微小的雲滴如何影響氣候變暖的速度。

如今,研究人員們從世界各地登錄Frontier,創建從亞原子粒子到星系的一切尖端模型,包括模擬蛋白質進行藥物發現和涉及、模擬湍流以改進飛機發動機,以及訓練能和Google、OpenAI競爭的開源LLM。

但是,就在今年四月的一天,Frontier的運作出現了一點意外。

Frontier所在的田納西州橡樹嶺國家實驗室科學主任Bronson Messer表示,為了為了跟上世界各地科學家們的要求,Frontier的功耗急劇上升,峰值達到了約27兆瓦,足以為大約1萬個家庭供電。

這也為超算的冷卻系統帶來了挑戰,用Messer的話說,「機器像一條被燙傷的狗一樣在運行」。

根據2023年的統計,Frontier共有1744個用戶,遍佈18個國家,貢獻的計算和數據支撐了至少500篇已經公開發表的論文。

探秘Frontier「大腦」內部

和我們想像的場景類似,Frontier所在的機房類似於一個倉庫,運轉時發出的電子嗡嗡聲穩定而輕柔。

機房中共有74個機架,每個節點分別包含4個GPU和1個CPU。之所以有如此快的運算速度,就是得益於龐大的GPU數量。

實驗室主任Messer形容道,「這些GPU運行得非常快,但也愚蠢至極,它們可以一遍又一遍地做同一件事。」

這種同時處理多項運算的功能對超算的快速工作非常有用,但除此之外,也沒什麼其他任務了。

這種「愚蠢至極」的背後,是一種通用性,各領域的科學家都可以通過定製代碼來運行GPU。

Frontier的運轉日夜不停,同樣連軸轉的還有負責運營、維護的工程團隊。

負責建造這台超算的工程師團隊來自惠普公司,其中一位技術人員Corey Edmonds表示,他們有一個工程團隊會對Frontier進行持續監控,判斷是否存在故障跡象。

比如其中一位夜班人員Conner Cunningham的工作時間就是晚7點到早7點,負責用十多個監視器關注網絡和建築物的安全,並監控當地天氣,確保Frontier正常運轉。

實際上,大多數夜晚都是「平安夜」,Cunningham一般只需要巡查幾次,其餘時間都可以在工位上學習。

「這項工作有點像消防員,如果發生任何事,需要有人在崗監控。」

助力大科學

雖然Frontier日夜不停地運轉,但研究人員想要申請到使用機會,也並不是一件容易的事。

科學主任Messer和其他3位同事負責使用提案的評估和批準,他們去年共批準了131個項目,通過率約為1/4,

申請人需要表明其項目需要利用整個超算系統才能獲批,一般用於對各種時間和空間尺度進行建模。

Frontier每年共有約6500萬個節點時(node-hour)可用,研究人員得到的最常見的分配額度為50萬個節點時,相當於全系統連續運行三天。

Messer表示,相比其他數據中心,研究人員在Frontier上獲得的計算資源大約多出十倍。

Frontier擁有超過5萬個處理器,並採用液冷Frontier擁有超過5萬個處理器,並採用液冷

有了更快的運算速度、更多的計算資源,研究人員們就能做出更加雄心勃勃的「大科學」。

比如,在原子級精度精確地模擬生物過程,像是溶液中的蛋白質或核酸如何與細胞其他部分發生相互作用。

今年5月,有學者用Frontier模擬了含有超過1550億個水分子的立方體形狀的水滴,大小約為人類頭髮寬度的十分之一,是有史以來規模最大的原子級模擬之一。

短期內,研究人員希望模擬細胞器來為實驗室提供信息;此外他們還希望將這些高解像度的模擬結果,與X射線自由電子激光器的超快成像相結合,以加速發現。

這些工作都是為今後更大的目標做鋪墊——從原子開始對整個細胞進行建模。

有了Frontier,氣候模型也變得更加精確。

去年,氣候科學家Matt Norman和其他研究人員使用Frontier運行了解像度為3.25公里的全球氣候模型,其中還結合了解像度更加精細的複雜的雲層運動。

為了創建長達數十年的預測模型,Frontier的計算能力是十分必要的,而且需要用上整個系統的算力才能做到。

對於一個適用於天氣和氣候預測的模型,至少需要每天進行一年的模擬運行。

Frontier每天可以模擬1.26年,這個速度可以使研究人員能夠創建比以前更準確的50年預測。

如果換到其他計算機上運行,要達到相同的解像度,同時考慮雲的影響,計算速度則會慢得多。

在更大的宇宙級尺度上,Frontier也能帶來更高的解像度。

匹茲堡大學的天體物理學家Evan Schneider也在使用Frontier,研究銀河系大小的星系如何隨著年齡的增長而演化。

他們創建的星系模型跨越四個數量級,最大規模可達約10萬光年。而在Frontier之前,以類似的解像度模擬的最大結構是矮星系,質量約為五十分之一。

Frontier對AI意味著什麼

作為曾經的世界第一,Frontier的地位顯得更加獨特,因為這台超算是為數不多的屬於公共部門的設備,而非由工業界主導。

由於AI領域的研究往往需要吞噬龐大的算力,學術界和工業界的成果存在巨大的鴻溝。

有學者統計過, 2021 年,96%的最大的AI模型來自工業界。平均而言,工業界模型的規模是學術模型的近30倍。

這種差異在投資金額方面也很明顯。美國的非國防公共機構在2021年提供了15億美元支持AI研究。同年,全球工業界支出超過3400億美元。

而自從GPT-4、Gemini Ultra等商業LLM發佈以來,兩者之前的差距又被進一步擴大,這種投資鴻溝導致工業界和學術界可用的計算資源明顯不對稱。

由於工業界的模型開發以盈利為目的,往往會忽視很多技術發展中必須要面對的重要問題,比如基礎研究、低收入群體的需求、評估模型風險、糾正模型偏見等等。

如果學術界要承擔起這些責任,就需要能和行業規模匹配的算力,這就是Frontier的用武之地。

一個最典型的例子,科技公司訓練出的LLM往往保留不同程度的專有性,但研究者們往往會獎自己開發的模型免費提供給任何人使用。

馬里蘭大學帕加分校的計算機科學家Abhinav Bhatele表示,這將有助於大學研究人員與公司競爭,「學術界人士訓練類似規模模型的唯一方法是獲得像Frontier這樣的資源。」

Bhatele認為,Frontier等設施在AI領域就是發揮著這種至關重要的作用,讓更多的人參與到技術開發中,共享成果。

但值得注意的是,這場國家之間、科技公司和非營利機構間的算力基礎設施競賽,依舊在持續,能力強大如Frontier也終會有跌落的一天。

橡樹嶺實驗室已經在規劃Frontier的繼任者,名為Discovery,計算速度將提升3~5倍。

作為參考,Frontier相比2014年的最快的超算天河二號A快了35倍,比2004年最快的超算Earth Simulator快3.3萬倍。

研究人員仍然渴望更快的速度,但工程師們面臨著持續的挑戰,其中一方面就是能源。

Frontier的能源效率相比Summit就提升了4倍多,很大程度上是源於不同的冷卻方案。

Frontier使用室溫水進行冷卻,與Summit使用冷水不同。Frontier總能耗的大約3%~4%用於冷卻,而Summit 的這一比例為10%。

與 Summit 使用雪藏水不同。Frontier 總能耗的大約 3-4% 用於冷卻,而 Summit 的這一比例為 10%。

多年來,能源效率一直是構建更先進超算的關鍵瓶頸,而在可預見的將來,這個瓶頸估計會持續存在。

實驗室主任Messer表示, 「我們本可以在2012年建造一台百億億次級別的超算,但提供動力的成本太高了,需要多一兩個數量級的電力。」

參考資料:

https://www.nature.com/articles/d41586-024-02832-5