Nature：探秘世界最快超算的一天

09月15日 12:46 新浪網 news-china-auto-hilite

新智元報導

編輯：祖楊

【新智元導讀】在美國田納西州東區的山區，一台名為Frontier的破紀錄超算為科學家提供了前所未有的機會，讓他們得以研究從原子到星系的一切。

超算建設如火如荼，無論是主權AI還是科技巨頭，都在源源不斷地給英偉達輸血、建數據中心。

而在這之前，截止到2023年12月，世界上運算速度最快的超算，是位於美國田納西州橡樹嶺的Frontier，也被稱為OLCF-5。

Frontier配備的是AMD的CPU和GPU，有5萬個處理器（其中包含3.8萬個GPU），運算速度為1.102 exaFLOPS，即每秒1.102百億億（1018）次浮點運算。

這個速度甚至比10萬台筆記本同時工作還要更快，而且在2022年首次亮相時，Frontier還破了一個紀錄——第一次突破了百億億次運算速度的門檻。

Frontier超算的覆蓋面積比兩個籃球場還要大

Frontier超算的覆蓋面積比兩個籃球場還要大

之所以要追求如此卓越的速度和規模，是為了滿足各領域前沿科學研究中模擬計算的需要。

Frontier十分擅長創建模擬，並能同時捕捉到大尺度的模式和小尺度的細節，比如微小的雲滴如何影響氣候變暖的速度。

如今，研究人員們從世界各地登錄Frontier，創建從亞原子粒子到星系的一切尖端模型，包括模擬蛋白質進行藥物發現和涉及、模擬湍流以改進飛機發動機，以及訓練能和Google、OpenAI競爭的開源LLM。

但是，就在今年四月的一天，Frontier的運作出現了一點意外。

Frontier所在的田納西州橡樹嶺國家實驗室科學主任Bronson Messer表示，為了為了跟上世界各地科學家們的要求，Frontier的功耗急劇上升，峰值達到了約27兆瓦，足以為大約1萬個家庭供電。

這也為超算的冷卻系統帶來了挑戰，用Messer的話說，「機器像一條被燙傷的狗一樣在運行」。

根據2023年的統計，Frontier共有1744個用戶，遍佈18個國家，貢獻的計算和數據支撐了至少500篇已經公開發表的論文。

探秘Frontier「大腦」內部

和我們想像的場景類似，Frontier所在的機房類似於一個倉庫，運轉時發出的電子嗡嗡聲穩定而輕柔。

機房中共有74個機架，每個節點分別包含4個GPU和1個CPU。之所以有如此快的運算速度，就是得益於龐大的GPU數量。

實驗室主任Messer形容道，「這些GPU運行得非常快，但也愚蠢至極，它們可以一遍又一遍地做同一件事。」

這種同時處理多項運算的功能對超算的快速工作非常有用，但除此之外，也沒什麼其他任務了。

這種「愚蠢至極」的背後，是一種通用性，各領域的科學家都可以通過定製代碼來運行GPU。

Frontier的運轉日夜不停，同樣連軸轉的還有負責運營、維護的工程團隊。

負責建造這台超算的工程師團隊來自惠普公司，其中一位技術人員Corey Edmonds表示，他們有一個工程團隊會對Frontier進行持續監控，判斷是否存在故障跡象。

比如其中一位夜班人員Conner Cunningham的工作時間就是晚7點到早7點，負責用十多個監視器關注網絡和建築物的安全，並監控當地天氣，確保Frontier正常運轉。

實際上，大多數夜晚都是「平安夜」，Cunningham一般只需要巡查幾次，其餘時間都可以在工位上學習。

「這項工作有點像消防員，如果發生任何事，需要有人在崗監控。」

助力大科學

雖然Frontier日夜不停地運轉，但研究人員想要申請到使用機會，也並不是一件容易的事。

科學主任Messer和其他3位同事負責使用提案的評估和批準，他們去年共批準了131個項目，通過率約為1/4，

申請人需要表明其項目需要利用整個超算系統才能獲批，一般用於對各種時間和空間尺度進行建模。

Frontier每年共有約6500萬個節點時（node-hour）可用，研究人員得到的最常見的分配額度為50萬個節點時，相當於全系統連續運行三天。

Messer表示，相比其他數據中心，研究人員在Frontier上獲得的計算資源大約多出十倍。

Frontier擁有超過5萬個處理器，並採用液冷

Frontier擁有超過5萬個處理器，並採用液冷

有了更快的運算速度、更多的計算資源，研究人員們就能做出更加雄心勃勃的「大科學」。

比如，在原子級精度精確地模擬生物過程，像是溶液中的蛋白質或核酸如何與細胞其他部分發生相互作用。

今年5月，有學者用Frontier模擬了含有超過1550億個水分子的立方體形狀的水滴，大小約為人類頭髮寬度的十分之一，是有史以來規模最大的原子級模擬之一。

短期內，研究人員希望模擬細胞器來為實驗室提供信息；此外他們還希望將這些高解像度的模擬結果，與X射線自由電子激光器的超快成像相結合，以加速發現。

這些工作都是為今後更大的目標做鋪墊——從原子開始對整個細胞進行建模。

有了Frontier，氣候模型也變得更加精確。

去年，氣候科學家Matt Norman和其他研究人員使用Frontier運行了解像度為3.25公里的全球氣候模型，其中還結合了解像度更加精細的複雜的雲層運動。

為了創建長達數十年的預測模型，Frontier的計算能力是十分必要的，而且需要用上整個系統的算力才能做到。

對於一個適用於天氣和氣候預測的模型，至少需要每天進行一年的模擬運行。

Frontier每天可以模擬1.26年，這個速度可以使研究人員能夠創建比以前更準確的50年預測。

如果換到其他計算機上運行，要達到相同的解像度，同時考慮雲的影響，計算速度則會慢得多。

在更大的宇宙級尺度上，Frontier也能帶來更高的解像度。

匹茲堡大學的天體物理學家Evan Schneider也在使用Frontier，研究銀河系大小的星系如何隨著年齡的增長而演化。

他們創建的星系模型跨越四個數量級，最大規模可達約10萬光年。而在Frontier之前，以類似的解像度模擬的最大結構是矮星系，質量約為五十分之一。

Frontier對AI意味著什麼

作為曾經的世界第一，Frontier的地位顯得更加獨特，因為這台超算是為數不多的屬於公共部門的設備，而非由工業界主導。

由於AI領域的研究往往需要吞噬龐大的算力，學術界和工業界的成果存在巨大的鴻溝。

有學者統計過， 2021 年，96%的最大的AI模型來自工業界。平均而言，工業界模型的規模是學術模型的近30倍。

這種差異在投資金額方面也很明顯。美國的非國防公共機構在2021年提供了15億美元支持AI研究。同年，全球工業界支出超過3400億美元。

而自從GPT-4、Gemini Ultra等商業LLM發佈以來，兩者之前的差距又被進一步擴大，這種投資鴻溝導致工業界和學術界可用的計算資源明顯不對稱。

由於工業界的模型開發以盈利為目的，往往會忽視很多技術發展中必須要面對的重要問題，比如基礎研究、低收入群體的需求、評估模型風險、糾正模型偏見等等。

如果學術界要承擔起這些責任，就需要能和行業規模匹配的算力，這就是Frontier的用武之地。

一個最典型的例子，科技公司訓練出的LLM往往保留不同程度的專有性，但研究者們往往會獎自己開發的模型免費提供給任何人使用。

馬里蘭大學帕加分校的計算機科學家Abhinav Bhatele表示，這將有助於大學研究人員與公司競爭，「學術界人士訓練類似規模模型的唯一方法是獲得像Frontier這樣的資源。」

Bhatele認為，Frontier等設施在AI領域就是發揮著這種至關重要的作用，讓更多的人參與到技術開發中，共享成果。

但值得注意的是，這場國家之間、科技公司和非營利機構間的算力基礎設施競賽，依舊在持續，能力強大如Frontier也終會有跌落的一天。

橡樹嶺實驗室已經在規劃Frontier的繼任者，名為Discovery，計算速度將提升3～5倍。

作為參考，Frontier相比2014年的最快的超算天河二號A快了35倍，比2004年最快的超算Earth Simulator快3.3萬倍。

研究人員仍然渴望更快的速度，但工程師們面臨著持續的挑戰，其中一方面就是能源。

Frontier的能源效率相比Summit就提升了4倍多，很大程度上是源於不同的冷卻方案。

Frontier使用室溫水進行冷卻，與Summit使用冷水不同。Frontier總能耗的大約3%～4%用於冷卻，而Summit 的這一比例為10%。

與 Summit 使用雪藏水不同。Frontier 總能耗的大約 3-4% 用於冷卻，而 Summit 的這一比例為 10%。

多年來，能源效率一直是構建更先進超算的關鍵瓶頸，而在可預見的將來，這個瓶頸估計會持續存在。

實驗室主任Messer表示，「我們本可以在2012年建造一台百億億次級別的超算，但提供動力的成本太高了，需要多一兩個數量級的電力。」

參考資料：

https://www.nature.com/articles/d41586-024-02832-5