馬斯克狂攬10萬塊H100，自建世界最強AI超算，下一代模型訓練開始

07月23日 17:59 新浪網 news-china-auto-hilite

明敏發自凹非寺

量子位 | 公眾號 QbitAI

世界最強AI集群，馬斯克建成了！

這一爆炸消息，由老馬在Twitter上親自官宣。

當地時間淩晨4:20，由xAI、X和英偉達等合力打造的莫菲斯超級集群已開始投入訓練。

它由10萬塊H100組成，是目前世界上最強訓練集群！

這一規模已遠超世界最強超算Frontier。

xAI的創始成員緊隨其後表示：

1年前我們成立這家公司時，目標是實現三個優勢：數據優勢、人才優勢和計算優勢。

從今天開始，這三者我們都有了！

馬斯克帖子下，和英偉達關係密切、擅長液冷技術的超威（Supermicro）也發來祝賀。其創始人查爾斯·梁表示：

很高興我們和馬斯克一起創造歷史。

同時，馬斯克補充說，該集群的建成，為在今年內訓練出全球最強模型提供重大優勢。

按照此前說法，訓練Grok-3正需要10萬張H100。

△集群俯拍圖

不止於此，今年6月，他曾提到為了H100投入1GW電力是不值當的。明年夏天，可能要投入使用由30萬塊B200組成的集群。

自建集群更有底氣

今年5月，The Information消息稱馬斯克要在2025年秋季前建成一個由10萬H100組成的超算集群，與甲骨文進行合作。

消息稱，xAI將出資100億美元用來租用甲骨文的服務器。

當時還有人質疑，為什麼明年建成但還要用上一代技術？

英偉達已經推出了基於Blackwell新架構的B100和B200，訓練大模型的效率遠超H100。

如今來看，說不定是消息中的時間有誤？如果是今年落成就合理多了。

就在最近，馬斯克回應了和甲骨文終止合作建設超算集群的消息。

他表示，xAI從甲骨文拿到了24000塊H100的資源用來訓練Grok-2。相關消息證明，xAI和甲骨文之間的服務器租用合作還在繼續。

但是在10萬卡H100集群的建設上，選擇了自建模式，而且以最快速度推進，據說10萬張卡安裝完畢只用了19天。

我們必須自己掌握方向盤。

之後消息顯示，戴亞和超微成為了馬斯克的新合作商。

戴亞CEO、超微CEO最近都在Twitter表示，正在進行合作，並配上了數據中心的照片。

集群建設過程中，馬斯克親自去過現場。

同時也在Twitter透露過Grok正在莫菲斯訓練，Grok-2將在8月推出。

值得一提的是，此前甲骨文對集群落成地點的電力供應提出擔憂。

按照估算，10萬塊H100需要從電網分配到150兆瓦電力，不過馬斯克似乎已解決這一問題。

最新消息顯示，目前集群暫時拿到了8兆瓦。8月1日簽署協議後將拿到50兆瓦。現在已經有32000塊卡在線，第四季度將100%在線——這足以支持GPT-5規模模型訓練運行。

總之可以肯定的是，AI巨頭們都認為，算力握在自己手裡更可靠，為此值得瘋狂燒錢。

按照成本估算，每塊H100的價格約為3-4萬美元。馬斯克的超算集群，價值將達40億美元（折合人民幣超290億）。

早前消息稱，微軟和OpenAI正在製定一項耗資達1000億美元的數據中心項目名為「星際之門」。

知情人士透露，甲骨文和微軟之間正在達成一項交易，涉及10萬塊B200。這一集群可能在明年夏天準備就緒。

除此之外，如Meta也被曝出過豪華超算集群，AWS等雲廠商也在數據中心上的投入更大。

參考資料：

[1]https://x.com/elonmusk/status/1810727394631950752

[2]https://x.com/elonmusk/status/1815325410667749760

[3]https://x.com/dylan522p/status/1815494840152662170

[4]https://x.com/MichaelDell/status/1803385185984974941