剛剛,老黃官宣在中國台北建AI超算!

新智元報導  

編輯:編輯部 HYZ

【新智元導讀】英偉達CEO黃仁勳,在Computex 2025演講中官宣:中國台灣,將建起首台世界級的巨型AI超算,以及全新的英偉達總部!此外,最強AI芯片GB300、個人超算DGX Station、NVLink Fusion等,也都是此次推出的最新亮點。

中國台灣,將建起第一台世界級AI超算!

剛剛結束的演講中,老黃宣佈了這一重磅消息。

就在剛剛,老黃又帶著一大波新品,驚喜亮相英偉達Computex 2025:

  • 最強AI芯片GB300:搭載576GB顯存(16TB/s帶寬),可提供40 PFLOPS算力

  • 全新NVlink Fusion:半定製化超算,支持各種硬件混搭,可實現整個基礎設施的端到端打造

  • DGX Station:搭載GB300超級芯片和800GB統一內存,可提供20PFLOPS的AI算力

  • 全新RTX PRO Server:搭載8塊RTX PRO 6000 GPU和800GB顯存(13TB/s帶寬),可提供30PFLOPS的FP4 AI算力和3 PFLOPS的RTX圖像算力

如今的英偉達,已經從GPU芯片,轉移到AI基礎設施的建設上,連數據中心,都成為了過去時。

為何要建AI工廠?老黃再次喊出那句至理名言——The more you buy, the more you make!

而作為這一切的基石,GeForce最新的RTX 5060顯卡和筆記本,也正式上架了。

值得一提的是,這也是我們第一次在老黃的演講中,看到如此詳細的芯片製造流程。

GB300的一個節點

= 2018年的一台超算

如今,Blackwell已經全面量產。

而老黃宣佈,就在今年第三季度,Grace Blackwell將全面升級為GB300。

從左至右分別是GB200、GB300和NVlink Switch,均採用100%液冷散熱從左至右分別是GB200、GB300和NVlink Switch,均採用100%液冷散熱

對於這樣的設備,老黃直接將其抬到了前所未有的高度——「一台會思考的機器」。

GB300將延用和GB200同樣的架構、物理空間和電氣機械設計,但內部芯片將得到巨大的升級。

  • 訓練性能相當,但推理性能提升1.5倍,達到40PFLOPS

  • HBM內存增加1.5倍,達到576GB的容量和16TB/s的帶寬

  • 通信帶寬翻倍,達到800GB/s

這一性能,已經可以和2018年的Sierra超算,平起平坐了。

要知道,後者有18000個GPU,而GB300的一個節點,就能取代當時的一整套超算!

也就是說,在六年內,性能已經增長了4000倍。這,就是極致的摩亞定律。

這就印證了老黃此前的這句判斷:每十年,英偉達的算力就會擴展1000萬倍。

而英偉達的方法,不僅僅是讓芯片變得更快,而且還將它們連接在了一起。

為此,NVLink便登場了——它造就了全球最快的交換機,傳輸速率可達7.2 TB/s。

9個這樣的設備,會被安裝到機架中。而其中的switch,是以NVLink spine的方式而相連的。

在兩英里的電纜中,5000根電纜被整齊地布控在一起,每個插針都做到了精準的對接。

由此,它把這72個GPU和網絡中其它的72個GPU連接了起來,組成了NVLink交換機。

而主幹的總帶寬,達到了130 TB/s,這就讓整個互聯網的峰值流量,達到了900 TB/s。

如果把這個數字除以8,就會得知它的數據傳輸量比整個互聯網還要大!

一條NVLink主幹,連接9個這樣的NVLink交換機,就能讓每個GPU都能在完全相同的時間內和其它所有GPU通信。

這,就是GB200的奇蹟。

現在,一個機架的功耗是120千瓦,這就是為何所有設備都必須採用液冷。

而且未來,一旦規模提升上去,它們還可以應用到更大的系統中。

老黃表示,現在英偉達已經不是在建數據中心,而是在建AI工廠。

比如下圖中的星際之門,面積達到了400萬平方英呎。這一吉瓦(gigawatt)的工廠價值,大概就在600到800億美元之間。

在現場,老黃向觀眾們發出了靈魂拷問:為什麼要建工廠?

答案當然是——買得越多,賺得越多!(The more you buy, the more you make)

老黃官宣:在中國台灣建AI超算

隨後老黃宣佈,英偉達將聯合台積電、富士康,在台灣省建起第一台巨型AI超算,達到世界級的水準。

最終,英偉達的目標就是把這些Blackwell芯片整合成一塊巨大的芯片。

而整個生態系統,是由150家公司共同構建的,涉及到巨大的工業投資。

但是,怎樣才能把這些複雜的架構連接到豐富的軟件生態系統上,讓任何人都可以使用呢?

無論是一整套GB200/300,或英偉達的其它加速系統,或是其他公司提供的系統,都要可以使用,這無疑讓系統極為複雜。

不過,NVLink卻可以擴展半定製系統,讓我們建起真正強大的計算機。

由此,NVLink Fusion出場了!

NVLink Fusion:超算DIY

不論是學生、研究人員,還是初創公司、科技大廠,都需要AI基礎設施的加持。

為了滿足不同場景的計算需求,老黃帶來了重磅新品——NVLink Fusion。

它最大的亮點就是,半定製化。也就是說,任何人、任何公司都可以打造屬於自己的AI超級計算機。

NVLink Fusion支持混搭各種硬件,不論是100%英偉達硬件,還是想用自己的ASIC,都可接受自定義。

在這個平台中,可以在各個計算層面進行混搭,可以是自己定製的TPU,或者特別的加速器。

甚至,也不一定是Tranformer專用個加速器,任何類型的加速器都可以。

它還擁有豐富的軟件系統,是由英偉達聯手150+公司曆時三年打造。

個人超算DGX Station,裝下1.5個DeepSeek

接下來老黃表示,為了讓所有人用上AI超算,DGX Spark正在全力生產中,預計會在未來幾週上線。 

DGX Spark

DGX Spark

只有巴掌大小,擁有128GB內存和1PFLOPS算力

如果DGX Spark不足以撐起訓推任務,DGX Station就是另一個選擇。

這款個人DGX超算採用的是GB300超級芯片,並配備了800GB統一內存,可提供20PFLOPS的AI算力。

高達萬億參數的大模型,都能直接在DGX Station上跑起來。

可以說,這是能通過單機獲得的性能極限了。

老黃稱,這些系統都是AI原生的,是專為新一代軟件構建的計算機。

它的根本,是重塑企業計算。

RTX PRO Server:跑R1是H100四倍速

在企業計算中,一共有三層,計算層、儲存層、網絡層。正如AI革新了一切,它也將從底層徹底改造企業計算。

其中,智能體AI就是最典型的案例。它們化身為數字員工,為企業提供服務。

老黃稱,「100%英偉達軟件工程師,都有數字智能體與其進行合作」。

英偉達希望,AI智能體軍團,未來能夠接管公司,對其內部工作進行管理、評估、改進。

不過,在這一願景實現之前,人類還必須重新發明計算。

為此,老黃展示了全新的RTX PRO Server,專為企業和Omniverse打造。

它可以運行所有傳統的虛擬機管理程序,甚至,毫不誇張地說,當今世界上的一切都可在此運行。

「這是企業AI智能體的計算機」。

它搭載了8塊RTX PRO 6000 GPU,可提供30 PFLOPS的FP4 AI算力,3 PFLOPS的RTX圖像算力,以及高達800GB/s的通信帶寬。

在ConnectX-8芯片的加持下,每個GPU都有自己的網絡接口,能與相鄰的GPU高速通信。

左右滑動查看
左右滑動查看
左右滑動查看左右滑動查看

RTX PRO Server能夠實現高吞吐,低延遲的完美平衡。

在特定配置下,運行Llama 70B的性能是H100的1.7倍;而運行DeepSeek-R1的性能,更是達到了H100的4倍!

此外,英偉達還打造了一個AI數據平台,讓GPU成為每個行業未來的存儲核心單元。

基於英偉達頂尖的開源模型和數據,可以輕鬆讓數據提取速度飆升15倍,檢索準確率提升50%。

CUDA點燃AI革命

機器人解鎖萬億藍海

通過高性能並行計算,CUDA讓英偉達GPU從單純圖像渲染工具,變成了通用計算的超級引擎。

正如老黃所說,一切始於CUDA。

它不僅加速了計算,還催生了一系列革命性的技術。會上,老黃再次亮出了CUDA加持下強大的庫。

不論是5G/6G無線電信號處理,還是量子計算等領域,CUDA為AI的深度集成帶去了可能。

接下來,老黃又回顧了AI整個發展歷程。

12年前,人工智能主要聚焦於感知模型,能夠識別語音、圖像和模式。

過去5年,GenAI成為了焦點,不僅能理解信息,還能生成文本、圖像,甚至是影片。

他表示,「真正的智能不僅僅局限於從數據中學習,還要推理和解決未知問題」。比如CoT、ToT等逐步分解推理能力,讓AI更接近於人類的思維方式。

當AI具備了感知和推理能力時,智能體AI(Agentic AI)就應運而生。它的本質是——理解-思考-行動。

當被賦予一個目標時,它會一步步將其分解,能自主調用工具、搜索,執行規劃解決問題。

老黃將Agentic AI形象地比做數字世界的「機器人」。

AI的下一個前沿,便是物理AI(Physical AI)。

這種AI不僅能理解數據,還能理解物理世界的規則,比如慣性、摩擦、因果關係等等。

老黃舉例稱,一個簡單的提示,物理AI可生成不同場景的影片以訓練自動駕駛汽車。

以上所有的AI技術進步,將促成通用機器人到來,將會打開價值萬億美元的藍海市場。

值得一提的是,老黃還官宣了開源了NVIDIA Isaac GR00T N1.5,一個更新後的人形機器人推理和技能模型。

此外,由GR00T-Dreams藍圖生成的合成數據,在短短36小時之內被用來開發出GR00T N1.5。

老黃表示,「如果沒有藍圖,這將花費三個月的時間」。

參考資料:https://youtu.be/TLzna9__DnI

參考資料: