RTX5090震撼發佈,國行16499元起,黃仁勳「美國隊長」pose亮翻全場

機器之心報導

機器之心編輯部

「GeForce 開啟了 AI 的大門,現在 AI 回到了 GeForce 的懷抱,帶來了新的革命。」

老黃穿上了新皮衣,拿來了新 GPU。

今天上午,全世界的目光都集中在了拉斯維加斯。

香港時間 1 月 7 日上午 10 點半,英偉達 CEO 黃仁勳在拉斯維加斯 CES 2025 展會上發表了主題演講(keynote),涉及到的話題包括 GPU、AI、遊戲、機器人等等。

演講開篇,黃仁勳回顧了英偉達 GPU 的發展史。從 2D 到 3D,CUDA 的誕生到 RTX。而到了人工智能時代,GPU 又推動了 AI 從感知進化到生成,接下來將會是智能體,未來還很快將要有進入物理世界的人工智能。

機器學習改變了每個應用程序的構建方式以及計算的方式。現在,完全面向 AI 計算的硬件會是什麼樣子?英偉達為我們進行了一番展示。

RTX 50 系列全線發佈,最高 3352 TOPS

英偉達的 Blackwell 架構 AI 計算卡問世已久,人們一直在期待新架構的消費級 GPU,今天英偉達直接來了個一次性發佈。

CES 現場,黃仁勳手持 RTX5090 顯卡,雄糾糾氣昂昂地登上了演講台。

性能參數上,Blackwell GPU 的 RTX 5090 擁有 920 億晶體管、3352 AI TOPS(每秒執行萬億次運算次數)、380 RT TFLOPS(每秒執行萬億次浮點運算次數)以及 125 Shader TFLOPS(著色單元)。

RTX5090(及 5090D)擁有 32 GB GDDR7 顯存,顯存位寬 512 位,CUDA 核心數量是 21760,功耗 575W。更詳細的指標如下圖所示:

RTX 5090 是迄今為止最快的 GeForce RTX GPU,在 Blackwell 架構創新和 DLSS 4 的加持下,RTX 5090 的性能比 RTX 4090 高出了 2 倍。

還有更多的新技術:新一代超解像度 DLSS 4 將性能提升了 8 倍。英偉達首次推出了多幀生成功能,通過使用 AI 為每個渲染幀生成多達三幀來提高幀速率。DLSS 4 與 DLSS 技術套件協同工作,從而將性能提高到了傳統渲染的 8 倍,同時通過 NVIDIA Reflex 技術保持響應速度。

DLSS 4 還引入了圖形行業首個 Transformer 模型架構的實時應用。基於 Transformer 的 DLSS 光線重建和超解像度模型使用 2 倍以上的參數和 4 倍以上的算力,以在遊戲場景中提供更高的穩定性、更好的重影、更高的細節和增強的抗鋸齒效果。在發佈當天,DLSS 4 將在超過 75 款遊戲和應用程序中支持 RTX 50 系列 GPU。

同時,NVIDIA Reflex 2 引入了 Frame Warp 創新技術,在將渲染幀發送到顯示器之前根據最新的輸入更新渲染幀來減少遊戲延遲。Reflex 2 最多可將延遲降低 75%,這讓遊戲玩家在多人遊戲中佔據競爭優勢,並使單人遊戲的響應速度更快。

另外,Blackwell 還將 AI 引入了著色器。25 年前,NVIDIA 推出了 GeForce 3 和可編程著色器,為長達 20 年的圖形創新奠定了基礎,包括像素著色、計算著色和實時光線追蹤。此次 NVIDIA 還推出了 RTX 神經著色器,將小規模 AI 網絡引入了可編程著色器,在實時遊戲中解鎖電影級材質、燈光等。

渲染遊戲角色是實時圖形中最具挑戰性的任務之一,RTX Neural Faces 將簡單的光柵化人臉和 3D 姿勢數據作為輸入,並使用生成式 AI 實時渲染時間穩定、高質量的數字人臉。

RTX Neural Faces 與用於光線追蹤頭髮和皮膚的全新 RTX 技術相得益彰,並與全新 RTX Mega Geometry 一起,可以在場景中實現多達 100 倍的光線追蹤三角形,從而有望為遊戲角色和環境帶來巨大的真實感飛躍。

英偉達中文官網也展示了 RTX 50 系列的參數情況。

在揭曉價格時,老黃玩了一個花招:還記得 RTX4090 的價格吧?現在你買 RTX5070,549 美元(國行售價 4599 元)就可以買到 4090 的性能。

不過看起來在 RTX5090 上,這一代還是漲價了(RTX4090 是 1599 美元),達到了 1999 美元。國行的 RTX 5090D 價格也已出來了,16499 元起,RTX 5080 是 8299 元起。

在移動端,RTX50 系列的性能提升也是非常可觀的,黃仁勳特意拿出來一台 RTX 5070 的筆記本。今年移動版顯卡的上市速度也會很快。

更多移動版型號的價格(整機)可見下圖:更多移動版型號的價格(整機)可見下圖:

不過黃仁勳並沒有仔細介紹各型號的基礎性能,還要等到時的真機測試。預計最早在 3 月份,就會有搭載 RTX50 系列顯卡的設備上市。

在繼續演講之前,黃仁勳先擺了個 pose:「全世界的互聯網流量都能通過這些芯片進行處理。」

他手裡拿著的一大塊晶圓上面有 72 個 Blackwell GPU,AI 浮點性能達到 1.4 ExaFLOPS,這就是 Grace Blackwell NVLink72。

與上一代產品相比,Blackwell 的每瓦性能提高了 4 倍。

新 Scaling Laws,首個基礎世界模型 Cosmos

我們知道,大模型遵循擴展定律(Scaling Laws),最近 AI 領域正在熱烈地討論的是規模是否走到頭了。

在英偉達看來,Scaling Laws 仍在繼續,所有新 RTX 顯卡都在遵循三個新的擴展維度:預訓練、後訓練和測試時間(推理),提供了更佳的實時視覺效果。

英偉達宣佈推出基於 Llama 的一系列模型,包括 Llama Nemotron Nano、Super 和 Ultra。它們涵蓋從 PC 和邊緣設備到大型數據中心等所有領域。

英偉達還發佈了運行在 RTX AI PC 上的基礎模型,可支持數字人、內容創造、生產力和開發等任務。

這些模型都以 NIM 微服務的形式提供。基於 NIM 微服務構建的英偉達 AI Blueprints 可提供易於使用的預先配置好的參考工作流程。

AI 的下一個前沿是物理 AI,現在已經出現具身智能、空間智能等新概念。在 CES 上,英偉達發佈了世界模型 Cosmos 平台,其中包含 SOTA 的生成式基礎世界模型、高級的 tokenizer、護欄以及高速影片處理流程。Cosmos 的目標是推動自動駕駛汽車 (AV) 和機器人等物理 AI 系統的發展。

英偉達表示,物理 AI 模型的開發成本很高,需要大量現實世界的數據和測試。Cosmos 世界基礎模型(WFM)可為開發者提供一種生成大量照片級真實、基於物理的合成數據的簡便方法,以訓練和評估他們現有的模型。開發者還可以通過微調 Cosmos WFM 來構建定製模型。

Cosmos 模型已經公開發佈,下面是相關地址:

  • 英偉達 API 目錄:https://build.nvidia.com/explore/simulation

  • Hugging Face:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6

英偉達表示已經有許多領先的機器人和汽車公司成為 Cosmos 的首批用戶,包括 1X、Agile Robots、Agility、Uber 等等。

黃仁勳表示:「機器人技術的 ChatGPT 時刻即將到來。與大型語言模型一樣,世界基礎模型對於推動機器人和自動駕駛汽車開發至關重要,但並非所有開發者都具備訓練自己的世界模型的專業知識和資源。我們創建 Cosmos 是為了讓物理 AI 普及化,讓每個開發者都能用上通用機器人技術。」

演講中,黃仁勳還展示了一些使用 Cosmos 模型的方式,包括影片搜索和理解、基於物理學的照片級真實感的合成數據生成、物理 AI 模型開發與評估、使用  Cosmos 和 Omniverse 來生成可能的未來。

先進的世界模型開發工具

構建物理 AI 模型需要數 PB 的影片數據和數萬小時的計算時間來處理、整理和標記這些數據。為了幫助節省數據整理、訓練和模型定製方面的巨額成本,Cosmos 提供了以下功能:

  • NVIDIA AI 和 CUDA 加速數據處理 pipeline,由 NVIDIA NeMo Curator 提供支持,使開發人員能夠使用 NVIDIA Blackwell 平台在 14 天內處理、整理和標記 2000 萬小時的影片,而使用 CPU-only 的 pipeline 則需要三年多的時間。

  • NVIDIA Cosmos Tokenizer 是一種最先進的視覺 tokenizer,用於將圖像和影片轉換為 token。與當今領先的 tokenizer 相比,它的總壓縮率提高了 8 倍,處理速度提高了 12 倍。

目前,整個物理 AI 行業的先驅都在使用 Cosmos,比如 AI 和人形機器人公司 1X 使用 Cosmos Tokenizer 推出了 1X 世界模型挑戰賽數據集,另一家以自動駕駛汽車為起點為世界提供生成式 AI 的先驅 Waabi 在自動駕駛軟件開發和仿真的數據管理環境中評估 Cosmos。

AI 超級計算機 Project DIGITS

英偉達還將之前的 AI 超級計算機 DGX-1 升級成了 Project DIGITS。整體來說:體型更小,性能更強。英偉達對其的描述是:「一款向全球的 AI 研究者、數據科學家和學生提供的個人 AI 超級計算機,讓他們可以獲得 NVIDIA Grace Blackwell 平台的力量。」

Project DIGITS 採用全新的英偉達 GB10 Grace Blackwell 超級芯片,可提供 PFLOPS 級 AI 計算性能,可用於原型設計、微調和運行大型 AI 模型。使用 Project DIGITS,用戶可以使用自己的桌面系統開發和運行模型推理,然後在加速雲或數據中心基礎設施上無縫部署模型。

GB10 超級芯片可提供 PFLOPS 級且高能效的 AI 性能

GB10 超級芯片(Superchip)是基於 Grace Blackwell 架構的 SoC,可在 FP4 精度下提供高達 1 PFLOPS 的 AI 性能。

GB10 配備 Blackwell GPU,其中採用了最新一代 CUDA 核心和第五代 Tensor Cores,在通過 NVLink-C2C 芯片間互連連接到高性能 Grace CPU,其中包括 20 個採用 Arm 架構構建的高能效核心。英偉達表示,聯發科也參與了 GB10 的設計。

GB10 超級芯片使 Project DIGITS 能夠僅使用標準電源插座,就能提供強大的性能。每個 Project DIGITS 都具有 128GB 內存和高達 4TB 的 NVMe 存儲。借助這款超級計算機,開發者可以運行多達 2000 億參數的大型語言模型,從而加速 AI 創新。此外,借助 NVIDIA ConnectX 網絡,還可將兩台 Project DIGITS AI 超級計算機連接起來,運行多達 4050 億參數的模型。

讓 AI 超級計算觸手可及

借助 Grace Blackwell 架構,企業和研究人員可以在運行 Linux 版 NVIDIA DGX OS 的本地 Project DIGITS 系統上對模型進行原型設計、微調和測試,然後將其無縫部署到 NVIDIA DGX Cloud、加速雲實例或數據中心基礎架構上。

這允許開發人員在 Project DIGITS 上對 AI 進行原型設計,然後使用相同的 Grace Blackwell 架構和 NVIDIA AI Enterprise 軟件平台在雲或數據中心基礎架構上進行擴展。

另外,Project DIGITS 用戶可以訪問廣泛的 NVIDIA AI 軟件庫進行實驗和原型設計,包括有 NVIDIA NGC 目錄和 NVIDIA 開發者門戶中提供的軟件開髮套件、編排工具、框架和模型。開發人員可以使用 NVIDIA NeMo 框架微調模型,使用 NVIDIA RAPIDS 庫加速數據科學,並運行 PyTorch、Python 和 Jupyter Notebooks 等常見框架。

英偉達表示其以及頂級合作夥伴將在 5 月推出 Project DIGITS,起售價為 3000 美元。

以上就是黃仁勳今天發佈的重點,你怎麼看?

參考鏈接:

https://nvidianews.nvidia.com/news/nvidia-blackwell-geforce-rtx-50-series-opens-new-world-of-ai-computer-graphics

https://nvidianews.nvidia.com/news/nvidia-launches-cosmos-world-foundation-model-platform-to-accelerate-physical-ai-development

https://nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips