在北京,英偉達透露了人形機器人的未來:50年發展路縮至5年,靠「三台計算機」

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI

2025,人形機器人量產元年。

CES上老黃帶著14台機器人亮相這一幕剛過去不久,SemiAnalysis分析師的一條預測再次引起熱議。

英偉達最終將成為一家機器人公司,而不僅僅是半導體公司。

只有少數人理解他們最底層的佈局,從製造到軟件。

這樣的觀點從何而來?英偉達在機器人上究竟有哪些佈局?又為什麼明確不直接下場製造機器人?

在英偉達北京辦公室,英偉達機器人與邊緣計算副總裁Deepu Talla回答了一切。

三台計算機,迎來機器人的ChatGPT時刻

(以下為Deepu Talla演講內容整理)

對我來說,三個主要原因使機器人技術變得不可或缺

危險工種。比如薩克達或者在危險環境中工作的人員,機器人可以替代人類承擔這些危險任務。

勞動力短缺。每一代人選擇的職業都與上一代不同。比如,我的祖父母是農民,但我的父母離開了農業,而我甚至從未從事過農業。工作在不斷演變,勞動力短缺問題也隨之加劇。

養老需求。人類的壽命越來越長。如今,全球平均預期壽命已超過75歲,而25年前僅為67歲,50年前則只有57到58歲。再過25年,或許壽命會超過100歲,也許以後甚至能達到150歲。但如果人類活到200歲呢?你希望由75歲的孩子來照顧你嗎?大概不會。所以我們需要「社會伴侶」——機器人,來幫助解決護理和陪伴的問題。

這些並不是什麼新信息,但情況確實發生了變化。從2024年到2025年,對機器人技術的興趣顯著增長。

各國的企業都在探索如何開發人形機器人。為什麼是現在,而不是兩年前?發生了什麼改變?

有兩個主要原因:

技術進步,特別是在生成式AI(GenAI)領域。

大約兩年前,大型語言模型(LLMs)顛覆了數字應用領域。現在,這些技術也開始應用於機器人技術,打破了數字應用與物理應用之間的界限。

仿真環境的改進,製造一個機器人非常昂貴,因為它們並未實現大規模量產,這使得成本高昂。

在物理世界中取得進展同樣需要大量時間,因為一切都遵循「真實時間」(即我們所說的「牆鍾時間」)。以前,機器人技術的測試主要依賴於物理環境,這導致進展非常緩慢。那麼過去12個月中發生了什麼變化呢?

過去一年中,NVIDIA開發了一項名為Omniverse的技術。你可以將其看作一種仿真環境,一個「綠色」環境。這項技術已經取得了顯著成熟——儘管還未完全解決所有問題,但其發展水平已相當於生成式AI在仿真領域的應用水平。現在,想像一下,借助這些技術進步,機器人開發流程可以變得快得多。

因此,在接下來的5到10年里,我們將在機器人領域看到顯著的差異。這就是為什麼現在每家公司都在專注於推動這一領域的發展。我與許多公司討論過,他們都在研究與機器人相關的問題以及通用型機器人「大腦」模型的開發。這就是未來——一個能夠幫助解決危險工作、勞動力短缺以及企業運營挑戰的未來。

這一進展令人無比激動。一年前,這一方向是否能成功還並不明朗。雖然之前已經有不少努力,但過去6到12個月的突破性發展改變了一切。

現在,當人們談論機器人時,大多數人會想到物理機器人——那些像人或工業工具的具體機器。這種物理形態是目標,最終的成果。但通向這個目標的道路非常複雜。為了真正解決機器人領域的挑戰,我們需要三台計算機:

第一台計算機用於訓練:這是用於訓練AI模型的系統。訓練通常在雲端、數據中心或像NVIDIA DGX這樣的強大系統上進行。這是構建機器人「大腦」的關鍵步驟。

第二台計算機用於仿真:一旦訓練完成,就需要進行測試。以往的標準是物理測試,但這種方式既慢又昂貴,還存在風險。更好的解決方案是引入一個「仿真層」,即「數字孿生」,在虛擬環境中完成測試。仿真允許在大規模、快速且安全的條件下運行數千種場景測試,無需受到真實世界時間或成本的限制。

第三台計算機用於部署:第三種系統安裝在機器人內部,它就是操作物理機器人的「大腦」。對NVIDIA來說,這可以通過像Jetson或AGX這樣的系統來實現。

通過整合這三種系統,我們可以顯著縮短開發時間。在現實世界部署之前,通過仿真進行成千上萬次測試,加速整個流程。如果某個設計在現實中表現不佳,可以回到仿真環境中優化模型並再次測試。這個循環過程(訓練、仿真、測試)使得機器人技術的進步能夠在5年內完成,而不是50年。

這種方法也解釋了為什麼機器人技術比自動駕駛更難。對於自動駕駛來說,主要是避免障礙並確保安全,而無需與物理物體交互。而在機器人領域,涉及到的是與物體的接觸、碰撞和複雜的物理交互,這些都更難測試和優化。

仿真並不是一個新概念。例如,在芯片設計領域,100%的芯片在製造之前都需要進行仿真,以確保其功能完美無缺,因為芯片設計中的錯誤可能導致數月的延誤,並耗費數百萬甚至數十億美元。

在機器人領域,主要的挑戰在於「仿真與現實的差距」(sim-to-real gap)——也就是仿真結果與實際表現之間的差異。直到最近,仿真技術的精度還不足,因此未被廣泛採用。然而,像Omniverse這樣的技術進步顯著縮小了這一差距。雖然這一差距尚未完全彌合,但改進已經足夠大,使仿真成為機器人開發中的一種可行且有效的工具。

在英偉達,我們並不直接製造機器人,而是與所有從事機器人製造或機器人解決方案開發的人員合作。我們正在構建一個包含三種計算系統以及相關軟件工具和工作流程的平台,幫助機器人專家、研究人員、機械工程師和測試人員更輕鬆地開發機器人解決方案。這一平台旨在簡化和加速整個過程。

現在,讓我們聚焦於機器人開發中的三個主要步驟:訓練、測試和部署。

以AI模型訓練為例。像ChatGPT這樣的流行模型是在大型GPU和來自互聯網的海量文本數據上訓練出來的。但機器人模型的訓練需要完全不同的數據。機器人需要執行動作,比如拾取物體、移動、交互或完成任務。而遺憾的是,目前這種數據在規模上根本不存在。

數據收集與解決方案中有以下挑戰:

現實世界數據的局限性

與自動駕駛汽車可以依賴現有車輛通過傳感器收集數據不同,目前機器人的數量還遠遠不足以產生可比的數據量。

當前的方法包括使用Apple Vision Pro或動作捕捉套裝來記錄人類動作的示範。這些方法雖能提供有用的數據,但規模太小,無法完全滿足機器人模型的訓練需求。

合成數據生成的重要性

為瞭解決這一問題,合成數據生成變得至關重要。通過合成數據,我們可以生成特定動作(例如抓取物體)的無數種變化,或者構建完整的虛擬環境。

NVIDIA Cosmos是一個「世界基礎模型」,可以生成高度逼真、類似影片遊戲的環境,用於機器人訓練。在這裏,「世界」指的並不是地球,而是機器人交互的環境,例如機器人操作的房間內可見區域。

結合真實與合成數據

通過將少量的現實世界數據與使用像NVIDIA Cosmos這樣的工具生成的大規模合成數據相結合,我們可以克服機器人技術中數據稀缺的問題。這種新工作流已經宣佈並部分上線,我們正在與全球合作夥伴共同實施這一解決方案,以解決機器人領域的基礎數據挑戰。

沒有足夠的數據,機器人模型無法進行有效的訓練、測試或部署。這使得數據的收集和生成成為解決機器人開發挑戰的關鍵第一步。通過採用這種結合現實與合成數據的創新工作流,英偉達正為機器人領域的重大進步鋪平道路。

One More Thing

那麼這套方案在實際應用中,效果如何?

銀河通用創始人、CTO王鶴介紹了他們是如何與英偉達合作的,以及取得了哪些成果。

銀河通用使用NVIDIA Isaac系列以及Omniverse技術,使用仿真器合成大量的機器人操作數據,並將其轉化為機器人的模型。

將各種3D固體資產、環境以及各類材質和紋理素材相互融合,模擬機器人的運行場景,探討機器人如何操作物體。

在此過程中,仿真器和渲染引擎發揮關鍵作用,需要檢查合成的場景在物理層面是否正確。若場景正確,我們就可以使用並行渲染器將數據渲染出來,並將機器人訓練的數據存儲下來,最終得到以10億計的海量合成數據。

銀河通用基於自研的10億級別的合成大數據,訓練出了全球最大機器人基礎模型,滿足七大泛化的「金標準」:光照泛化、背景泛化、平面位置泛化、空間高度泛化、動作策略泛化、動態干擾泛化、物體類別泛化。

總的來看,英偉達的「三台計算機」解決方案,可以說是系統性地解決了機器人開發難題。

一方面通過虛擬仿真突破了物理時間的限制,將可能需要50年的發展週期縮短至5年。

另一方面不直接製造機器人,而是打造開放平台,為合作夥伴提供完整的軟硬件工具鏈的做法,也有助於整個行業生態。