MIT團隊發佈「可控場景生成」新方法,用AI為機器人構建無限逼真世界

像 ChatGPT 和 Claude 這樣的聊天機器人在過去三年里使用量激增,因為它們能幫你完成各種各樣的任務。無論是寫莎士比亞十四行詩、調試代碼,還是回答冷門知識問題,這些 AI 似乎都能搞掂。它們這種多才多藝的能力背後,是來自互聯網的數十億甚至萬億級別的文本數據點。

然而,僅僅依靠這些數據,遠不足以將一個機器人訓練成能幹的家庭或工廠助理。機器人需要通過實際的演示來理解如何在多變的環境中抓取、堆疊和擺放各種物體。你可以將機器人的訓練數據想像成一系列操作指南影片,一步步地拆解任務中的每個動作。在真實機器人上採集這些演示數據不僅耗時,而且過程難以精確重覆。為此,工程師們嘗試過用 AI 生成模擬數據(但這些數據往往與真實世界的物理規律脫節),或是耗費巨大精力從零開始手動構建每一個數字環境。

現在,來自麻省理工學院計算機科學與人工智能實驗室 (MIT’s Computer Science and Artificial Intelligence Laboratory, CSAIL) 與豐田研究院 (Toyota Research Institute) 的研究人員或許已經找到瞭解決方案,能夠為機器人打造它們所需要的既多樣又逼真的虛擬訓練場。他們提出了一種名為「可控場景生成」 (steerable scene generation) 的方法,可以程序化地創建廚房、客廳、餐廳等數字場景,供工程師模擬大量的真實世界互動與情境。該工具在一個包含超過 4400 萬個 3D 房間的數據集上進行訓練,這些房間中充滿了桌子、盤子等各類物體的模型。它能將現有的資產佈置到全新的場景中,並對每個場景進行精細調整,使其成為一個物理上精確且栩栩如生的環境。

「可控場景生成」技術通過「引導」一個擴散模型 (diffusion model) 來創建這些 3D 世界。擴散模型是一種 AI 系統,它能從隨機噪聲中生成視覺圖像,並朝著用戶所期望的日常場景演化。研究人員利用這個生成系統對環境進行「內部繪製」 (in-paint),即在場景中填充特定的元素。你可以想像一塊空白畫布,突然間變為一個堆滿 3D 物體的廚房,然後這些物體被逐步重新排列,最終形成一個遵循真實世界物理規律的場景。比如,該系統能確保叉子不會穿過桌上的碗——這在 3D 圖形中是一種被稱為「穿模」 (clipping) 的常見錯誤,即模型之間發生重疊或交叉。

至於「可控場景生成」究竟如何引導其創作過程趨向真實,則取決於所選擇的策略。其核心策略是「蒙地卡羅樹搜索」 (Monte Carlo tree search, MCTS),這是一種讓模型創建一系列備選場景,並以不同方式進行填充以達成特定目標的算法(例如,讓場景的物理表現更真實,或在場景中包含儘可能多的可食用物品)。AI 程序 AlphaGo 正是利用該策略在圍棋比賽中擊敗人類頂尖選手,系統在做出最優選擇前會預先考量一系列可能的移動序列。

「我們首次將 MCTS 應用於場景生成領域,通過將場景生成任務構建為一個序列決策過程來實現,」 MIT 電子工程與計算機科學系 (Department of Electrical Engineering and Computer Science, EECS) 的博士生、CSAIL 研究員及該項目論文的第一作者 Nicholas Pfaff 表示,「我們持續在部分已生成的場景基礎上進行構建,以期隨時間推移產出更好或更符合需求的場景。因此,MCTS 能夠創造出比其訓練所用的擴散模型更為複雜的場景。」

在一次極具說服力的實驗中,MCTS 在一個簡單的餐廳場景中成功添加了最多達 34 件物品,其中包括堆疊得很高的多層點心蒸籠,而其訓練數據中的場景平均僅包含 17 件物品。

「可控場景生成」還允許通過強化學習 (reinforcement learning) 來生成多樣化的訓練情景。其本質是教會擴散模型通過試錯來達成目標。在初始數據訓練之後,系統會進入第二個訓練階段。在這一階段,你會設定一個獎勵機制(即一個期望的結果,並用分數來衡量與目標的接近程度)。模型會自動學習如何創造得分更高的場景,其產出的情景往往與訓練數據大相逕庭。

用戶還可以通過輸入具體的視覺描述來直接向系統發出指令(例如,「一個廚房,桌上有一個碗和四個蘋果」)。 「可控場景生成」能夠精確地將這些指令變為現實。例如,該工具在構建食品儲藏架場景時,準確遵循用戶指令的成功率高達 98%,而在生成淩亂的早餐桌場景時則達到了 86%。這兩項指標均比 MiDiffusion 和 DiffuScene 等同類方法卡奧出至少 10%。

該系統還能通過提示或簡單的指令來補全特定場景(例如,「使用相同的物體,設計一個不同的場景佈局」)。你可以讓它將蘋果擺放在廚房桌子的幾個盤子上,或是將棋盤遊戲和書籍放到架子上。這本質上是在保留場景其餘部分的同時,「填補」空白區域。

研究人員認為,他們項目的優勢在於能夠創造出大量可供機器人專家實際使用的場景。Pfaff 指出:「我們的一個關鍵發現是,用於預訓練的場景不必與我們最終想要的場景完全一致。利用我們的引導方法,我們可以超越原有的數據分佈,從一個‘更好’的分佈中進行采樣。換言之,我們可以生成我們真正想用來訓練機器人的那種多樣化、真實且與任務對齊的場景。」

這些豐富的場景成為了理想的測試平台,研究人員可以在其中記錄虛擬機器人與不同物品的互動。例如,機器可以精準地將刀叉放入餐具筒,或是在多種 3D 環境下將麵包重新擺放到盤子裡。每一次模擬都顯得流暢而逼真,讓我們得以一窺未來由「可控場景生成」技術訓練出的高適應性機器人的模樣。

儘管該系統為生成大量多樣的機器人訓練數據提供了一條前景光明的道路,但研究人員表示,目前的工作更多是作為一種概念驗證。未來,他們希望利用生成式 AI 來創造全新的物體和場景,而不僅僅是使用固定的資產庫。他們還計劃引入可活動的關節式物體(如可以打開的櫃子或裝有食物的罐子),以增強場景的互動性。

為了使虛擬環境更加逼真,Pfaff 及其同事可能會借鑒他們之前的研究項目「Scalable Real2Sim」,整合一個從互聯網圖像中提取的物體和場景庫。通過擴展 AI 構建的機器人測試平台的多樣性和逼真度,團隊希望建立一個用戶社區,共同創造海量數據,最終形成一個龐大的數據集,用於教授靈巧機器人掌握不同的技能。

「在今天,為模擬創建逼真的場景是一項極具挑戰性的工作;程序化生成雖然可以快速產出大量場景,但這些場景很可能無法代表機器人在真實世界中會遇到的環境。而手動創建定製場景既耗時又昂貴,」 亞馬遜機器人公司 (Amazon Robotics) 的應用科學家 Jeremy Binagia 評論道(他並未參與該項研究)。「‘可控場景生成’提供了一種更好的途徑:在一個大型的預先存在的場景集合上訓練一個生成模型,並(通過強化學習等策略)使其適應特定的下遊應用。與以往那些依賴現成視覺語言模型或僅限於在 2D 網格上排列物體的方法相比,這種新方法保證了物理上的可行性,並全面考慮了 3D 的平移和旋轉,從而能夠生成遠為有趣的場景。」

豐田研究院的機器人專家 Rick Cory(擁有 2008 年的科學碩士學位和 2010 年的博士學位,他未參與此項研究),他表示:「‘可控場景生成’結合了訓練後處理和推理時搜索,為大規模自動化場景生成提供了一個新穎而高效的框架。更重要的是,它能夠生成那些被認為對下遊任務至關重要的‘前所未見’的場景。未來,將這一框架與浩瀚的互聯網數據相結合,有望在實現機器人在真實世界中高效部署的道路上,解鎖一個重要的里程碑。」

原文鏈接:

https://news.mit.edu/2025/using-generative-ai-diversify-virtual-training-grounds-robots-1008