淺談空間智能與空間生成
-
空間智能起源和發展現狀
早在1983年,美國心理學家侯活·加德納在《智能的結構》一書中就提出了空間智能(Spatial Intelligence)這個概念,指準確感知視覺世界、對感知到的內容進行改造或修改,並能夠在沒有物理刺激的情況下重新創造視覺經驗的能力。2018年,帝國理工學院的Andrew J. Davison教授進一步提出了「空間人工智能」(Spatial AI)的概念。他認為空間AI是視覺SLAM(同步定位與地圖構建)技術的延伸,未來將成為智能機器人和移動設備的基礎技術。
在2024年TED大會上,被譽為「AI教母」、史丹福大學李飛飛教授,首次明確提出「空間智能」作為AI發展的下一個重要里程碑。她認為,空間智能不僅僅是讓AI「看見」世界,還要讓AI理解三維空間並與之互動,從而實現從視覺識別到真正理解現實世界的跨越。由李飛飛創辦的以空間智能技術為核心的World Labs,在同年11月發佈了首個空間智能模型,只需一張圖即可生成一個3D場景,而且具備可交互性和可編輯性,用戶可以在3D場景中自由漫遊,並實現景深控制、滑動變焦和重打光等多種3D效果。幾乎同一時間,DeepMind也發佈了可以實現類似效果的技術—Genie 2,基於單張圖可生成最長1分鐘的場景畫面,而且具備實時交互、物理模擬、空間記憶和多樣化的環境生成等特點。這些技術的突破,標誌著人工智能開始邁向3D時代。
我們經歷過從1D文本大模型到2D圖像/影片大模型的變革,這些經驗告訴我們,高維空間的理解和生成,是很難通過低維模型實現的。正如文本難以完備表達圖像/影片的豐富內容,一個3D空間也需要用大量冗餘的圖像才能完整覆蓋。現在AI生成的影片,移出畫面的內容再次移進畫面後就難以保證一致性,本質上正是由於2D模型並沒有真正理解3D世界中的多視圖幾何規則。雖然Scaling Law可以一定程度緩解這樣的問題,但需要付出巨大的代價。目前也有一些方法通過蒸餾2D生成模型實現3D生成,但也只能生成單個物體,難以生成整個3D空間,距離空間智能更是相去甚遠。必須將3D世界已知的幾何和物理規則全面注入到模型的設計和訓練中,才能讓模型真正具備空間智能。傳統的三維視覺技術,正是利用幾何和物理規則實現3D空間上的三維註冊、重建和理解,也就是空間計算。空間智能是在傳統空間計算基礎上的進一步發展,可以說是在空間計算加持下的下一代人工智能大模型,通過讓模型學會3D世界的幾何和物理規則,具備對3D空間的理解、生成和推理能力,全面提升3D空間中的人、機、物、場之間交互融合的自然性和高效性。
-
空間生成框架構想
實現空間智能,需要深刻理解空間的內在結構與特性,並能夠對三維空間進行重建或生成。因此,空間生成是空間智能的關鍵組成部分。空間智能公司World Labs將場景生成作為首個對外發佈的模型,也體現了空間生成在空間智能研究中的重要性。
與文本生成和影片生成類似,空間生成要解決的首要問題是如何獲取高質量且具備多樣性的數據。然而,與文本和影片數據不同,高質量3D數據獲取的挑戰性要大很多,主要原因包括以下幾個方面:1)3D數據的採集和構建過程通常需要依賴高精度的傳感器設備(如激光雷達、深度相機等)以及複雜的重建算法,這導致數據獲取成本顯著高於文本和圖像/影片數據;2)3D數據的標註和整理需要專業領域的知識支持,例如對場景中物體的幾何結構、材質屬性以及空間關係的精確描述,這一過程不僅耗時耗力,還容易引入人為誤差;3)3D數據的多樣性和覆蓋率要求更高,因為現實世界中的場景具有極高的複雜性,涵蓋不同的光照條件、空間佈局和動態變化。針對高質量3D數據匱乏這一挑戰,我們浙江大學和商湯科技的聯合研究團隊提出了一個空間生成大模型框架以及實現路徑。該框架基於2D數據與強化學習的協同機制,構建了一個自優化的3D數據生成新範式。實現路徑分為以下三個階段。

圖1. 空間生成框架構想和實現路徑
一開始由於高質量的3D數據匱乏,訓練得到的空間生成大模型的能力還比較有限,難以根據輸入的圖像直接輸出一個高質量而且完整的3D場景,更多具備的是三維重建的能力,得到的是一些不完整的3D結構化表達(比如深度、三維點雲等)。因此,在第一階段,我們的空間生成大模型本質上是一個3D重建大模型,可以從海量影像數據中提取場景的三維結構化表徵,並通過渲染技術生成多視角一致的高質量影像數據。這些高質量數據用於訓練和優化2D生成模型,使其具備生成多視角一致的高質量數據的能力。目前已有的絕大部分2D圖像/影片由於相機運動範圍、視角的局限性和動態元素的干擾,對於基於多視幾何的三維重建來說是不友好的,很難直接重建出高質量的3D場景。但是經過我們第一階段的模型生成出的2D圖像/影片,可以從各個視角完整覆蓋一個場景,而且具有高度的時空一致性,從而使用傳統的三維重建和三維高斯濺射技術就能生成出高質量的3D場景。
第二階段的核心在於利用第一階段優化後的2D生成模型,生成大規模高質量數據,並通過三維重建技術將其轉換為3D場景數據。這些3D場景數據作為訓練樣本,通過強化學習機制持續優化3D空間生成大模型的性能。該階段的關鍵挑戰在於設計可靠的獎勵模型,以評估生成數據的質量和多樣性,確保模型優化的方向性和有效性。
隨著迭代優化的深入,空間生成大模型的性能顯著提升,其生成能力開始全面超越2D生成模型,2D生成模型的作用將逐漸弱化直至不需要,此時空間生成大模型進入第三階段,能夠直接從2D圖像輸入生成完整、連貫且具有空間合理性和視覺真實性的3D場景。這一轉變不僅顯著提高了數據生成效率,還確保了生成結果的空間一致性。
-
空間生成的一些最新研究進展
一些最新研究工作(例如,ReconX和ViewCrafter)也開始結合3D的信息來幫助生成時空一致的影片。例如,為了確保生成影片各段間的時空一致性,ViewCrafter等方法使用點雲作為全局表示,將先前重建的點雲投影到當前片段作為條件。生成當前段影片後,生成的圖像會用於更新和擴展全局點雲,從而實現永續視圖生成。然而,點雲重建過程中的固有誤差會逐漸累積,限制了其擴展性。
基於前面提出的空間生成大模型的框架,我們團隊在第一個階段的StarGen項目(項目主頁:https://zju3dv.github.io/StarGen/,論文地址:https://arxiv.org/abs/2501.05763),將3D重建模型和影片生成模型有機結合起來,實現了影片生成質量和運動控制精度的突破,並結合三維重建與3D高斯濺射技術可以生成高質量的三維場景。
StarGen採用滑動窗口機制逐步生成長距離場景,並通過時空約束確保生成效果的一致性:在時間維度上,選取前一窗口的關鍵幀作為時間條件輸入,維持影片序列的時間連貫性;在空間維度上,從歷史窗口中選擇與當前窗口共視區域最大的圖像集合作為空間條件,確保多視角間的空間幾何一致性。

圖2. StarGen框架
StarGen通過將大型重建模型(Large Reconstruction Model)和影片擴散模型有機結合起來,並基於空間條件處理(提取3D幾何信息並渲染目標視角特徵圖)與時間條件處理(通過VAE編碼融合時空特徵),利用ControlNet控制生成高質量、時空一致的長距離影片序列,有效克服了點雲重建誤差累積問題。

圖3. 圖生長影片任務下,StarGen與SOTA方案的定性對比
從定量指標上來看,StarGen的誤差累積速度明顯小於現有SOTA方法。

圖4. 圖生長影片任務下,StarGen與SOTA方案的定量指標對比
基於StarGen生成的影片,可以再通過三維重建與3D高斯濺射技術生成可供用戶自由漫遊的3D場景。

-
總結與展望
隨著人工智能技術和基礎算力服務的不斷進步,空間智能的研究即將迎來新的爆發點,並釋放巨大的創造力與生產力。通過將傳統的基於2D圖像的研究範式提升到3D空間,空間智能將為以3D空間為載體的一系列應用領域(如遊戲、影視、AR/VR、具身智能等)帶來顛覆性的變革。基於三維重建與生成結合的思想,本文重點探討了空間智能中的關鍵模塊空間生成模型的框架構想和實現路徑,並介紹了我們在框架中的第一個階段所做的工作StarGen。實驗結果表明,StarGen可以顯著提升影片生成質量和運動控制精度,尤其是隨著影片幀數的增加,相比現有的SOTA方法優勢更加明顯。我們希望該框架和實現路徑不但能推動空間生成技術的發展,而且能夠為空間智能的其他模塊的發展帶來一些啟發。(作者:章國鋒,浙大計算機學院教授)