一圖一3D世界,影片還可交互,崑崙萬維「空間智能」開年首戰來了

機器之心報導

作者:杜偉

2025 年普遍被認為是智能體爆發元年,AI 應用將出現井噴式增長。然而,在大家紛紛將目光投向智能體的同時,另一個 AI 領域也可能迎來它的「ChatGPT 時刻」。

這個春節,動畫電影《哪吒 2》爆火,不僅登上中國影史票房榜首,還不斷地刷新全球票房榜單。3D 版本中的山河社稷圖、石磯娘娘變身的石頭山、最後的仙魔大戰…… 這些場景讓我們感受到了極度震撼的 3D 動效。

在 AI 領域,一項正在發展中的新興技術有可能將 3D 動畫的整體質量以及觀眾的沉浸感推向一個全新的高度。它就是「AI 教母」李飛飛看好並押注的空間智能(Spatial intelligence)。未來有了這項 AI 技術的加持,3D 動畫的表現力有可能得到前所未有的加強。

在這位 AI 領域的頂級科學家看來,無論是人類還是機器,學會如何看待這個世界、如何與世界互動至關重要,而空間智能在其中將扮演重要角色。她堅信,像語言一樣是 AI 根基之一的空間智能將成為 AI 下一發展階段的前沿技術方向。去年 12 月初,李飛飛創業團隊 World Labs 的首個產品向我們展示了單張圖生成 3D 世界的驚豔效果。

從二維到三維,AI 要想真正理解與操控 3D 空間,需要解決不少痛點。比如大規模高質量 3D 數據匱乏限制了模型效果和泛化能力,生成的 3D 場景在幾何結構和紋理細節上不夠精細或存在瑕疵、不完整,多視角一致性很難保證;再比如效率問題,處理複雜圖像和大規模場景時可能導致算力消耗過大、生成時間過長。

因此,空間智能真正突破傳統 AI 的二維像素級視覺理解並不是那麼容易。在國內,一家「All in AGI 和 AIGC」的大模型廠商,向真實世界的幾何與物理規則發起了挑戰,並率先在空間智能這個新興領域搞出了一個大動作。

2 月 14 日,崑崙萬維正式發佈了 Matrix-Zero 世界模型,邁出了其探索空間智能的關鍵一步。Matrix-Zero 包括 3D 場景生成大模型和可交互影片大模型,不僅可以將用戶輸入的圖片轉化為可自由探索的真實合理的 3D 場景,而且能夠生成可交互影片。這意味著,Matrix-Zero 是一個功能「加強版」的 3D 物理世界與影片生成器。

隨著 Matrix-Zero 的推出,崑崙萬維在 AIGC 時代的定位又有了新的變化,成為國內第一家同時推出 3D 場景生成、可交互影片生成模型的探索空間智能企業

崑崙萬維表示,Matrix-Zero 預計將於 4 月份正式上線,屆時用戶便能上手體驗了。

突破二維平面的 3D 虛擬世界原來是這樣子的

從業界已有的工作來看,僅憑任意一張圖片就可以生成遵循基本物理幾何規則的 3D 世界,成為了探索空間智能的一項關鍵技術進展。通過訓練出的感知、理解和交互能力,AI 想要在三維空間中像人類一樣自由地導航、操作和創造。

從李飛飛 World Labs 首個 3D 世界產品,到Google DeepMind 的第二代世界模型 Genie 2,空間智能正在努力完成從生成內容到構建世界的進化,這就要求不僅要理解像素,還要有能力解析空間坐標、幾何關係與物理規律,從而實現儘可能真實的立體感和空間深度。

此次,崑崙萬維的 Matrix-Zero 向著這些目標開始了自己的嘗試,形成了領先的技術方案,並最終在 3D 世界生成領域展現出了一些獨有優勢。

一圖一世界,AI 讓 3D 世界一觸即達

根據崑崙萬維的介紹,Matrix-Zero 採用了與李飛飛 World Labs 不同的 3D 技術路線,實現了可自由探索且更加真實合理的 3D 場景生成效果

在由單張靜態圖片轉化成對應 3D 場景的過程中,保持與原圖片的風格一致很重要。在這方面,Matrix-Zero 支持不同風格的圖片輸入,比如寫實風和卡通風(如下寫實小巷和卡通蘑菇),嚴格地「繼承」了圖片原有風格。

Matrix-Zero 還進一步具備了風格轉換能力,在生成 3D 場景時將原圖片絲滑地切換成另一種風格,可玩性相較競品更高,如下示例將原圖的房屋變成了紅瓦白牆。

其次,Matrix-Zero 生成的 3D 場景實現高度的全局一致性,解決了從單一視角圖片生成廣範圍 3D 場景的前後不一致與空間合理性問題。

從粗糙的幾何結構到細節豐富的場景,Matrix-Zero 利用空間擴散模型和可微渲染技術,在不斷的細節細化中改善全局一致性,成功創建出了完整且一致的 3D 世界。

從下面兩圖可以看到,Matrix-Zero 通過自由的鏡頭移動(包括前進和 360 度環視),從 3D 場景中渲染生成一致的新視圖,並確保生成的 3D 場景在空間、物體位置和全局尺度上的合理性。

接下來,Matrix-Zero 向我們展示了它的最大亮點——支持在 3D 場景中任意方向的長距離、大範圍自由探索,用戶的可操作性更豐富、更強。

實現如此程度的自由探索,得益於 Matrix-Zero 生成的 3D 場景很好地解決了連續性、合理擴展、環境交互、空間感知與導航等多個技術層面的挑戰。

Matrix-Zero 不僅可以做到絲滑流暢的前進、後退、左右轉、環視等單一移動,還能夠執行更複雜的 360 度俯視(下圖上)以及先前進後右轉等復合移動(下圖下)。

最後,Matrix-Zero 生成的 3D 場景中還能加入動態物體,並實現水流、光照、雲霧等看起來自然且符合物理規律的動態效果

達成這些目標,需要崑崙萬維團隊融合深度學習、圖形學和實時計算等技術。更具體地,只有在物理仿真、光照與材質模擬、物體交互、實時渲染等多個領域的融合,才有可能從靜態圖片中捕捉、預測並最終正確模擬出合理的動態物理行為。

Matrix-Zero 實現了豐富的物理動效,包括光照水流混合效果(下圖上)、雲霧效果(下圖下)、海浪效果等。這對於未來幫助 AI 更好地提升 3D 世界的物理屬性具有積極意義。

以上結果一一看下來,我們可以得出這樣一個初步結論:Matrix-Zero 生成的 3D 場景以及表現出來的亮點,讓國內廠商在空間智能領域有了匹敵甚至一些層面上超出國外競品的實力,其中大範圍自由探索增強了 AI 的物理推理、空間認知等能力,有望為構建通用世界模型和 AGI 提供強大助力。

可交互影片讓人的參與度更高

Matrix-Zero 的第二個子模型支持可交互的影片生成,其最大的亮點是更關注實時交互和大範圍場景

一方面,Matrix-Zero 泛化能力很強,可以適應不同環境,並能以極高的效率生成流暢、一致和合理的高質量影片。另一方面,Matrix-Zero 超出了已有影片生成的能力範疇,極大地強化了影片內容的可操作性,讓用戶能夠自由地調整視角、操控場景元素,並實時影響影片內容,更符合他們的需求和預期。可以說,人在影片生成中的參與度更高了。

從下面生成的城市和沙漠兩個環境的影片來看,Matrix-Zero 的可交互性展現得一覽無遺。用戶可以通過任意的鍵盤或鼠標移動來控制方向,包括前後左右移動和自由視角移動。這樣一來,用戶能以極高的自由度來探索影片內容,並使它們更滿足自己的意圖。

這種強交互性還將進一步優化世界模型在虛擬環境中的的適配性,為構建更強、用戶更友好的交互式應用提供驅動力。

從以上一系列 3D 場景和可交互影片的表現來看,在 Matrix-Zero 創建的虛擬世界中,人機交互、自由度和沉浸感均大大加強。可以遇見,未來更強大的崑崙萬維 Matrix-Zero 將在可控遊戲場景構建、具身智能場景模擬以及 3D 影視鏡頭高效生成中開闢無限的應用可能性。

一模兩用,Matrix-Zero 如何煉成?

當然,Matrix-Zero 的進步,是崑崙萬維在自研 3D 場景生成、基礎影片生成模型以及用戶輸入交互模型上全方位升級的結果。

對於 3D 場景生成,Matrix-Zero 由背後強大的 3D 場景生成大模型驅動,它包含兩個核心模塊,分別是場景佈局生成模塊和紋理生成模塊。作為單張圖生成 3D 世界的兩個核心環節,場景佈局生成和紋理生成決定了 3D 世界的幾何結構和視覺細節,還直接影響空間完整性與交互體驗。

因此,Matrix-Zero 要解決一系列挑戰,包括推測不可見部分的合理性(如深度關係、物體語義)、物理一致性(如材質、空間關係的合理性)以及計算資源優化(即高質量 3D 生成的計算開銷),這樣才可能提高 3D 世界生成的真實感和可用性。

Matrix-Zero 的場景佈局生成模塊融合了可微渲染和擴散模型技術,創造出與輸入圖片一致的 3D 場景佈局;紋理生成模塊在圖片生成和影片生成模型的基礎上進行訓練,可以生成符合場景佈局且運鏡精準控制的影片。兩個模塊相輔相成,結合 3D 高斯潑濺(Gaussian Splatting)進行端到端優化,就得到了初始 3D 場景。

接下來,為了確保用戶在任何位置、任何角度都能看到合理、一致的場景,3D 場景生成大模型發揮關鍵效用,對場景缺失區域進行幾何和紋理補全,構建出了完整、合理、自然的 3D 世界。

而相較於 3D 場景,Matrix-Zero 可交互影片生成背後採用的技術路線又有所不同。我們瞭解到,該方法以自研的生成式影片模型為基礎,依託大規模開放數據的預訓練模型,並結合了自研用戶輸入交互模型,最終形成了以用戶輸入為核心驅動的空間智能影片生成方案。有了這些模型的共同參與,高質量、穩定影片的輸出成為可能。

作為影片生成系統的 Matrix-Zero,其包含了兩大組件,分別是核心的基礎影片生成模型以及重要的用戶輸入交互模型。兩者各司其職,為 Matrix-Zero 影片生成不同階段的能力實現保駕護航。

一方面,基礎影片生成模型從初始影片幀生成連貫影片內容,它採用深度學習技術,並結合多種先進的生成模型來確保影片的清晰度、穩定性和邏輯性。生成過程中利用到了以下三項關鍵技術:

  • 一是基於 Transformer 的影片擴散模型。通過引入 Transformer 架構,更好地捕捉到了影片序列中的時序依賴關係,同時幀間一致性的增強可以避免出現畫面跳躍或不連貫,影片整體質量得到提升;

  • 二是潛變量自編碼器(VAE),它負責對數據進行降維處理,從而提高計算效率、降低計算成本並減少了信息冗餘,加速輸入內容處理和高質量影片輸出;

  • 三是引入時間步長優化策略來確保物理合理性。時間步長的調整避免了畫面失真並保證物體合理運動,使影片更加自然流暢。

另一方面,用戶輸入交互模型專門解析用戶輸入信息以將它們轉化為影片調整信號,這樣做是為了讓影片內容準確地響應用戶操作,帶來自然、流暢的交互體驗。

具體地,用戶輸入交互模型通過離散運動控制、連續視角控制、3D 場景位置追蹤和滑動窗口優化四大模塊,實現了更智能的交互式影片生成。各個模塊的功能分別如下:

  • 離散運動控制,用於解析用戶的基本動作指令(前進、跳躍、後退等),將它們轉化為對應的運動軌跡,從而調整物體行為以符合用戶交互需求;

  • 連續視角控制,實時解析、響應鼠標或其他輸入設備的連續控制信號(如視角變化、方向調整等動態操作),並通過調整影片內容來實現平滑、一致的視角變換;

  • 3D 場景位置追蹤,利用 3D 空間定位技術確保不同場景下穩定、自然的視角變換,減少畫面突兀跳轉,讓影片更連貫;

  • 滑動窗口機制,通過引入時間序列中的歷史輸入信息,系統對用戶下一步操作的預測準確度更高,控制響應的平滑度得到優化;交互流暢性也更強,延遲減少,用戶體驗提升。

結語

回顧過去不久的 2024 年,是大語言模型飛速發展的一年。可以看到,從基座模型、實時語音模型、影片模型到社交媒體爆火的推理模型,大模型的生成與理解、自我思考能力在短短一年內實現量級提升。與此同時,空間智能異軍突起,有實力、有遠見的廠商逐漸開始了佈局。

作為國內領先的人工智能企業,崑崙萬維在過去每一波 AI 浪潮中始終展現出了賽前分析性,從拚參數的百模大戰到卷多模態、卷推理、卷智能體,其在各個階段的成果產出中完成了「算力基礎設施 – 大模型算法 – AI 應用」的全產業鏈佈局,並構建起了由 AI 大模型、AI 搜索、AI 遊戲、AI 音樂、AI 社交、AI 短劇組成的多元 AI 業務矩陣,積極推動商業化落地。

此次 Matrix-Zero 是崑崙萬維在空間智能領域的又一標誌性成果,此前曾發佈 3D 生成大模型 Sky3DGen,並融合影片大模型推出了 AI 短劇平台 SkyReels。隨著 Matrix-Zero 的到來,崑崙萬維的空間智能探索將開啟新篇章,其多元業務矩陣也將進一步得到強化,並為其多模態大模型的應用落地開闢了一條新的賽道。

未來,我們可以期待空間智能的更多升級,比如模型訓練層面結合視覺、聽覺、觸覺等感官,通過強化學習實現更精確的感知和推理;再比如模型應用層面有望擴展到更多行業或融合進現有產品。可以說,無限可能性等待著進一步探索,空間智能大有可為。

對於像崑崙萬維這樣 All in AGI 的企業來說,更強大的空間智能將賦予 AI 理解、感知、推理、交互和操作物理世界的能力,成為 AGI 邁向更高智能水平的核心支柱。