崑崙萬維開源交互世界模型Matrix-Game:AI一鍵生成《我的世界》,這次真能上手玩

作者|週一笑

郵箱|zhouyixiao@pingwest.com

我們身處一個對數字娛樂體驗的期待被無限拔高的時代。每當一款像《GTA6》預告片那樣的重磅內容釋出,引發全球玩家對虛擬世界真實感、互動性與自由度的熱烈討論時,一個更深層次的渴望便浮出水面:我們對未來遊戲的終極幻想,究竟是什麼模樣?

《GTA6》預告片截圖《GTA6》預告片截圖

或許,它不再僅僅是開發者預設好一切的精緻沙盒,也不是傳統意義上AI扮演的NPC(非玩家角色)或陪玩夥伴。想像一下,如果AI本身就是「創世神」,能夠實時理解你的意圖,動態生成一個鮮活、演進、遵循內在物理邏輯,並且可以被你隨心所欲探索、操控乃至重塑的互動宇宙?在這個世界里,每一次日出、每一片落葉、每一個NPC的反應,都不是預設腳本的重覆,而是AI基於對「世界規則」的理解與你的互動而湧現的獨一無二的體驗。

這聽起來像是遙不可及的科幻片段嗎?在過去,或許是的。但今天,隨著人工智能技術的飛速發展,尤其是「世界模型」這一前沿概念的興起,這種由AI主導構建交互式世界的願景,已吸引了全球眾多賽前分析者的目光和投入。

從科技巨頭如英偉達憑藉其Cosmos平台在推動物理AI的普及,GoogleDeepMind集結頂尖人才專攻能夠模擬真實物理環境的世界模型,微軟MineWorld、Oasis項目等項目探索特定場景下的實時交互生成,李飛飛的World Labs聚焦空間智能大型世界模型LWM,都在不斷拓展「世界模型」的邊界。

在這場全球性的技術浪潮中,中國的科技力量同樣在積極佈局。崑崙萬維便是其中之一,持續在AGI與AIGC領域進行投入。繼此前推出的Matrix Zero初步探索了AI基於單張圖片生成虛擬世界的能力之後,其最新發佈的Matrix-Game,成為首個10B+參數的開源交互式世界模型。對MatrixGame V1的技術細節、開源代碼或在線演示感興趣的讀者,可以通過以下鏈接獲取更多信息:

項目主頁:https://matrix-game-homepage.github.io

技術報告:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf

GitHub開源地址:https://github.com/SkyworkAI/Matrix-Game

HuggingFace開源地址:https://huggingface.co/Skywork/Matrix-Game

Matrix-Game:構建可交互的「真實」

在對AI驅動的交互式世界充滿期待的背景下,崑崙萬維Matrix系列在空間智能領域的探索再進一步,推出了其在交互式世界生成方向的首次正式落地成果——Matrix-Game,不僅僅是一個全新的模型,背後也是一種面向未來的技術範式和應用潛力。在Demo演示中我們可以直觀的看到Matrix-Game的能力:

在多個經典的《我的世界》風格場景中,Matrix-Game都能夠精確響應用戶的鍵盤與鼠標指令。角色流暢地執行著前進、後退、跳躍、攻擊等基礎動作,視角也隨著用戶的操控自由切換:

Matrix-Game支持自回歸方式生成,在長影片中,場景依然能夠保持高度的時序一致性和視覺連貫性:

Matrix-Game還初步展示了場景泛化的潛力,能夠生成不同類型虛擬世界:

直觀的演示之後,Matrix-Game的交互生成能力已初見端倪,但其技術基底才是決定能力邊界的關鍵。

Matrix-Game 是什麼?

Matrix-Game 被定義為一款面向遊戲世界建模的交互式世界基礎模型。其核心設計目標,是在可自由探索的開放環境中,實現高質量的內容生成與用戶輸入的精確控制 。通俗地講,Matrix-Game 通過融合影片生成技術與用戶交互體驗,目標是讓用戶能夠通過簡單直觀的指令(如鍵盤按鍵、鼠標移動),自由地探索、操控,乃至實時創造出細節豐富、且遵循合理物理規則的虛擬世界。這就好比,以前AI可能只是給我們放一段動畫片,我們只能「被動」觀看;現在AI則是給了我們一個巨大的互動遊樂場,我們不僅能進去玩,還能動手與AI共同搭建新的遊樂設施。

三大技術基石

Matrix-Game構建於其三大核心技術基石之上。首先是Matrix-Game-MC數據集,崑崙萬維為此自主構建了大規模的交互世界數據集,其中包含兩大類關鍵數據:一是大規模的無標籤Minecraft遊戲影片;二是帶有精確鍵盤與鼠標控制信號的Minecraft及Unreal可控影片數據,這些數據均具備精細的動作註釋 。為保證預訓練數據質量,團隊從高達6000小時的MineDojo(基於《Minecraft》的開源 AI 研究框架)原始數據中,通過畫質與美學、非遊戲內容剔除、動態與視角穩定性等多階段過濾機制,篩選出近千小時的高質量720p影片片段。

而在有標籤的可控監督數據生成上,則混合採用了兩種策略:一方面利用VPT Agent在MineRL環境中進行自動探索,生成包含精確控制信號的大規模Minecraft影片;另一方面,基於Unreal Engine手動構建結構清晰、標籤精確的模擬交互場景,以獲取高精度、無噪聲的可控標註數據,為高保真的動作-響應建模提供支持 。

系統的核心引擎是 Matrix-Game 主模型。這是一個基於先進擴散模型技術開發的「圖像到世界」(Image-to-World)生成框架 。它強調空間智能能力,不依賴複雜的語言提示,僅基於視覺信號來建模空間幾何、物體運動及其物理交互,並以單張參考圖像作為生成交互式影片的起點 。

該模型能夠根據用戶的鍵盤指令(如上下左右跳躍攻擊,以離散token表達)和鼠標移動(如視角變化,以連續token表達)等輸入,融合GameFactory的控制模塊與多模態Diffusion Transformer架構,並運用CFG技術提升控制魯棒性,直接生成虛擬遊戲世界的影片內容 。

為實現長影片的連貫生成,模型還支持自回歸方式擴展長度,每次以前一影片片段的最後5幀作為運動上下文,逐段遞進,同時採用多種策略(如隨機擾動、刪除、CFG引導)緩解時序漂移 。這一17B參數規模的世界基座模型,在空間理解、用戶指令響應及物理交互建模上均取得了明顯的進步 。

最後,為了科學、客觀地評估一個「世界模型」的交互能力和真實性這一行業難題,崑崙萬維提出了 GameWorld Score 評測體系,這是專為Minecraft世界建模設計的統一評測框架 ,旨在為交互式世界模型建立一個統一的評估標準,從視覺質量、時間連貫性、動作可控性以及物理規則理解等四個關鍵維度,對模型的綜合性能進行量化評估,這不僅有助於Matrix-Game自身的迭代優化,也為該領域內缺乏系統性評測基準的現狀提供了一個有益的補充。

不只是「又一個」世界模型

審視Matrix-Game的技術細節及其展現出的特性,我們不難發現崑崙萬維在交互式AI世界生成這一前沿賽道上,尋求技術突破與獨特市場定位的努力。

一個核心的亮點是它在讓你和AI世界互動時的控制感,以及這個世界本身的真實感(尤其是物理規律方面)有了很大提升。有些AI可能主要就是把畫面做得漂亮,但Matrix-Game不太一樣,它著力確保其生成的世界具備內在的合理性與連貫性,避免出現違背基本規律與常識的場景。比如,在這個AI世界里,東西真的會往下掉,你操作的角色跳起來、撞到障礙物,都會有比較真實的反應。你能精細地控制角色往前走、跳起來、轉頭看風景,而且AI反應很快,操作起來更順手,這樣體驗起來就感覺更真實,也更容易上手。我們可以把它與其他一些類似的開源方案做一個對比。比如說Decart的公司的Oasis模型,它能做到實時互動,但目前看,Oasis生成的畫面還比較模糊,有時候邏輯也不太連貫,有網民評論說就像是在噩夢幻一樣,微軟也推出了Mineworld模型,但主要是給研究人員做實驗用的,畫面也比較粗糙,離真正的商業應用還有距離。

油管博主CygnusMC體驗Oasis後評價其為「劣質品AI 」

相較之下,Matrix-Game不僅在細粒度的用戶交互控制上表現出色,模型支持前進、跳躍、攻擊、視角移動等多種細節操作,並能根據用戶輸入做出準確自然的響應。Matrix-Game努力的方向是既要讓用戶能跟它順暢互動,又要保證畫面儘量真實、物理效果可靠、整個世界也不能bug或者前後矛盾層出不窮。從崑崙萬維的測試的結果來看,MatrixGame在Minecraft世界生成任務的各項指標上(包括視覺質量、時間一致性、動作可控性與物理規則理解)均超越了這兩個模型 。例如,其圖像質量達到0.72,鍵盤控制準確率為0.95,鼠標控制準確率為0.95,3D一致性為0.76,均高於對比組 。在雙盲用戶評估中,Matrix-Game生成的影片在總體偏好率上達到了96.3%,動作控制偏好達93.76% 。這些數據直觀地反映了其在交互體驗和生成質量上的提升。

更重要的是,因為MatrixGame還學習了Unreal Engine中的內容,所以它能幹的活兒更多,更有潛力去搭建各種各樣更複雜、更開放的大世界,而不僅僅是方塊風格的世界。這一點讓它有了面向更廣闊、更多樣化開放世界去發展的潛力。根據其發佈的技術報告和演示,模型已初步展示了在多種Minecraft地形、天氣和生物群系中的泛化能力,以及向一些非Minecraft遊戲環境遷移的初步效果 。

此外,崑崙萬維還做了 GameWorld Score評分系統,本身是一個挺新的想法,以前大家評價這種AI世界好不好,可能比較模糊,現在有了個更清楚的尺子,來量一量這個世界到底有多「好用」、多「真實」。

繼GameWorld Score評測體系之後,崑崙萬維也將Matrix-Game模型在 Github 和 Hugging Face 上開源 。此舉主要面向遊戲行業,同時也保留了其作為通用模型的潛力。對於一家中國企業而言,在交互式AI世界生成這一前沿技術領域選擇開源,體現了其開放的行業姿態與推動生態發展的意願。通過開放核心技術,Matrix-Game有望降低行業應用門檻,吸引更廣泛的開發者參與共建,從而激發更多創新應用場景的湧現。

AI生成世界,然後呢?

當AI真正開始理解並能構建可交互的「真實」,最直接的影響是在遊戲行業。傳統的遊戲開發流程漫長且成本高昂,而隨著Matrix-Game這樣的交互式世界模型的發展。想像一下,開發者可以借助AI快速生成多樣化的遊戲世界原型,甚至讓AI根據預設規則動態生成新的任務、場景和挑戰,極大地豐富遊戲內容,降低開發門檻。

玩家也將從被動接受預設內容,轉變為與AI共同創造獨一無二遊戲體驗的參與者。AI驅動的NPC不再是只會重覆固定對話的「背景板」,而是能夠進行有意義互動、甚至擁有「個性」的智能夥伴。

在教育與仿真領域,這種技術也能催生出高度可控、交互豐富的虛擬學習與訓練平台,無論是模擬複雜的科學實驗,還是進行高風險的職業技能培訓,都能在安全且低成本的環境下實現。

Matrix-Game的潛力還將輻射到具身智能的訓練與測試。要讓機器人或虛擬智能體在複雜物理世界中高效工作,需要海量、多樣化且可控的訓練環境。Matrix-Game所構建的遵循物理規則、支持細粒度交互的虛擬世界,為智能體的動作規劃、任務執行和環境適應性學習提供了理想的「健身房」。

對於元宇宙內容生產和影視創作而言,Matrix-Game也打開了新的想像空間。無論是快速搭建沉浸式的虛擬社交空間,還是高效生成影視劇中所需的複雜動態場景,AI都將成為強大的生產力工具,讓創作者能更專注於創意本身,而非繁瑣的技術實現。正如Decart聯合創始人Dean Leitersdorf所言,生成式AI有潛力從根本上改變人與計算機互動的方式,創造全新的數字遊樂場。

這次Matrix-Game的發佈可以看到,崑崙萬維除了在AI應用層面(如AI搜索、AI短劇、AI音樂、AI遊戲、AI社交等)的佈局,在底層技術(「天工」系列大模型、AI芯片研發)上也在進行持續投入。

世界模型,因其對現實世界的模擬與理解能力,被許多研究者視為通往通用人工智能(AGI)的關鍵路徑之一。當前AI研究者對世界模型的追求,是試圖超越數據,進行反事實推理,回答「what if」問題的能力。一旦世界模型產生突破,AI的決策能力將大幅提升。

儘管世界模型技術仍面臨算力需求、模型幻覺、數據版權等多重挑戰,距離理想中能完美模擬現實的「超級模擬器」也還有漫長的道路要走。但Matrix-Game的發佈,像是向未來投下的一顆石子,連同全球範圍內其他先行者的探索,清晰地揭示了這一趨勢:當AI不僅能生成我們眼前的景象,更能賦予這個景象內在的邏輯、鮮活的互動,甚至在其中展現出一定的「創造性」時,數字世界便開始擁有了某種意義上的「靈魂」。

這樣的世界不再僅僅是被動體驗的對象,而是成為我們思想的延伸、創造力的畫布,以及與AI共同書寫未來敘事的廣闊場域。