無需遊戲引擎,大模型實時生成「我的世界」,每秒20幀零延遲可交互,已開源

現在,一個大模型就能直接拿來當遊戲,還是開放世界的那種!

可以直接根據玩家操作預測下一幀,連遊戲引擎都省了。

這個怎麼看都像是《我的世界》的界面,就是這款遊戲Oasis本尊了。

雖然看著像,但兩者驅動方式完全不同,Oasis的圖像不是來自渲染,而是AI實時繪製

Oasis會根據你的鍵盤輸入生成新的幀,每次遊戲都能探索不同的地圖。

像這樣的可交互世界模型,一個模型就是一個遊戲,每秒20幀零延遲的生成效率,也讓不少人都投來了驚訝的目光。

FlashAttention作者Tri Dao也感歎說,很快模型推理成本就會降低,很多娛樂內容將會變成AI生成。

目前Oasis的代碼和500M參數的模型權重已經開源,作者同時也放出了在線體驗版本。

無需遊戲引擎,大模型即是遊戲

在Oasis之前,已經有人用類似的技術,開發出了基於大模型的fps射擊遊戲。

現在,Oasis直接把科技樹點到了開放世界遊戲當中。

Oasis在線版本提供了多種地圖風格可供選擇,需要排隊體驗,不過時間不長,排到一次可以玩五分鐘。

進入之後會顯示遊戲畫面、操作說明和賸餘的體驗時間。

根據前面選擇的地圖風格,遊戲中的AI引擎可以實時生成各種各樣的畫面。

而且模型也包含了一些對現實世界的理解,比如在繪製時能夠理解並遵循光照等物理規律。

生命值、饑餓度這樣一般遊戲中具有的複雜機制也都有,可以通過食物來獲得體力。

而且遊戲世界也並不空洞,角色的設定方面,Oasis中安排了大量的動物和NPC。

但是……為什麼都擠成一團啊?

當然這些動物也不只是貼圖,你可以像《我的世界》種一樣和動物進行交互。

時間用完或者手動結束後,還會有遊戲全過程的影片記錄,可以選擇下載保存。

不過,Oasis的畫面質量也確實還有很大的進步空間,還有人「抽水」一致性問題,只要轉一個圈看到的東西就全變了。

但至少勝在響應速度快,也算是為以後的實時AI畫面生成打了個樣。

那麼,Oasis的研發團隊都運用了些什麼技術呢?

生成一幀只要47毫秒

Oasis由位於美國加州的初創公司Decart打造,該公司成立於2023年。

為了讓研發的模型能夠高效工作,Decart選擇了和一家叫做Etched的芯片初創公司合作研發。

Etched由哈佛輟學生Gavin Uberti在2022年創建,並於今年獲得了1.2億美元的A輪融資。

今年六月,Etched研發出了專用於Transformer的4nm AI芯片Sohu,號稱一張能頂20張A100

按照宣傳,Sohu運行700億參數的Llama 3,每秒吞吐量可達50萬tokens,相當於1秒就能生成21個人一天說的所有話。

當然,Sohu擁有高速度的代價之一就是只能用來跑Transformer,其他的CNN、RNN等神經網絡通通運行不了。

所以,為了能夠利用Sohu的速度優勢,Decart團隊為Oasis選定了Transformer作為基礎架構。

具體來說,Oasis所用的模型由空間自動編碼器和潛在擴散主幹兩部分組成。

兩者都基於Transformer構建,其中自動編碼器為ViT(Vision Transformer)架構 ,主幹網則運用了很多影片生成模型(包括Sora)都在用的DiT(Diffusion Transformer)。

Decart還對Transformer架構進行了修改,在空間注意層之間穿插了額外的時間注意層,以便提供來自先前幀的上下文。

另外不同於Sora等雙向模型的是,Oasis生成幀的過程是自回歸的,因此能夠根據遊戲輸入對後續幀進行調節,使得用戶能夠與世界實時交互。

Decart介紹,如果用H100來跑Oasis,在360P的畫質下能夠達到每秒20幀,而用Sohu的話相同幀率下的畫質可以達到4K。

實際運行下來團隊發現,Oasis生成一幀畫面只需47毫秒。

當然除了速度之外,對於Oasis這樣的遊戲場景來說,保持時間穩定性也是一項重要工作。

但是在自回歸模型中,錯誤會發生疊加,即使很小的缺陷也有可能形成雪球效應。

為瞭解決這個問題,Decart團隊引入了動態噪聲

動態噪聲機制會在第一個擴散前向傳遞中注入噪聲以減少誤差累積,並在後面的傳遞中逐漸消除,這樣模型就可以找到並保留高頻細節。

未來,Decart團隊將針對部分遠處物體出現模糊、不確定對象的時間一致性等問題進行研究,逐步提升Oasis的遊戲體驗。

官方介紹:https://oasis-model.github.io/

DEMO:https://oasis.decart.ai/welcome

代碼:https://github.com/etched-ai/open-oasis

模型權重:https://huggingface.co/Etched/oasis-500m

本文來自微信公眾號「量子位」,作者:基爾西 ,36氪經授權發佈。