好生猛,全球首款 AI 遊戲問世!
最近,一款名為 Oasis 的開放世界遊戲火遍全網。
在國內外,關於 Oasis 的影片都引發了廣泛的關注。
從表面看來,遊戲畫面完全是《我的世界》。
不過令人震驚的是,這款遊戲不包含任何遊戲引擎,也不依賴編程邏輯,所有遊戲畫面,只由AI大模型實時生成。
想像一下,一個完全由AI創造的開放世界,只需鍵盤輸入,AI就能直接生成一整個虛擬宇宙!
Oasis的團隊將重點放在提升生成式AI的實時性和互動性上。通過將模型訓練在數百萬小時的遊戲影片數據上,Oasis學習了基礎的遊戲邏輯、物體行為、物理法則和交互模式。
這樣,模型不僅能理解玩家的輸入,還可以自主構建遊戲規則、管理物品、計算光照物理等,這些都是傳統遊戲引擎無法脫離代碼邏輯實現的。
那麼 Oasis 是怎麼實現的?
Oasis的核心技術設計基於 Transformer 架構,採用了創新的模型分層設計和推理機制。
這種設計不僅要求生成視覺內容,還要實時反應遊戲物理、交互規則等複雜的動態變化。要實現這一點,Oasis將生成式模型分為兩個主要模塊:
-
空間自動編碼器:Oasis 中的空間自動編碼器基於Vision Transformer (ViT) 架構,負責從玩家的視角輸入中提取空間特徵,理解三維場景的結構、光照效果和物體佈局。編碼器會對場景進行編碼,使模型能夠理解並生成符合物理規律的場景。
-
潛在擴散骨幹:核心的潛在擴散模型基於DiT(Diffusion Transformer),負責將空間特徵編碼轉化為實際的遊戲畫面。Latent Diffusion Backbone 通過逐幀生成,模擬物體的動態變化、視角切換及互動效果。
此外,Oasis 的一個重要的技術創新是「動態加噪」技術。這是一種在推理時使用的噪聲注入機制,專門為解決長時生成中的誤差累積問題設計的。
由於Oasis每幀的生成都是基於前一幀的輸出,這種自回歸特性使得小的誤差會逐漸積累,最終可能導致嚴重的畫面失真,甚至直接崩潰。
為此,Oasis在推理過程中對每一幀注入噪聲,通過增加初始幀的噪聲來防止誤差放大,逐步降低噪聲以恢復細節,使模型能夠在生成的過程中保持一致性。
這種動態加噪的實現方式在訓練過程中得到了優化:模型在訓練時已經接觸並適應了不同噪聲水平的場景,因而在推理時更能處理帶有噪聲的輸入,進一步增強了生成的穩定性。這種機制不僅提升了生成的質量,還有效地降低了對硬件性能的壓力。
不過,在實際體驗中,Oasis 也存在許多問題。簡單來說,所有的問題都可以用一句話概括—— 吃菌子了。
多個玩家提到,在視角轉動時會產生錯覺,即視野中的場景似乎在切換視角後發生了隨機變化,有一種「夢境」感。
場景突然改變,缺乏連續性,特別是在操作停頓一段時間後,遊戲世界中的環境似乎會「自行演變」,彷彿在靜態時場景也會自行刷新。
這讓人感覺到現實解體。甚至有玩家提到,這樣的體驗帶來了生理不適。
這一問題的根源可能在於,Oasis 缺乏長時記憶的支持——每一幀都是模型即時生成的,而不是基於持久的場景數據,因此場景無法在用戶的視角切換中保持一致。
另一個問題是,Oasis當前僅支持以360p解像度和每秒20幀的速率運行,這種低清晰度極大程度上影響了體驗。
生成的世界看上去較為粗糙,這一問題與模型的實時生成速度和硬件要求直接相關。
其實這兩個問題通俗來說,就是上下文問題和性能問題。
所以,引入短期和長時記憶模塊可能可以幫助解決上下文問題。而為提升解像度,作者團隊提到,Oasis 針對 Sohu 進行了優化(Sohu 是由 Etched 構建的 Transformer ASIC),會有不斷的性能提升。
在不久的將來,Oasis 或許會發展出更高的解像度、更流暢的體驗、甚至能提供長時記憶,真正實現一個無限演化的虛擬遊戲宇宙。
目前遊戲的 demo 已經可以直接在線體驗了。PC端和手機端都可以直接通過網址遊玩。
這款遊戲,屬於未來。
官方網址:https://oasis-model.github.io/
體驗地址:https://oasis.decart.ai