Google展示Genie模型:一張草圖就能生成一個2D遊戲

·Genie是從互聯網影片中訓練出來的基礎世界模型,可根據合成圖像、照片、草圖生成動作可控的2D世界。不過其生成的「遊戲」畫質很糊,離實時可玩還很遠。

·DeepMind認為,Genie引入了一個能從圖像或文本生成整個交互式世界的時代,它將成為訓練未來通才AI智能體的催化劑。

Genie生成的2D世界。Genie生成的2D世界。

GoogleDeepMind團隊展示了Genie模型,能把草圖變成2D遊戲。

生成式人工智能可以通過語言、圖像甚至影片生成創造性內容。而DeepMind引入了生成式人工智能新範式——Genie(generative interactive environments,生成式交互環境),根據單個圖像提示來生成「交互式可玩環境」。該模型從遊戲影片中學習遊戲機制後,可以通過一個簡單提示創建2D平台類遊戲。

Genie生成的2D世界。Genie生成的2D世界。

2月26日,DeepMind表示,Genie是一個從互聯網影片中訓練出來的基礎世界模型,它可以根據合成圖像、照片甚至草圖生成各種各樣動作可控的2D世界,使人們能夠與他們想像的虛擬世界互動。

「只需要一張圖片,Genie就可以創建一個全新的互動環境。」 DeepMind表示,這為生成和進入虛擬世界打開了大門。例如可以採用最先進的文生圖大模型來生成初始幀,然後用Genie賦予它們「生命」。

Genie根據圖片生成動作可控的2D世界。Genie根據圖片生成動作可控的2D世界。
Genie根據圖片生成動作可控的2D世界。Genie根據圖片生成動作可控的2D世界。

Genie的模型參數隻有110億,根據人類玩2D平台類遊戲的20多萬小時影片進行無監督訓練。Genie的出現要歸功於Google研究人員開發的可推斷影片幀之間動作的潛在動作模型、將原始影片幀轉換為離散標記的影片分詞器,以及推測下一幀的動態模型。

DeepMind表示,Genie的獨特之處在於,它能夠在沒有動作標籤的情況下,完全從互聯網影片中學習精細的控制。這是一個挑戰,因為互聯網影片通常沒有關於執行哪個動作的標籤,甚至沒有關於應該控製圖像哪個部分的標籤。

Genie根據人的畫作生成動作可控的2D世界。Genie根據人的畫作生成動作可控的2D世界。
Genie根據人的畫作生成動作可控的2D世界。Genie根據人的畫作生成動作可控的2D世界。

DeepMind開發人員提姆·羅克塔謝爾(Tim Rocktäschel)表示,Genie學習各種潛在動作,以一致性控制角色。Genie習得潛動作空間不僅具有多樣性和一致性,並且具有可解釋性。此外,Genie模型是通用的,並不局限於2D。

DeepMind 在官方聲明中也表示,Genie 「專注於2D平台類遊戲和機器人的影片」,「但我們的方法是通用的,適用於任何類型的領域,並可以擴展到更大的互聯網數據集。」DeepMind認為,Genie引入了一個能從圖像或文本生成整個交互式世界的時代,它將成為訓練未來通才AI智能體的催化劑。

不過Genie是一個研究項目,而不是最終產品。它的訓練影片是160 x 90像素的超低解像度影片,每秒只有10幀,它生成的「遊戲」同樣是低解像度的,每秒只有1幀。「該模型目前以每秒1幀的速度運行,所以現在它離實時可玩還很遠。」提姆·羅克塔謝爾表示。