大語言模型還沒搞懂,「大世界模型」又來了

本文來自微信公眾號:果殼 (ID:Guokr42),作者:糕級凍霧,編輯:沈知涵,題圖來自:AI生成

由人工智能科學家李飛飛創立的科技公司World Labs剛剛推出了第一個項目:僅通過一張圖片像就生成一個完整3D世界的AI系統

一鍵生成中世紀小鎮丨World Labs一鍵生成中世紀小鎮丨World Labs

World Labs在介紹博客中寫道,「輸入任何圖像後,可以以3D方式探索它」——給World Labs一張圖,它能將圖半場景三維化,還不是靜態的「2D轉3D」,你能像遊戲里的第一人稱一樣控制視角,探索場景。

五花八門的場景丨World Labs五花八門的場景丨World Labs

World Labs管這叫「大型世界模型」(Large World Model,LWM),他們也稱自己為空間智能AI公司。

完整系統還在邀請內測階段,World Labs在官網開放了即時演示,用戶不僅可以看,還可以在瀏覽器直接操控視角轉換,感受World Labs塑造的世界。

大震撼。

「一圖一世界」

這個系統同之前英偉達曾開發過的「2D轉3D」模型Instant NeRF完全不同——Instant NeRF的視角沒有深度變化、受阻沒有物理碰撞,甚至會發生直接穿越;而World Labs這一工具生成的場景符合基本空間原理和物理定律

英偉達的 2D 圖片轉 3D 場景的大模型 Instant NeRF 就有物理問題丨Instant NeRF英偉達的 2D 圖片轉 3D 場景的大模型 Instant NeRF 就有物理問題丨Instant NeRF

這更不會像上個月推出的AI即時生成3D可交互遊戲Oasis裡面的「鬼打牆」——切換個視角再回來,世界就成了另外一番樣子那般詭異。World Labs的系統生成的是完整三維場景而非像素,克服了像素層面生成不具備一致性和穩定性的缺陷。

看得人都暈 3D 了丨World Labs看得人都暈 3D 了丨World Labs

在它生成的場景里,你可以用「前後左右」在生成的空間內移動,用鼠標轉換視角,並能調節場景、添加動效,比如光影、景深、色調,效果能直接在瀏覽器裡實時渲染出來。

當你讓樹葉「沙沙作響」,為街角小巷營造出不同光影,讓水面泛起漣漪,能感受到系統並非簡單地添加動效,而是識別出了場景里的實體。

希區確克變焦丨World Labs希區確克變焦丨World Labs

想像一下,與其他工具結合,或隨著這個系統功能變多,你可以「化身」舞台置景,控制這一場景的布光和色調,甚至插入一個角色進入場景,改變畫面的運鏡,比如利用系統里自帶的滑動變焦(俗稱希區確克變焦,算法算好了攝影機的位置和景深,用戶直接拖動就能實現該效果),就能實現那股「詭異」的感覺。

可遠觀而不可近玩

驚喜巨大,但一上手還是會暴露一些問題。

首先是類似遊戲里的「空氣牆」,你在場景里的移動十分受限,物理感覺只有1~2平米的移動範圍,移動幾步就會提示「越界」。

真·處處碰壁丨World Labs真·處處碰壁丨World Labs

其次是類似VR的問題,越靠近邊緣的視野越模糊,動態場景的畫質也不如靜態的清晰,但這對非寫實風格的場景來說不是問題。

交互上,鏡頭控制選項也較少,景深控制只能選擇距離,不能選擇具體的對焦點,運鏡也只能滑動變焦。

「真實物理感」雖然說滿足了最基本的不能穿牆、畫面隨第一視角移動和點哪(光源)亮哪,但有限的交互和行動半徑還是讓畫面附著了另一層虛擬感。

光也可以指哪兒打哪兒丨World Labs光也可以指哪兒打哪兒丨World Labs

不過World Labs也表示,這隻是「早期預覽版」。他們正在努力提升生成世界的規模和細節質量,並探索更多交互方式。

確實,World Labs其實今年才成立,但已經拿到了2.3億美元的風險投資,估值超過10億美元,預計2025年將推出首款正式產品。

World Labs 核心團隊丨World LabsWorld Labs 核心團隊丨World Labs

不到一年時間,World Labs已經端出了一個讓人驚豔和浮想聯翩的產品,而這隻是一個開始。李飛飛曾表示,大型世界模型只是Worlds Labs公司的第一步,後面他們準備把場景設計融入AR、機器人甚至自動駕駛。

這些工具出的比用的都快,有什麼用?

「我們計劃構建對藝術家、設計師、開發人員、電影製片人和工程師等專業人士有用的工具。允許任何人想像和創造自己的世界,將生成性人工智能的潛力從2D圖像和影片擴展到3D世界。」

我的理解是,World Labs要給創作先「打個底」

靜謐酒館一鍵穿越進畫中的詭譎世界丨World Labs靜謐酒館一鍵穿越進畫中的詭譎世界丨World Labs

創造一個符合真實世界規律的虛擬世界,首要的應用之一就是遊戲。

3D場景開發佔遊戲製作成本中的很大比重,許多獨立遊戲開發者都會卡在這一步,退而求其次去選擇其他方式,比如2D像素風、手繪、低多邊形、平面、插畫、立繪等方式。

YouTuber 把著名(但畫風簡陋)的獨立遊戲《Undertale》3D 化丨YouTubeYouTuber 把著名(但畫風簡陋)的獨立遊戲《Undertale》3D 化丨YouTube

World Labs的這個系統可以結合市面上的AI工具,比如Midjourney(圖像生成)、Flux AI(優化畫質)等,生成3D遊戲場景,自由設計鏡頭運動,這對於開發者來說是新的創作方式。

分分鐘帶入恐怖遊戲視野,這味太對了丨World Labs分分鐘帶入恐怖遊戲視野,這味太對了丨World Labs

電子遊戲中最早出現的遊戲類型之一,AVG文字冒險遊戲,此前最常見的形式就是一個角色立繪在一個場景背景板前,靠對話框傳遞信息(比如著名的《逆轉球證》)

有了上述的創作工具,即便我沒有任何繪畫和建模基礎,只憑一個劇本和腳本編輯器,就有可能打造出一款AVG遊戲

AI 工具搭配起來用,事半功倍丨World LabsAI 工具搭配起來用,事半功倍丨World Labs

還記得前一陣的「3A」大作《沙威瑪傳奇》嗎?有越來越多的獨立開發者正在考慮用AI降低小遊戲開發成本。專業的大廠可以用最先進的圖像引擎,生成一個完整的世界。

World Labs的系統恰好彌補了遊戲開發中的一個空白區:它小範圍的場景生成遠未到替代專業引擎的程度,但又極大地降低了遊戲場景設計的門檻,從視覺甚至交互層面,給予了獨立遊戲更多可能。

似漫畫,似動畫,似《職場浮生記》遊戲開局丨World Labs似漫畫,似動畫,似《職場浮生記》遊戲開局丨World Labs

遊戲之外,再想像一下類似3D物理世界生成系統與其他媒介結合的可能性。

把你手繪的幾個分鏡頭腳本輸進去,它給你生成了一個虛擬的拍攝場地,你甚至可以在裡面運鏡,做出一個簡單的樣片也不是問題。

把文學作品丟進World Labs,你可以真的進入佐治·馬田筆下的君臨,J·K·羅琳描繪的巫師大街對角巷,看一下三日恒空的三體世界。

這或許是更符合原著《哈利樸達》里描繪的對角巷丨World Labs這或許是更符合原著《哈利樸達》里描繪的對角巷丨World Labs

把梵高的畫作輸入進系統,你可以真的坐進《夜晚露天咖啡座》,或是看到莫奈所見的《聖達特特勒斯的海灘》,站在《夜遊者》的酒吧門口,像一個等待進入的顧客。

生成模型後,場景依舊保有了愛德華·霍普《夜遊者》中都市的寂寥感丨World Labs生成模型後,場景依舊保有了愛德華·霍普《夜遊者》中都市的寂寥感丨World Labs

甚至有天,你做了一晚上超現實的夢,在醒來後打開電腦,把夢境記錄下來,然後就得到了一次夢境的複現。

本文來自微信公眾號:果殼 (ID:Guokr42),作者:糕級凍霧,編輯:沈知涵