大語言模型還沒搞懂,「大世界模型」又來了
本文來自微信公眾號:果殼 (ID:Guokr42),作者:糕級凍霧,編輯:沈知涵,題圖來自:AI生成
由人工智能科學家李飛飛創立的科技公司World Labs剛剛推出了第一個項目:僅通過一張圖片像就生成一個完整3D世界的AI系統。
World Labs在介紹博客中寫道,「輸入任何圖像後,可以以3D方式探索它」——給World Labs一張圖,它能將圖半場景三維化,還不是靜態的「2D轉3D」,你能像遊戲里的第一人稱一樣控制視角,探索場景。
World Labs管這叫「大型世界模型」(Large World Model,LWM),他們也稱自己為空間智能AI公司。
完整系統還在邀請內測階段,World Labs在官網開放了即時演示,用戶不僅可以看,還可以在瀏覽器直接操控視角轉換,感受World Labs塑造的世界。
大震撼。
「一圖一世界」
這個系統同之前英偉達曾開發過的「2D轉3D」模型Instant NeRF完全不同——Instant NeRF的視角沒有深度變化、受阻沒有物理碰撞,甚至會發生直接穿越;而World Labs這一工具生成的場景符合基本空間原理和物理定律。
這更不會像上個月推出的AI即時生成3D可交互遊戲Oasis裡面的「鬼打牆」——切換個視角再回來,世界就成了另外一番樣子那般詭異。World Labs的系統生成的是完整三維場景而非像素,克服了像素層面生成不具備一致性和穩定性的缺陷。
在它生成的場景里,你可以用「前後左右」在生成的空間內移動,用鼠標轉換視角,並能調節場景、添加動效,比如光影、景深、色調,效果能直接在瀏覽器裡實時渲染出來。
當你讓樹葉「沙沙作響」,為街角小巷營造出不同光影,讓水面泛起漣漪,能感受到系統並非簡單地添加動效,而是識別出了場景里的實體。
想像一下,與其他工具結合,或隨著這個系統功能變多,你可以「化身」舞台置景,控制這一場景的布光和色調,甚至插入一個角色進入場景,改變畫面的運鏡,比如利用系統里自帶的滑動變焦(俗稱希區確克變焦,算法算好了攝影機的位置和景深,用戶直接拖動就能實現該效果),就能實現那股「詭異」的感覺。
可遠觀而不可近玩
驚喜巨大,但一上手還是會暴露一些問題。
首先是類似遊戲里的「空氣牆」,你在場景里的移動十分受限,物理感覺只有1~2平米的移動範圍,移動幾步就會提示「越界」。
其次是類似VR的問題,越靠近邊緣的視野越模糊,動態場景的畫質也不如靜態的清晰,但這對非寫實風格的場景來說不是問題。
交互上,鏡頭控制選項也較少,景深控制只能選擇距離,不能選擇具體的對焦點,運鏡也只能滑動變焦。
「真實物理感」雖然說滿足了最基本的不能穿牆、畫面隨第一視角移動和點哪(光源)亮哪,但有限的交互和行動半徑還是讓畫面附著了另一層虛擬感。
不過World Labs也表示,這隻是「早期預覽版」。他們正在努力提升生成世界的規模和細節質量,並探索更多交互方式。
確實,World Labs其實今年才成立,但已經拿到了2.3億美元的風險投資,估值超過10億美元,預計2025年將推出首款正式產品。
不到一年時間,World Labs已經端出了一個讓人驚豔和浮想聯翩的產品,而這隻是一個開始。李飛飛曾表示,大型世界模型只是Worlds Labs公司的第一步,後面他們準備把場景設計融入AR、機器人甚至自動駕駛。
這些工具出的比用的都快,有什麼用?
「我們計劃構建對藝術家、設計師、開發人員、電影製片人和工程師等專業人士有用的工具。允許任何人想像和創造自己的世界,將生成性人工智能的潛力從2D圖像和影片擴展到3D世界。」
我的理解是,World Labs要給創作先「打個底」。
創造一個符合真實世界規律的虛擬世界,首要的應用之一就是遊戲。
3D場景開發佔遊戲製作成本中的很大比重,許多獨立遊戲開發者都會卡在這一步,退而求其次去選擇其他方式,比如2D像素風、手繪、低多邊形、平面、插畫、立繪等方式。
World Labs的這個系統可以結合市面上的AI工具,比如Midjourney(圖像生成)、Flux AI(優化畫質)等,生成3D遊戲場景,自由設計鏡頭運動,這對於開發者來說是新的創作方式。
電子遊戲中最早出現的遊戲類型之一,AVG文字冒險遊戲,此前最常見的形式就是一個角色立繪在一個場景背景板前,靠對話框傳遞信息(比如著名的《逆轉球證》)。
有了上述的創作工具,即便我沒有任何繪畫和建模基礎,只憑一個劇本和腳本編輯器,就有可能打造出一款AVG遊戲。
還記得前一陣的「3A」大作《沙威瑪傳奇》嗎?有越來越多的獨立開發者正在考慮用AI降低小遊戲開發成本。專業的大廠可以用最先進的圖像引擎,生成一個完整的世界。
World Labs的系統恰好彌補了遊戲開發中的一個空白區:它小範圍的場景生成遠未到替代專業引擎的程度,但又極大地降低了遊戲場景設計的門檻,從視覺甚至交互層面,給予了獨立遊戲更多可能。
遊戲之外,再想像一下類似3D物理世界生成系統與其他媒介結合的可能性。
把你手繪的幾個分鏡頭腳本輸進去,它給你生成了一個虛擬的拍攝場地,你甚至可以在裡面運鏡,做出一個簡單的樣片也不是問題。
把文學作品丟進World Labs,你可以真的進入佐治·馬田筆下的君臨,J·K·羅琳描繪的巫師大街對角巷,看一下三日恒空的三體世界。
把梵高的畫作輸入進系統,你可以真的坐進《夜晚露天咖啡座》,或是看到莫奈所見的《聖達特特勒斯的海灘》,站在《夜遊者》的酒吧門口,像一個等待進入的顧客。
甚至有天,你做了一晚上超現實的夢,在醒來後打開電腦,把夢境記錄下來,然後就得到了一次夢境的複現。
本文來自微信公眾號:果殼 (ID:Guokr42),作者:糕級凍霧,編輯:沈知涵