「AI 教母」李飛飛空間智能首個產品亮相,一張圖生成一個 3D 遊戲世界,這次真不是 PPT

今天淩晨,李飛飛空間智能首個產品驚豔亮相。

開局一張圖,它就能生成一個 3D 影片遊戲場景。雖說現在有不少 AI 都能把照片轉化為 3D 模型,但 World Labs 帶來的不只是建模,而是一個真正可交互、可編輯的活體世界。

除了原始輸入的圖片,所有內容都是通過 AI 生成。

World Labs 在博客中說道:

大多數生成式 AI 工具都製作圖像或影片等 2D 內容。相反,以 3D 形式生成可以提高控制和一致性。這將改變我們製作電影、遊戲、模擬器和物理世界的其他數字表現形式的方式。

實際上,當前市場不乏 3D 生成模型,但通常會出現許多問題。比如初創公司 Decart 的 Minecraft 模擬器 Oasis,要麼畫面不夠清晰,要麼場景佈局經常混亂。

相比之下,World Labs 卻創造出了一個穩定、真實且符合物理規則的 3D 世界。

一個活的世界,比一千張死的圖片更有價值。

一張圖生成一個 3D 遊戲世界?李飛飛空間智能首戰

開局一張圖,結局竟是一個世界?一起來看看 World Labs 產品生成的 3D 遊戲世界。

使用鼠標或鍵盤 W/A/S/D 自由穿行,然後用鼠標單擊並拖動來環顧四周:

體驗地址:https://www.worldlabs.ai/blog體驗地址:https://www.worldlabs.ai/blog

場景生成好後,你就成了一個虛擬攝影師,在瀏覽器裡實時操控相機,想拍什麼角度就拍什麼角度,如同專業攝影。

還能模擬淺景深,不過,只有距離相機一定距離的物體才能清晰對焦:

推拉鏡頭也沒問題。

World Labs 的核心突破在於,他們沒有止步於像素級的表面呈現,而是直指 3D 場景生成的本質優勢:

  • 恒久的現實:創造出來的 3D 世界是穩定的,不會消失或者偷偷改變。
  • 實時控制:生成場景後,想去哪去哪,甚至能湊近看花朵的每個細節。
  • 真實的物理規則:生成的世界遵循現實世界的物理法則,沒有漂浮的物體,沒有穿牆的 bug,就像現實世界一樣自然

World Labs 還表示,通過深度貼圖技術,他們成功讓每個像素都有了真實的空間距離感。而圖片中每個像素的顏色,都是由它和攝像頭的距離來決定的。

不僅如此,World Labs 還給場景注入了靈魂——添加各種互動特效,打造動畫效果,讓整個世界活起來。

來都來了,腦洞大開的 World Labs 還能把梵高、霍珀這些大師的名畫還原成可以探索的 3D 世界。不得不說,絕美。

而且原畫里沒有的東西,它都能「腦補」出來,而且出奇地合理。

聯動 Midjourney,讓創作者玩轉 3D 新世界

說到創作過程,3D 生成的世界還能和其他 AI 工具完美配合,這意味著創作者可以用自己熟悉的工具,創造出全新的體驗。

比如說,World Labs 可以先使用文本到圖像模型生成圖像,從而從文本創建世界。不同的模型有自己的風格,而這些獨特的風格都能被保留下來。

來看個具體的例子。

World Labs 團隊基於同一提示詞,讓不同的 AI 畫了四個版本的青少年臥室。

A vibrant cartoon-style teenager’s bedroom with a bed covered in colorful blankets, a cluttered desk with a computer, posters on the walls, and scattered sports gear. A guitar leans against the wall, and a cozy, patterned rug is in the center. Light from a window adds a warm, youthful vibe to the room.

一間充滿活力的卡通風格青少年臥室,床上鋪著五顏六色的毯子,雜亂的書桌上放著一台電腦,牆上貼著海報,運動裝備散落。一把吉他靠在牆上,中間是一塊舒適的圖案地毯。窗外的光線為房間增添了溫暖、年輕的氛圍。

已經有一些創作者通過與 World Labs 達成合作,提前用上了。比如,Eric Solorio 就展示了怎麼用它來設計人物動作和控制鏡頭。

而 Brittani Natali 則把 World Labs 的技術和 Midjourney、Runway、Suno、ElevenLabs 等工具組合起來,設計豐富的鏡頭運動,並創作出富有情感張力的短片。

不過,World Labs 也坦言:

這些結果是我們生成 3D 世界的第一次早期預覽。我們正在努力提高生成世界的大小和保真度,並嘗試讓用戶與它們交互的新方式。

另外,想試試嗎?現在可以去申請候補名單了。

附上地址:https://forms.gle/tkfW7yMqMsCXWw4F7

並且,World Labs 現在也在招人,總共開放應用 AI 研究工程師、業務運營、數據工程師、模型優化工程師、產品設計師等 8 類崗位。

感興趣可以去看看:https://jobs.ashbyhq.com/worldlabs

值得注意的是,博客里提到頁面上所有的圖片均使用 FLUX 1.1 [pro]、Ideogram 或 Midjourney 生成,堪稱巧妙聯動。

李飛飛本人也第一時間在 X 平台站台宣傳:

非常興奮地向你展示我們團隊 @theworldlabs 的最新成果!無論你如何構思這個概念,用語言來形容通過照片或句子生成的 3D 場景的互動感受都是相當有挑戰性的。希望你能喜歡這篇博客!🤩❤️‍🔥

硬剛 Sora!李飛飛為什麼說 2D 已死,3D 當立?

深入探討 World Labs 的技術,就不得不回到這家公司的起點。

被譽為「AI 教母」的李飛飛曾任 Google Cloud AI 負責人。今年 9 月份,在成功融資 2.3 億美元後,她正式官宣創辦 AI 初創公司 ——World Labs。

當時,李飛飛發文稱,將與其他三位聯合創始人 Justin Johnson、Christoph Lassner、Ben Mildenhall,以及一支世界級圖像技術團隊共同創辦實驗室,致力於解決這個大自然花費五億年才解決的超級難題。

World Labs 也宣稱明年將推出首款構建能夠理解 3D 世界並與之交互的 AI 模型產品,公司稱其為「大世界模型」。

據稱目標用戶是藝術家、設計師、開發人員和工程師,以及遊戲公司和電影公司。

關於空間智能,World Labs 的官網是這樣描述的:

「人類智能有許多方面,其中之一是語言智能,它使我們能夠通過語言進行交流和與他人聯繫。但更為基礎的或許是空間智能,它讓我們能夠理解和與周圍世界互動。

空間智能還能幫助我們創造,將腦海中的畫面帶入現實世界…… 要超越當今模型的能力,我們需要具備空間智能的 AI,它能夠在三維空間和時間中對世界進行建模,並對物體、場所和交互進行推理。」

在 World Labs 正式成立後,李飛飛在接受 a16z 採訪時強調,空間智能是視覺智能的核心。相比僅限於一維的語言模型,空間智能作為理解和創造三維世界的基礎,對 AI 的發展至關重要。

未來,空間智能將幫助我們將這些體驗提升到 3D 級別。不僅僅是圖像或剪輯,而是一個完全模擬但又充滿活力和互動的 3D 世界。

這種技術可能用於遊戲,但用途遠不止於此,比如虛擬攝影等各種應用場景,甚至有數百萬種可能的應用。

現在發佈的項目也印證了她的說法。

今天淩晨,英偉達 AI 智能體項目負責人 Jim Fan (同時也是李飛飛的前學生)發文表示祝賀:

GenAI 正在創建越來越高維的人類體驗快照。Stable Diffusion 是一個 2D 快照。 Sora 是一個帶有時間維度的 2D 快照。

現在,World Labs 帶來了一個 3D 且完全沉浸式的快照。 空間智能得以優雅地呈現,非常出色。

插個冷知識,在 Sora 遲遲未能落地之際,李飛飛曾在史丹福大學的一場閉門論壇上公開 diss Sora。

她指出,儘管 OpenAI 的 Sora 模型能夠生成影片,但其核心仍是二維,缺乏對三維空間的深入理解。

在她看來,二維是表象,三維是本質,空間智能才是 AI 通向 AGI 的鑰匙。

當時,她以 Sora 模型生成的「日本女性走過霓虹閃爍東京街頭影片」舉例稱:

如果你希望算法換個角度,來展現這個女子走過街頭的影片,比如把攝像機放在女子背後,Sora 無法做到。

因為這個模型對於三維世界並沒有真正的深刻理解。而人類可以在腦海中想像女子背後的情景。

人類可以理解在複雜的環境下如何活動。我們知道如何抓取,如何控制,如何打造工具,如何建造城市。根本而言,空間智能是幾何形狀,是物體間的關係,是三維空間。

可以說,從 Stable Diffusion 的二維圖像,到 Sora 的時間維度影片,再到 World Labs 開創的交互式 3D 世界,AI 不僅要理解世界,更要創造世界。

一張照片是起點,一個真正立體、可交互、富有生命力的虛擬世界是終點,而 World Labs 正在彌合這道鴻溝。

本文來自微信公眾號「APPSO」,作者:發現明日產品的,36氪經授權發佈。