科技

「AI 教母」李飛飛空間智能首個產品亮相，一張圖生成一個 3D 遊戲世界，這次真不是 PPT

12月03日 14:03 新浪網 tech-auto-hilite

今天淩晨，李飛飛空間智能首個產品驚豔亮相。

開局一張圖，它就能生成一個 3D 影片遊戲場景。雖說現在有不少 AI 都能把照片轉化為 3D 模型，但 World Labs 帶來的不只是建模，而是一個真正可交互、可編輯的活體世界。

除了原始輸入的圖片，所有內容都是通過 AI 生成。

World Labs 在博客中說道：

大多數生成式 AI 工具都製作圖像或影片等 2D 內容。相反，以 3D 形式生成可以提高控制和一致性。這將改變我們製作電影、遊戲、模擬器和物理世界的其他數字表現形式的方式。

實際上，當前市場不乏 3D 生成模型，但通常會出現許多問題。比如初創公司 Decart 的 Minecraft 模擬器 Oasis，要麼畫面不夠清晰，要麼場景佈局經常混亂。

相比之下，World Labs 卻創造出了一個穩定、真實且符合物理規則的 3D 世界。

一個活的世界，比一千張死的圖片更有價值。

一張圖生成一個 3D 遊戲世界？李飛飛空間智能首戰

開局一張圖，結局竟是一個世界？一起來看看 World Labs 產品生成的 3D 遊戲世界。

使用鼠標或鍵盤 W/A/S/D 自由穿行，然後用鼠標單擊並拖動來環顧四周：

體驗地址：https://www.worldlabs.ai/blog

場景生成好後，你就成了一個虛擬攝影師，在瀏覽器裡實時操控相機，想拍什麼角度就拍什麼角度，如同專業攝影。

還能模擬淺景深，不過，只有距離相機一定距離的物體才能清晰對焦：

推拉鏡頭也沒問題。

World Labs 的核心突破在於，他們沒有止步於像素級的表面呈現，而是直指 3D 場景生成的本質優勢：

恒久的現實：創造出來的 3D 世界是穩定的，不會消失或者偷偷改變。
實時控制：生成場景後，想去哪去哪，甚至能湊近看花朵的每個細節。
真實的物理規則：生成的世界遵循現實世界的物理法則，沒有漂浮的物體，沒有穿牆的 bug，就像現實世界一樣自然

World Labs 還表示，通過深度貼圖技術，他們成功讓每個像素都有了真實的空間距離感。而圖片中每個像素的顏色，都是由它和攝像頭的距離來決定的。

不僅如此，World Labs 還給場景注入了靈魂——添加各種互動特效，打造動畫效果，讓整個世界活起來。

來都來了，腦洞大開的 World Labs 還能把梵高、霍珀這些大師的名畫還原成可以探索的 3D 世界。不得不說，絕美。

而且原畫里沒有的東西，它都能「腦補」出來，而且出奇地合理。

聯動 Midjourney，讓創作者玩轉 3D 新世界

說到創作過程，3D 生成的世界還能和其他 AI 工具完美配合，這意味著創作者可以用自己熟悉的工具，創造出全新的體驗。

比如說，World Labs 可以先使用文本到圖像模型生成圖像，從而從文本創建世界。不同的模型有自己的風格，而這些獨特的風格都能被保留下來。

來看個具體的例子。

World Labs 團隊基於同一提示詞，讓不同的 AI 畫了四個版本的青少年臥室。

A vibrant cartoon-style teenager’s bedroom with a bed covered in colorful blankets, a cluttered desk with a computer, posters on the walls, and scattered sports gear. A guitar leans against the wall, and a cozy, patterned rug is in the center. Light from a window adds a warm, youthful vibe to the room.

一間充滿活力的卡通風格青少年臥室，床上鋪著五顏六色的毯子，雜亂的書桌上放著一台電腦，牆上貼著海報，運動裝備散落。一把吉他靠在牆上，中間是一塊舒適的圖案地毯。窗外的光線為房間增添了溫暖、年輕的氛圍。

已經有一些創作者通過與 World Labs 達成合作，提前用上了。比如，Eric Solorio 就展示了怎麼用它來設計人物動作和控制鏡頭。

而 Brittani Natali 則把 World Labs 的技術和 Midjourney、Runway、Suno、ElevenLabs 等工具組合起來，設計豐富的鏡頭運動，並創作出富有情感張力的短片。

不過，World Labs 也坦言：

這些結果是我們生成 3D 世界的第一次早期預覽。我們正在努力提高生成世界的大小和保真度，並嘗試讓用戶與它們交互的新方式。

另外，想試試嗎？現在可以去申請候補名單了。

附上地址：https://forms.gle/tkfW7yMqMsCXWw4F7

並且，World Labs 現在也在招人，總共開放應用 AI 研究工程師、業務運營、數據工程師、模型優化工程師、產品設計師等 8 類崗位。

感興趣可以去看看：https://jobs.ashbyhq.com/worldlabs

值得注意的是，博客里提到頁面上所有的圖片均使用 FLUX 1.1 [pro]、Ideogram 或 Midjourney 生成，堪稱巧妙聯動。

李飛飛本人也第一時間在 X 平台站台宣傳：

非常興奮地向你展示我們團隊 @theworldlabs 的最新成果！無論你如何構思這個概念，用語言來形容通過照片或句子生成的 3D 場景的互動感受都是相當有挑戰性的。希望你能喜歡這篇博客！🤩❤️‍🔥

硬剛 Sora！李飛飛為什麼說 2D 已死，3D 當立？

深入探討 World Labs 的技術，就不得不回到這家公司的起點。

被譽為「AI 教母」的李飛飛曾任 Google Cloud AI 負責人。今年 9 月份，在成功融資 2.3 億美元後，她正式官宣創辦 AI 初創公司 ——World Labs。

當時，李飛飛發文稱，將與其他三位聯合創始人 Justin Johnson、Christoph Lassner、Ben Mildenhall，以及一支世界級圖像技術團隊共同創辦實驗室，致力於解決這個大自然花費五億年才解決的超級難題。

World Labs 也宣稱明年將推出首款構建能夠理解 3D 世界並與之交互的 AI 模型產品，公司稱其為「大世界模型」。

據稱目標用戶是藝術家、設計師、開發人員和工程師，以及遊戲公司和電影公司。

關於空間智能，World Labs 的官網是這樣描述的：

「人類智能有許多方面，其中之一是語言智能，它使我們能夠通過語言進行交流和與他人聯繫。但更為基礎的或許是空間智能，它讓我們能夠理解和與周圍世界互動。

空間智能還能幫助我們創造，將腦海中的畫面帶入現實世界…… 要超越當今模型的能力，我們需要具備空間智能的 AI，它能夠在三維空間和時間中對世界進行建模，並對物體、場所和交互進行推理。」

在 World Labs 正式成立後，李飛飛在接受 a16z 採訪時強調，空間智能是視覺智能的核心。相比僅限於一維的語言模型，空間智能作為理解和創造三維世界的基礎，對 AI 的發展至關重要。

未來，空間智能將幫助我們將這些體驗提升到 3D 級別。不僅僅是圖像或剪輯，而是一個完全模擬但又充滿活力和互動的 3D 世界。

這種技術可能用於遊戲，但用途遠不止於此，比如虛擬攝影等各種應用場景，甚至有數百萬種可能的應用。

現在發佈的項目也印證了她的說法。

今天淩晨，英偉達 AI 智能體項目負責人 Jim Fan （同時也是李飛飛的前學生）發文表示祝賀：

GenAI 正在創建越來越高維的人類體驗快照。Stable Diffusion 是一個 2D 快照。 Sora 是一個帶有時間維度的 2D 快照。

現在，World Labs 帶來了一個 3D 且完全沉浸式的快照。空間智能得以優雅地呈現，非常出色。

插個冷知識，在 Sora 遲遲未能落地之際，李飛飛曾在史丹福大學的一場閉門論壇上公開 diss Sora。

她指出，儘管 OpenAI 的 Sora 模型能夠生成影片，但其核心仍是二維，缺乏對三維空間的深入理解。

在她看來，二維是表象，三維是本質，空間智能才是 AI 通向 AGI 的鑰匙。

當時，她以 Sora 模型生成的「日本女性走過霓虹閃爍東京街頭影片」舉例稱：

如果你希望算法換個角度，來展現這個女子走過街頭的影片，比如把攝像機放在女子背後，Sora 無法做到。

因為這個模型對於三維世界並沒有真正的深刻理解。而人類可以在腦海中想像女子背後的情景。

人類可以理解在複雜的環境下如何活動。我們知道如何抓取，如何控制，如何打造工具，如何建造城市。根本而言，空間智能是幾何形狀，是物體間的關係，是三維空間。

可以說，從 Stable Diffusion 的二維圖像，到 Sora 的時間維度影片，再到 World Labs 開創的交互式 3D 世界，AI 不僅要理解世界，更要創造世界。

一張照片是起點，一個真正立體、可交互、富有生命力的虛擬世界是終點，而 World Labs 正在彌合這道鴻溝。

本文來自微信公眾號「APPSO」，作者：發現明日產品的，36氪經授權發佈。