李飛飛AI初創首戰,打造空間智能四大玩法,分分鐘創建新世界,估值超10億

打響空間智能第一槍!李飛飛3個月拿下10億估值。

生成式AI再次迎來里程碑時刻!

就在今天淩晨,史丹福教授、「AI教母」李飛飛攜手其新團隊World Labs發佈首個空間智能AI模型:從單個圖像一鍵生成3D世界。

只要用戶上傳一張圖片,該模型就能圍繞這張圖片的環境信息,生成一定範圍內的3D虛擬世界。用戶可以直接在網頁端通過鼠標或者鍵盤觀看3D世界。

目前,大多數的GenAI工具都以製作2D內容,如圖像或影片等為主。當AI自動生成3D內容,將會提高3D內容的一致性,將極大簡化了電影製作、遊戲製作、VR遊戲製作等內容素材的製作流程。

World Labs由李飛飛與三位聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall今年9月共同創立,致力於構建大型世界模型,生成、感知、交互3D世界,這也是李飛飛的首個AI創業項目

目前,該模型還處於早期階段,用戶可通過名單候補的方式獲得體驗機會,產品正式上線預估到2025年

從Midjourney,到Sora,再到World Labs,一個又一個的AI模型出現,宣告著AI內容創作的邊界不斷拓寬。

英偉達高級研究科學家Jim Fan用一句話總結了這段AI內容進化史:「GenAI正創造更豐富層次的環境縮影;Stable Diffusion是2D縮影;Sora是2D+時間維度的縮影;而World Labs是3D、沉浸式的縮影」。

01 由圖片一鍵生成3D環境,World Labs借力打力

從文生圖模型誕生以來,一直都有人嘗試用AI打造3D模型,儘管行業類出現的模型並不算太少,但始終難有一個標誌性的產品出現。

一方面是,現有的3D模型數據集太少,很難有足夠的優質數據去訓練出合適的模型。另一方面即便生成出3D內容,其展示的內容邏輯性以及畫面質量都很難真正用到相應的電影、動畫中去

World Labs的空間智能AI模型 ,與大多數的AI生成3D模型不同,並非是通過文字提示生成3D內容,而是從圖像生成3D內容

李飛飛團隊直接借助了現有文生圖模型如FLUX、Midjourney、Ideogram、DALL-E等模型實現文字生成圖像這一過程 。

這不但讓World Labs直接兼容各種圖片風格,不同模型生成圖像會有不同風格呈現,而且新的AI系統可以繼承風格特徵,在3D世界中進一步展現。

此外,使用AI模型生成的圖片打造3D環境的另一大好處是,由於基礎的環境背景生成來源於此前的文生圖AI模型,從一定程度上World Labs能夠規避內容版權問題的風險。

比如說,在FLUX、Midjourney、Ideogram、DALL-E四款文生圖模型中同樣給出如下文字提示:

一間充滿活力的卡通風格青少年臥室,床上鋪著色彩鮮豔的毯子,書桌上擺放著一台電腦,牆上貼著海報,還有散落的運動裝備。一把吉他靠在牆上,中間放著一張舒適的帶圖案地毯。窗戶透出的光線給房間增添了溫暖、年輕的氛圍。

則會會得到四種不同風格的AI圖像信息:

*從左到右分別由FLUX、Midjourney、Ideogram、DALL-E生成*從左到右分別由FLUX、Midjourney、Ideogram、DALL-E生成

空間智能模型則能夠分別根據這四張圖片生成一定範圍內的3D環境。

比如說,由FLUX圖片生成出來的環境則是:

由Midjourney圖像生成出來的3D環境是:

由Ideogram圖像生成出來的3D環境是:

由 DALL-E圖像生成出來的環境是:

可以從預覽的畫面看出,首先生成出來3D環境是360度全景圖像,在生成的3D環境內部,有一定範圍的探索空間,基於網頁端設置,可用鍵盤和鼠標進行新的探索。一旦超出探索範圍,畫面會顯示「越界」提示用戶。

其次,在風格上,生成的內容環境會繼承原有的圖形風格,整體3D內容的風格較為統一,多數物品的位置擺放沒有特別違背常理的地方。

最後,在生成3D內容的過程中,新生成的AI世界將遵循3D幾何形狀的基本物理規則,具有實物感,與某AI生成的影片 夢幻感對比鮮明。

Eric Solorio展示了World Labs的模型如何填補其創意工作流程中的空白:用戶可以安排角色在不同場景中出現,並指導精確的攝像機運動。「儘管我們只是參與到World Labs模型早期的角色當中,但是一切都是如此不可思議。」

Eric Solorio談到現在有些動漫會採用AI製作背景畫面,但是大多數的模型很難同時生成不同風格的3D環境內容,多數僅採用1至2種風格。但World Labs可以根據圖片生成對應的風格畫面。

02 打造四大玩法,讓3D世界活起來!

從文生圖模型誕生以來,一直都有人嘗試用AI打造3D模型,儘管行業類出現的模型並不算太少,但始終難有一個標誌性的產品出現。

造一個AI 3D模型並非難事,但World Labs選擇了更進一步,不但讓AI創造了一個3D世界,同時讓AI幫助這個創造的3D世界更加有趣,在畫面顯示風格、交互玩法等多個方向進一步提供了一些方向性指引。

1、預測用戶焦點走向,減小渲染壓力

World Labs模型能夠預測用戶關注的焦點走向,這將較大減少實時渲染的計算壓力

一旦3D世界生成,虛擬世界的佈局將會保持不變,一直存在。這也意味著如果用戶把視線移開然後又回來,場景不會隨時隨地發生變化。這一方向,與VR世界里的注視點渲染技術相類似,從一定程度上能夠減少設備渲染的壓力。

同時,用戶可以實時控制生成的3D內容。生成場景後,用戶可以實時在場景中自由移動,既可以仔細觀察花朵的細節,也可以偷看角落里露出的物體細節。

World Labs模型還能夠將通過深度圖將3D場景可視化,並且每個像素根據其與相機的距離著色,增強深度感。

2、提供三大動畫效果,展示不同畫面語言風格

在生成3D內容的基礎上,World Labs還為生成的3D內容準備了多種畫面呈現方式,為用戶直觀展示不同3D內容動畫效果。

比如說,波浪形的效果下,畫面里的櫻花林和樹木全部都在以波浪形「遊動」。

再比如說,低像素沙畫風格

其中,Brittani Natali將World Labs技術與Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相結合,並精心設計了攝像機路徑工作,在一段影片中展示了不同的情緒風格。

3、提供四大交互方式,點擊即可簡單交互

用戶可利用3D場景結構來構建交互效果。聚光燈場景下,生成的內容畫面顯示為:

聲納的顯示 效果之下,用戶可以每次點擊3D世界的場景,能夠看到交互畫面中顯示出一圈圈的聲音波動信號,提示交互成功。

4、打造虛擬攝像頭,自由控制焦距遠近變幻

World Labs生成場景後,用戶可以使用虛擬攝像頭在瀏覽器中實現實時渲染,用戶精確控制攝像頭的角度時,還能夠實現藝術攝影效果。

比如說用戶可以模擬場景的景深,其中只有距離相機一定距離的物體才能聚焦:

*從近及遠調整焦距畫面變化*從近及遠調整焦距畫面變化

同時,用戶還可以模擬推拉變焦,同時調整攝像機的位置和視野:

*從遠及近調整焦距畫面變化*從遠及近調整焦距畫面變化

03 3個月融資10億,李飛飛瞄準「空間智能」

在諸多AI明星初創公司中,World Labs脫穎而出的理由離不開其明星人物——「AI教母」李飛飛以及強大的團隊研發背景。

公司目前有20名成員,不僅包括CV和圖形學領域的研究人才,還有系統工程、產品設計等職位,致力於在空間智能的基礎模型和產品之間構建反饋閉環,從而讓產品落地、服務用戶。

World Labs9月正式亮相後,就迅速完成了2.3億美元的融資,得到了AI大牛Geoffrey Hinton、Jeff Dean、Google前CEO Eric Schmidt等人的鼎力支持,公司估值已超過10億美元。如此高額的估值和關注度,也能夠說明業內對李飛飛的團隊以及研究方向認可。

在官網頁面中,World Labs提到致力於構建大型世界模型(Large World Models, LWMs),以感知、生成和與3D世界,並與之進行交互。公司目標是將AI模型從2D像素的平面提升到完整的3D世界,包括虛擬和現實世界,並賦予這些模型與人類相似的空間智能。

如今,首個AI項目成果一出,我們能夠更加清晰地看待李飛飛在這一領域的堅定決心。

在今年10月,李飛飛接受了a16z的專訪談到自己對空間智能的理解。她認為,空間智能不同於蘋果提出的空間計算,但空間計算需要空間智能。空間智能勢必會推動著新AI硬件發展,但具體是眼鏡,頭顯還是新的硬件產生,具體目前無法確定。

「空間智能是指機器在三維空間和時間中感知、推理和行動的能力,理解物體和事件在三維空間和時間中的位置,以及世界中的交互如何影響這些三維位置,以及在空間和時間上的位置,感知、推理、生成、交互,真正將機器從大型機或數據中心中解放出來,讓它進入現實世界,並理解這個豐富多彩的三維、四維世界。」李飛飛說到。

什麼可以將機器人大腦的學習和行為與現實世界的大腦連接起來的呢?它必須是空間智能。

本文來自微信公眾號「矽兔君」(ID:gh_1faae33d0655),作者:Cora Xu,編輯:蔓蔓周,36氪經授權發佈。