一張圖生成一個世界!李飛飛世界模型首戰,空間智能時代已經到來

文|AI大模型工場,作者|參商,編輯|星奈

今天淩晨,AI教母李飛飛創立的World Labs推出第一個重磅成果:世界模型,一張單個圖像便可生成3D世界。

此消息一出,業界炸開了鍋。李飛飛也第一時間在X上宣傳:

在大家還在2D影片生成賽道卷生卷死的時候,World Labs已經進入Next Level,AI生成3D世界。

據World Labs官方介紹,目前大多數GenAI 工具都製作圖像或影片等 2D 內容,存在缺乏控制和一致性的問題,而3D生成則可以提高控制和一致性,其模型可以預測3D幾何圖形,填充場景中看不到的部分。這將改變我們製作電影、遊戲、模擬器和物理世界的其他數字表現形式的方式。 

一、一張圖生成一個世界

輸入任意一張圖,World Labs還你一個世界。

比如,丟給World Labs一張左邊的圖片,它能給你一個這樣的3D世界:

你可以通過WASD建控制3D世界得上下左右視角,還可以拖動鼠標逛這個世界的每一個角落。

同時,官方也給了很多玩法。

相機效果

生成場景後,我們可以使用虛擬攝像機進行實時渲染。通過精確控制虛擬攝像機的各項參數,可以實現各種藝術攝影效果。

例如,我們可以模擬淺景深效果,使得只有距離攝像機一定距離的物體才清晰對焦,從而突出主體並增強畫面的層次感。

此外,還可以模擬推移變焦效果,即同時調整攝像機的位置和視野,創造出獨特的視覺衝擊力和動態感。

3D效果

World Labs官方介紹,大多數生成模型是預測像素。而生成3D場景則不僅限於像素層面的表現,其優勢更多地體現在:

持久的現實:一旦生成了一個世界,它就會一直存在。如果你把視線移開並回來,場景不會在你的背後改變。

實時控制:生成場景後,可以實時移動場景。可以徜徉於花朵的細節,或者偷看角落看看揭示了什麼。

符合物理規則:生成的世界遵循現實世界的基本物理規則。它們具有堅實感和深度感,與某些 AI 生成的影片的夢幻般的性質形成鮮明對比。

World Labs生成的3D場景通過深度貼圖技術,使得其中每個像素都按其與相機的距離著色,更具空間感。

不僅如此,World Labs還可以添加各種動效,比如聲效、燈光等,構建3D場景的交互式效果,瞬間進入「真賽博空間」。

走進繪畫世界

World Labs 團隊還展示了他們從梵高、霍珀、修拉和康定斯基等作品中生成了世界。

創意工作流程

除了以上玩法外,3D生成還可以與其他AI工具組合,比如Midjourney、Runway、Suno等,這將極大地改變創作者的工作流程。

例如,可以先使用文生圖模型生成圖像,不同的模型生成的圖像風格不盡相同,而World Labs可以繼承這些風格。

比如我們輸入相同的Prompt,可以得到不同風格得3D世界:

一間充滿活力的卡通風格青少年臥室,床上鋪著五顏六色的毯子,雜亂的書桌上放著一台電腦,牆上貼著海報,運動裝備散落。一把吉他靠在牆上,中間是一塊舒適的圖案地毯。窗外的光線為房間增添了溫暖、年輕的氛圍。

看到現在是不是已經迫不及待想上手試試,不過遺憾的是,目前還在內測中,可以申請候補名單。

附上地址: https://forms.gle/tkfW7yMqMsCXWw4F7 

二、3個月估值10億,空間智能時代才剛剛開始

今年4月,被稱為「AI教母」的史丹福大學教授李飛飛,帶隊成立World Labs(空間智能)。這是她2018年從Google離職重返史丹福後,第一次直接下場參與的創業項目。

World Labs是一家專注於打造世界模型進行3D世界的感知、生成和互動的AI初創公司。

在短短3個月的時間里,World Labs就進行了兩輪融資,融資總額超過2.3億美元,估值突破10億美元,投資方包括矽谷知名風投a16z和AI基金Radical Ventures。

李飛飛認為,未來AI的核心在於「空間智能」,即讓AI具備感知、推理並與3D世界交互的能力,這是實現更高級AI應用的關鍵。

在她看來,視覺在人類理解和與世界互動中佔據核心位置,AI發展應優先提升視覺能力,超越語言模型的局限,讓AI從「大語言模型」過渡到「大世界模型」,以應對更複雜的3D環境感知和交互需求。

也因此,她希望通過 World Labs 推動這一領域的發展,實現更高層次的空間智能。

World Labs堪稱超級明星團隊,除了李飛飛外,還有李飛飛徒弟,在實時風格轉換和超解像度領域有突出貢獻的Justin·莊臣、神經輻射場(NeRF)提出者本·米爾登霍爾以及3D重建專家基斯托夫·拉斯納。

儘管World Labs在技術研發和團隊配置上具有領先優勢,此次發佈的最新成果也驚豔眾人,但面臨的挑戰也不少。

首先,從技術角度來看,構建一個具有高精度的3D世界理解和生成模型需要大量的數據和計算資源,同時還需要解決實時交互的技術難題。

在3D生成賽道,並不是一片藍海,除了World Labs外,英偉達、Meta等多家公司也在積極佈局物理AI與3D世界的相關技術,市場競爭激烈。

再有,在商業化路徑上,儘管LWM的潛力巨大,但如何找到合適的商業模式,尤其是平衡研發投入與市場回報,是創業公司面臨的共同難題。

如果找不到盈利模式,能活下去的概率很小,畢竟已經不少AI領域的明星初創公司賣身大廠了。

不過,不得不承認的是,在潮水的變化面前,空間智能,一切才剛剛開始。