LLM 之後,AI 的下個關鍵詞會是 LWM 嗎?

機器之心PRO · 會員通訊 Week 39

—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-

1. LLM 之後,AI 的下個關鍵詞會是 LWM 嗎?

World Labs 要做的 LWM 是什麼?LWM 和空間智能有什麼關係?LWM 和下一代 AI 有什麼關係?3D 才是 AI 的核心表徵?空間智能當前有什麼進展?世界模型進展如何?…

2. 人形是做通用機器人最合適的形態嗎?

為何業內都在做人形通用機器人?人形一定是做通用機器人最合適的形態嗎?為什麼說 Scaling Laws 才是通用機器人面臨的真正難點?如何解決「數據魔咒」的難題?…

3. Sundar Pichai 演講:AI Platfrom 在經歷最深刻的變革,但不會取代程序員

Pichai 覺得 AI 發展到什麼階段了?明年的 MLLM 會變成什麼樣?Pichai 為什麼不擔心 AI 的能源問題?未來 AI 和程序員是什麼關係?…

…本期完整版通訊含 3 項專題解讀 + 30 項本週 AI & Robotics 賽道要事速遞,其中技術方面 12 項,國內方面 8 項,國外方面 10 項。

本期通訊總計 27106 字,可免費試讀至 7% 

 消耗 99 微信豆即可兌換完整本期解讀(約合人民幣 9.9 元) 

要事解讀① LLM 之後,AI 的下個關鍵詞會是 LWM 嗎?

事件:李飛飛最近正式啟動創業公司 World Labs,在官方明確了要開發「大世界模型(LWM)」,實現空間之能的願景的基礎上,李飛飛和聯創 Justin Johnson 在一場訪談中進一步介紹了 World Labs 的理念和目標。在她看來,空間智能將和當前備受關注的語言智能相輔相成,最終賦予 AI 理解、推理和生成 3D 世界的能力。同期,OpenAI 押注的人形機器人公司 1X 發佈雙足機器人 NEO,並公佈其世界模型進展。

World Labs 想開發的 LWM 是什麼?

1、史丹福大學計算機科學家李飛飛於 9 月 13 日正式宣佈創辦 AI 初創公司 World Labs,在介紹團隊成員的同時公開了官網和和打造 LWM(大世界模型)的願景。[1][2]

① 根據 World Labs 官網的介紹,該公司的目標是構建 LWM,讓 AI 模型從 2D 像素平面提升到完整的 3D 世界(虛擬和現實世界),賦予 AI 與人類一樣豐富的空間智能。

② 在推文中,李飛飛她認為 Ai 領域中真正難以解決的問題是空間智能,這項技術可以賦能和實現創作、設計、學習、AR/VR、機器人等領域的無數可能用例。

③ World Labs 的創始團隊包含李飛飛、Justin Johnson、Christoph Lassner、Ben Mildenhall 四位聯創以及一支世界級圖像技術團隊。

2、在 World Labs 官宣成立後,李飛飛與聯創 Justin Johnson 參與了一場訪談,進一步闡述了公司理念、對下一代人工智能的看法,並強調了「視覺空間智能非常根本,與語言一樣根本」。[3]

① World Labs 這一名字的由來便是團隊的終極目標,即構建並理解世界,解鎖空間智能這顆北極星。

② 李飛飛和 Johnson 在訪談中強調,空間智能不僅僅是對現有數據的理解,而是關於理解新的數據,並且將 AI 從大型數據中心帶出來,放入 3D/4D 世界中,使其能夠理解這個世界的豐富性。

3、李飛飛和 Johnson 在訪談中表示,未來的 AI 模型的底層表示應當是三維的,因為智能的進化路徑必然會轉向這種三維表示所帶來的更高的「可操作性」,將動物和人類與世界互動的能力轉化為原生的三維技術是釋放潛在 AI 應用洪流的關鍵。[3]

① 對於當下備受矚目的語言模型或多模態語言模型,它們的底層表現形式仍是一維的存在。這種表示在處理語言時十分自然,也是 LLM 突破的援引,而 MLLM 則是把其他模態的數據硬塞進這個一維的序列表示中。

② 對於空間智能,World Labs 認為三維才是表徵的核心。一維的 LLM(語言)表徵損失了太多信息,另一類基於像素的生成式 AI 可以處理二維圖像和影片,雖然純 2D 表徵可以實現三維任務的處理,但適配度和可操作性相對有限。

③ 如果將三維表徵放在核心的位置,問題與表示方式之間會更加匹配,且通過對動態三維世界進行二維投影的建模也能處理二維的問題,這也是 World Labs 將堵住壓在「在底層結構中引入更多的三維表示」的原因。

4、根據訪談內容,World Labs 的目標是超越場景的世界,進而解鎖能夠與萬事萬物互動的「新媒介」。[3]

① 在計算機視覺和生成領域,人們通常會對事物進行劃分,如第一級是物體,第二級是場景,場景是多個物體的組合。World Labs 要做的 LWM 需要打破場景邊界。

② 打破了場景邊界的 LWM 將有機會帶來「新媒介」,解鎖與三維世界互動能力的空間智能將對 AR、VR 帶來質的改變。如果技術發展到極致,或許會淘汰如手機、平板、顯示器等現在很多對物理世界的依賴。

5、對於真正做出 LWM 並解鎖空間智能,World Labs 仍不確定最終的硬件形態應當如何,但可以明確的有大量技術需要開發,因而他們需要多種不同類型的專業人才。[3]

① World Labs 表示空間智能方面的研究需要高質量、大規模的工程能力,還需要對三維世界有深刻的理解,另外還要與計算機圖形學領域緊密聯繫。

② 李飛飛由此選擇與 Justin Johnson、Ben Mildenhall、 Christopher Lassner 等多學科人才作為聯合創始人。

6、當媒體在 2024 年 5 月曝出李飛飛創業計劃時,其創業方向引起了人們的熱議。而 World Labs 啟動後,其 LWM 願景又一次將世界模型拉回熱議的中心。[4]

① 有聲音認為 World Labs 的承諾與此火熱的「元宇宙」有些相似,但 World Labs 認為元宇宙的熱潮來得太早,仍缺乏真正的互動內容。他們暗示,世界模型或許能夠解決這一問題。

② 另一方面,在大模型技術爆發後,大量新勢力車企已經開始把自動駕駛技術的方向轉向世界模型與端到端方案,探索具身智能的機器人創業公司也成批出現。

當前有哪些關於空間智能的研究工作?

李飛飛在 2024 年 5 月的演講中正式介紹了空間智能的概念,同時分享了團隊在該領域的進展。而後在 5 月 -9 月期間,國內外的高校團隊也陸續發佈了探索空間智能的研究工作。