李飛飛重磅長文:超越語言模型,空間智能是AI的下一個十年

在圖靈提出「機器能思考嗎這個問題七十五年後,AI 領域正站在一個新的轉折點。11 月 10 日,史丹福大學教授、World Labs 聯合創始人李飛飛發表長文,再次重申和論述:空間智能是人工智能的下一個前沿。

圖丨李飛飛(來源:MIT Technology Review)

在這篇文章中,李飛飛開門見山地指出了當今 AI 的根本局限。大語言模型雖然能夠生成流暢文本、編寫代碼、創作圖像,卻仍是「黑暗中的文字匠,雄辯但缺乏經驗,知識淵博卻不夠紮根。它們在估計距離、旋轉物體、導航空間、預測物理等基本空間任務上的表現往往不比隨機猜測更好。這種局限本質上是源於當前 AI 缺少一種基礎能力:空間智能。

李飛飛將空間智能定義為「人類認知的腳手架。從日常的泊車、接球、倒咖啡,到消防員在煙霧中的瞬間判斷,再到埃拉托色尼用影子測量地球周長、沃森和克瑞克用物理模型發現 DNA 結構,空間智能滲透在人類活動的方方面面。它不僅關乎視覺,更是感知、行動、想像與創造的交彙點。

實現空間智能的技術路徑正是李飛飛一直所強調的世界模型(World Models),她為世界模型定義了三個核心能力:生成性(能夠創造具有幾何和物理一致性的世界)、多模態(可以處理圖像、影片、文本、動作等多種輸入)、交互性(能夠基於動作預測下一個世界狀態)。這些能力的實現面臨著定義通用訓練任務、處理大規模空間數據、設計新型架構等一系列技術挑戰,目前,World Labs 已經推出了首個世界模型 Marble,允許用戶通過多模態輸入生成和探索一致的三維環境。

文章的後半部分勾勒了空間智能的未來應用。從創意工具賦能講故事者和設計師,到機器人學習的突破,再到科學研究、醫療診斷和教育變革,李飛飛始終強調一個核心原則:AI 必須增強而非取代人類能力,必須尊重人的能動性和尊嚴。

以下是李飛飛文章的完整內容(為便於閱讀,行文略作調整,但保留原意)。

1950 年,當計算機不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈提出了一個至今仍有迴響的問題:機器能思考嗎?他以非凡的想像力預見到了我們今天所見的景象:智能或許可以被構建,而非與生俱來。這一洞見後來啟動了一場被稱為人工智能的不懈科學探索。在我自己從事 AI 工作的第二十五年里,我仍然受到圖靈願景的啟發。但我們離目標有多近?答案並不簡單。

今天,大語言模型(Large Language Models,LLMs)等領先的 AI 技術已經開始改變我們獲取和處理抽像知識的方式。然而,它們仍然是黑暗中的文字匠人;雄辯但缺乏經驗,博學但未能落地。空間智能將改變我們創造和交互真實與虛擬世界的方式——革新敘事、創意、機器人技術、科學發現等等。這是 AI 的下一個前沿。

自踏入這個領域伊始,對視覺與空間智能的求索,便是我念茲在茲、一路前行的「北極星。為此,我投入數年時間構建了 ImageNet,這是首個大規模視覺學習與基準測試數據集,它與神經網絡算法、圖形處理器(GPUs)等現代計算技術一道,成為催生現代 AI 誕生的三大關鍵要素之一。為此,我在史丹福的學術實驗室在過去十年間,致力於將計算機視覺與機器人學習相結合。也正是為此,一年多以前,我與聯合創始人 Justin Johnson, Christoph Lassner 和 Ben Mildenhall 共同創立了 World Labs,旨在首次將這一可能性完整地變為現實。

圖丨 ImageNet(來源:ImageNet)圖丨 ImageNet(來源:ImageNet)

在這篇文章中,我將解釋什麼是空間智能,為什麼它重要,以及我們如何構建將解鎖它的世界模型——其影響將重塑創造力、具身智能和人類進步。

空間智能:人類認知的基礎架構

AI 從未如此令人興奮。大語言模型等生成式 AI 模型已經從研究實驗室走向日常生活,成為數十億人的創造力、生產力和溝通工具。它們展示了曾被認為不可能的能力,輕鬆生成連貫的文本、大量代碼、照片級逼真的圖像,甚至短影片片段。AI 是否會改變世界已不再是問題。以任何合理的標準來衡量,它已經改變了。

然而,仍有太多東西超出我們的能力範圍。自主機器人的願景仍然引人入勝但充滿猜測,遠未成為未來學家們長期承諾的日常設備。在疾病治療、新材料發現和粒子物理學等領域大規模加速研究的夢想在很大程度上仍未實現。而那種能夠真正理解並賦能人類創造者的 AI——無論是幫助學生理解複雜的分子化學概念,協助建築師將空間可視化,輔助電影製作人構建世界,還是讓任何人尋求完全沉浸式的虛擬體驗——其承諾也仍未兌現。

要瞭解為什麼這些能力仍然難以捉摸,我們需要考察空間智能是如何進化的,以及它如何塑造我們對世界的理解。

視覺一直是人類智能的基石之一,但它的力量源自更為基礎的某種東西。在動物學會築巢、照料幼崽、用語言溝通或建立文明之前很久,「感知這一看似孤立的能力——感受到一縷微光,觸到某種紋理——就悄然點燃了一條通往智能的演化之路。

從外部世界獲取信息的這個簡單動作,在感知與生存之間搭起了一座橋樑,隨著世代演進,這座橋愈加堅固、愈加精巧。一層又一層的神經元從那座橋樑生長出來,形成解釋世界並協調生物體與其環境之間互動的神經系統。因此,許多科學家推測,感知和行動成為驅動智能進化的核心循環,以及自然界創造我們人類這一感知、學習、思考和行動的終極化身的基礎。

空間智能在我們與物理世界的互動方式中扮演著核心角色。每一天,我們都依賴它來完成最普通的行為:通過想像保險杠與路緣之間的距離來停車,接住拋過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或是在睡意朦朧中將咖啡倒入杯中而無需凝視。在更極端的情況下,消防員在煙霧瀰漫、結構不穩的倒塌建築中穿行,瞬間判斷穩定性和生存可能,並通過手勢、肢體語言和一種沒有語言替代的職業直覺進行溝通。而孩子們在牙牙學語前的幾年里,通過與環境的玩耍互動來學習世界。所有這一切都發生得直觀且自然——這種流暢性是機器尚未達到的。

空間智能同樣是我們想像力與創造力的基礎。故事講述者在腦海中創造出豐富多樣的世界,並利用從古代洞穴壁畫到現代電影,再到沉浸式影片遊戲等多種視覺媒介,將它們呈現給他人。無論是孩子在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種基於空間的想像力構成了真實或虛擬世界中互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生再到機器人訓練等無數關鍵業務提供了動力。

歷史上,那些真正塑造文明走向的時刻,往往都能看到空間智能的身影。在古希臘,埃拉托斯特尼將影子轉化為幾何學——在太陽直射賽因城(Syene)的同一時刻,測量出亞歷山大港 7 度的太陽夾角——從而計算出地球的周長。夏格維斯的「珍妮紡紗機,憑藉一項空間佈局的巧思,徹底改寫了紡織業的歷史:將多個紡錘並排排列在同一個框架中,使得一名工人能同時紡織多根紗線,生產效率提升了八倍。

沃森(Watson)和克瑞克(Crick)則通過親手搭建 3D 分子模型發現了 DNA 的結構,他們不斷操控金屬板和金屬絲,直到堿基對的空間排列「哢噠一聲完美契合。在每一個案例中,空間智能都推動著文明的進步,科學家和發明家們必須操控物體、將結構可視化、並對物理空間進行推理——所有這些都無法單憑文字來捕捉。

圖丨沃森和克瑞克(來源:Science History Institute)圖丨沃森和克瑞克(來源:Science History Institute)

空間智能是我們認知構建的基礎架構。無論我們是被動觀察還是主動尋求創造,它都在發揮作用。它驅動我們的推理和規劃,即使是在最抽像的話題上。它對我們互動的方式——無論是言語的還是身體的,與同伴的還是與環境的——都至關重要。雖然我們大多數人平日裡並不會像埃拉托斯特尼那樣揭示新的真理,但我們每天都在以同樣的方式思考——通過感官感知一個複雜的世界,然後利用對它在物理、空間維度上如何運作的直觀理解來認識它。

遺憾的是,今天的 AI 還不會這樣思考。

過去幾年確實取得了巨大進步。多模態大語言模型(Multimodal LLMs,MLLMs)除了文本數據外,還使用海量多媒體數據進行訓練,引入了一些基本的空間意識,今天的 AI 可以分析圖片、回答有關它們的問題,並生成超逼真的圖像和短影片。通過傳感器和觸覺技術的突破,我們最先進的機器人可以開始在高度受限的環境中操縱物體和工具。

但坦白而言,AI 的空間能力仍遠未達到人類水平。其局限性很快就會顯現。最先進的 MLLM 模型在估計距離、方向和大小(或”在腦海中”通過從新角度重新生成物體來旋轉它們)方面的表現很少好於隨機猜測。它們無法導航迷宮、識別捷徑或預測基本物理現象。AI 生成的影片都很新穎且確實很酷,但往往在幾秒鍾後就失去連貫性。

雖然當前最先進的 AI 在閱讀、寫作、研究和數據模式識別方面表現出色,但這些相同的模型在表示或與物理世界互動時存在根本性限制。我們對世界的看法是整體的——不僅僅是我們正在看的東西,還包括一切事物在空間上如何關聯、它意味著什麼以及為什麼重要。通過想像、推理、創造和互動——而非僅僅描述——來理解這一點,正是空間智能的力量。沒有它,AI 就與其試圖理解的物理現實脫節。它無法有效駕駛我們的汽車、引導我們家中和醫院中的機器人、實現全新的沉浸式和互動式學習娛樂體驗方式,或加速材料科學和醫學的發現。

哲學家維特根史丹曾寫道:「我的語言的界限意味著我的世界的界限。我不是哲學家。但我至少知道對 AI 而言,不僅僅只有語言。空間智能代表著語言之外的前沿——連接想像、感知和行動的能力,為機器真正增強人類生活開啟可能性,從醫療保健到創造力,從科學發現到日常協助。

AI 的下一個十年:構建真正空間智能的機器

那麼,我們該如何構建具備空間智能的 AI?要打造出能像埃拉托斯特尼般洞察幾何、如工業設計師般精工巧思、似故事家般揮灑想像、同急救員般自如行動的模型,其路徑何在?

構建空間智能 AI 需要比大語言模型更雄心勃勃的東西:世界模型,一種新型生成模型,其在理解、推理、生成以及與語義、物理、幾何和動態複雜的世界(虛擬或真實)交互方面的能力遠超當今 LLMs 的能力範圍。該領域尚處於初期,當前方法從抽像推理模型到影片生成系統不等。World Labs 於 2024 年初基於這一信唸成立:基礎方法仍在建立中,這使之成為下一個十年的決定性挑戰。

在這個新興領域,最重要的是建立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:

1. 生成性:世界模型可以生成具有感知、幾何和物理一致性的世界

解鎖空間理解和推理的世界模型也必須生成自己的模擬世界。它們必須能夠產生無限多樣化的模擬世界,這些世界遵循語義或感知指令——同時保持幾何、物理和動態一致性——無論是表示真實還是虛擬空間。研究界正在積極探索這些世界在固有幾何結構方面應該隱式還是顯式表示。此外,除了強大的潛在表示外,我相信通用世界模型的輸出還必須允許為許多不同用例生成世界的顯式、可觀察狀態。特別是,其對當前的理解必須與其過去連貫地聯繫;與導致當前狀態的世界先前狀態相聯繫。

2. 多模態:世界模型在設計上是多模態的

正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式 AI 領域中稱為「提示(prompts)。給定部分信息——無論是圖像、影片、深度圖、文本指令、手勢還是動作——世界模型都應儘可能完整地預測或生成世界狀態。這要求以真實視覺的保真度處理視覺輸入,同時以同等的能力解讀語義指令。這使得智能體和人類能夠通過多樣的輸入與模型就世界進行交流,並反過來接收多樣的輸出。

3. 交互性:世界模型可以基於輸入動作輸出下一個狀態

最後,如果動作和/或目標是世界模型提示的一部分,其輸出必須包含世界的下一個狀態,無論是隱式還是顯式表示。當僅給定一個動作(無論有無目標狀態)作為輸入時,世界模型應產生一個與世界先前狀態、預期的目標狀態(如有),及其語義含義、物理定律和動態行為相一致的輸出。隨著空間智能世界模型在其推理和生成能力上變得更加強大和穩健,可以想像,在給定一個目標的情況下,世界模型本身將能夠不僅預測世界的下一個狀態,還能基於新狀態預測下一步的行動。

這項挑戰的範圍超越了 AI 以往面臨的任何挑戰。

語言,作為人類認知中一種純粹的生成現象,其規則相對簡單;而世界的運行規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最具想像力的世界,也是由遵循定義它們的物理定律和動態行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態和物理——一致地協調起來,需要全新的方法。表現一個世界的維度,遠比表現像語言這樣的一維順序信號要複雜得多。

要實現能提供我們人類所享有的那種通用能力的世界模型,需要克服幾個艱巨的技術障礙。在 World Labs,我們的研究團隊正致力於在實現這一目標的道路上取得根本性的進展。

目前,我們在幾個方向上開展研究。

其一,是為訓練找到一種新的「通用任務函數將通用任務函數定義得像大語言模型中的下一個詞元預測一樣簡單和優雅,長期以來一直是世界模型研究的核心目標。在世界模型這裏,輸入和輸出空間的複雜性讓這樣的目標函數變得難以定義。但無論如何,它以及與之對應的表徵方式,都必須忠實反映幾何與物理定律,尊重世界模型作為「紮根於想像與現實的表徵這一根本屬性。

其二,是大規模訓練數據。訓練世界模型所需的數據,比文本清洗要複雜得多。好消息是:龐大的數據源其實早已存在。互聯網上規模驚人的圖像和影片,為我們提供了觸手可及的訓練素材——難點在於,要發明出能從這些二維的圖像或影片幀信號(也就是 RGB)中,抽取更深層空間信息的算法。過去十年的研究已經表明,在語言模型上,數據體量與模型規模存在清晰的「縮放定律;對世界模型而言,關鍵在於構建能夠以類似規模利用現有視覺數據的架構。除此之外,我也不會低估高質量合成數據以及深度、觸覺等額外模態的作用。它們在訓練的關鍵階段可以補充互聯網級數據。但要走通這條路,前提是更好的傳感器系統、更可靠的信號提取算法,以及強大得多的神經模擬方法。

其三,是新的模型架構和表徵學習。世界模型的研究必然會推動架構與學習算法的演進,尤其是在現有 MLLM 和影片擴散模型範式之外。當前這些主流方法往往把數據切成一維或二維的 Token 序列,這會把一些原本簡單的空間任務變得異常困難——比如在一段短影片里數清有幾把不同的椅子,或者記住一個房間一小時之前的樣子。替代性的架構也許能幫上忙,比如在 Token 化、上下文建模和記憶機制上,採用具備 3D 或 4D 意識的方法。舉例來說,在 World Labs,我們最近在一個名為 RTFM 的實時生成框架模型上做了一些嘗試,它使用帶空間錨點的「幀作為一種空間記憶,在保持生成世界持續性的同時,實現高效的實時生成。

顯然,在通過世界建模徹底釋放空間智能之前,我們仍要面對巨大的挑戰。但這些研究絕不只是理論層面的練習,它們將成為一整個新類別創意和生產力工具的核心引擎。World Labs 內部取得的進展讓人鼓舞。最近,我們向一小部分用戶展示了 Marble,一個首創的世界模型:它可以接受多模態輸入作為提示,生成並維持一致的 3D 環境,供用戶和講故事的人探索、互動,並在各自的創作流程中進一步搭建。我們正努力盡快把它帶到更廣泛的公眾面前。

(來源:World Labs)(來源:World Labs)

Marble 只是我們創建真正空間智能世界模型的第一步。隨著進展加速,研究人員、工程師、用戶和商業領袖都開始認識到其非凡的潛力。下一代世界模型將使機器在全新水平上實現空間智能——這一成就將解鎖今天的 AI 系統中仍在很大程度上缺失的基本能力。

使用世界模型為人類構建更好的世界

驅動 AI 發展的動機至關重要。作為幫助開啟現代 AI 時代的科學家之一,我的動機一直很明確:AI 必須增強人類能力,而非取代它。多年來,我一直致力於使 AI 的開發、部署和治理與人類需求保持一致。如今技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有更務實的觀點:AI 由人開發、被人使用、由人治理。它必須始終尊重人的主體性和尊嚴。其魔力在於擴展我們的能力;使我們更具創造力、聯繫更緊密、更有生產力、更充實。空間智能代表了這一願景——賦能人類創作者、照護者、科學家和夢想家實現曾經不可能的事情。這種信念是我致力於將空間智能作為 AI 下一個偉大前沿的驅動力。

空間智能的應用跨越不同的時間線。創意工具正在湧現——World Labs 的 Marble 已經將這些能力交到創作者和講故事者手中。機器人代表著一個雄心勃勃的中期目標,因為我們正在完善感知和行動之間的循環。最具變革性的科學應用將需要更長時間,但承諾對人類繁榮產生深遠影響。

在這些時間軸上,有幾個領域尤其值得期待,它們可能重新定義人類能力。當然,實現這一願景需要巨大的集體努力,遠遠超出任何一支團隊或一家公司的能力邊界。它需要整個 AI 生態——研究者、創新者、創業者、企業乃至政策製定者——共同參與,朝著一個共享的願景前進。但這個願景值得我們投入。我們可以這樣想像未來。

創意:增強講故事和沉浸式體驗

我個人的偶像愛恩斯坦曾說過一句我很喜歡的話:「創造力是智能的樂趣。在文字出現很久之前,人類就開始講故事——把故事畫在洞穴牆壁上,一代代口耳相傳,在共同敘事中塑造文化。故事是我們理解世界、跨越時間與距離建立連接、探索作為人的意義的方式,也是我們在生活與愛中尋找意義的途徑。如今,空間智能有機會以一種不辜負故事重要性的方式,改變我們創造和體驗敘事的方式,並把這種影響從娛樂擴展到教育,從設計延伸到建造。

World Labs 的 Marble 平台會把前所未有的空間能力和可控性交到電影製作人、遊戲開發者、建築師以及各種講故事者手中,讓他們在無需傳統 3D 設計軟件那些繁瑣開銷的前提下,快速搭建並迭代可自由探索的三維世界。在這一過程中,創作行為本身依舊是鮮活而「人的;AI 工具做的,只是放大和加速創作者原本就能做到的事情。比如,敘事體驗可以在全新的維度展開。

電影人和遊戲設計師可以借助 Marble 在不同世界之間穿梭,而不再受限於預算或地理條件,探索在傳統製作流程中幾乎不可能試驗的大量場景和視角。隨著不同媒介與娛樂形式之間的邊界被不斷打破,我們正在接近一種全新的交互體驗:藝術、模擬和遊戲彼此融合,任何人——而不僅僅是大工作室——都能創造並棲居於屬於自己的故事世界。隨著從概念和分鏡到完整體驗的過程被極大加速,敘事將不再被束縛在某一種媒介里,創作者可以在多種載體與平台上構建具有共同底層世界的作品。

在設計層面,幾乎所有製造出來的物體或建造出來的空間,都必須先在虛擬 3D 中完成設計,再落到物理世界。這一流程高度迭代,且在時間和金錢上成本都極高。有了具備空間智能的模型,建築師可以在投入數月時間完善方案之前,就快速可視化結構,並走進這些尚不存在的空間中「先行體驗,本質上是在講述我們未來如何工作、生活與聚集的故事。工業設計師和時裝設計師,可以即時把想像轉化為形態,嘗試物體如何與人體以及空間互動。

在體驗層面,體驗本身是我們這個物種創造意義的最深刻途徑之一。在幾乎整個人類歷史中,我們共享的三維世界只有一個:我們共同生活的這個物理世界。直到最近幾十年,通過遊戲和早期虛擬現實,我們才開始隱約窺見共創「另一個世界的樣子。如今,當空間智能與新的硬件形態結合在一起,比如 VR 頭顯、XR 頭顯以及沉浸式顯示設備,這種體驗被提升到了前所未有的高度。我們正在走向這樣一個未來:走進一個完全構築起來的多維世界,就像打開一本書一樣自然。空間智能讓「造世界的能力不再只服務於擁有專業製作團隊的大型工作室,而是普惠給個體創作者、教育者,以及任何想要分享自己構想的人。

機器人技術:具身智能在行動

從昆蟲到人類,動物理解、導航和操控世界,無不依賴空間智能。機器人也不會例外。自這個領域誕生之初,具備空間意識的機器就一直是人們的夢想,包括我與學生、合作者在史丹福實驗室做的很多工作。正因如此,我對用 World Labs 正在構建的這類模型來實現它們,感到格外興奮。

要讓機器人成熟起來,關鍵在於找到可擴展的學習路徑,而這背後的前提,是可行的訓練數據解法。鑒於機器人必須面對的狀態空間極其龐大,它們要學會理解、推理、規劃和交互,許多人推測,真正具備泛化能力的機器人,很可能需要互聯網數據、合成模擬和真實世界中人類示範的結合。但和語言模型不同,機器人研究今天面臨的最大瓶頸之一,恰恰是訓練數據的匱乏。世界模型會在這裏發揮決定性的作用。隨著世界模型在感知精度和計算效率上的提升,它們生成的輸出可以在很大程度上縮小模擬與現實之間的鴻溝,幫助機器人在無數不同狀態、交互和環境的模擬中高效學習。

未來,機器人作為人類的夥伴與協作者——無論是在實驗台前輔助科學家,還是在家中陪伴獨居老人——都有可能在勞動力緊缺的領域拓展出一部分「新增勞動力和生產力。但要做到這一點,機器人必須具備空間智能,能夠感知、推理、規劃和行動,更重要的是:在這一切的同時,與人類目標和行為保持一種富有同理心的一致。比如,在實驗室里,一個機器人助手可以負責處理儀器,讓科學家把注意力集中到更需要靈巧操作或複雜思考的環節;在家中,一個機器人可以幫年長者準備晚餐,卻又不剝奪對方在廚房中獲得快樂與自主的空間。真正具備空間智能的世界模型,能夠預測下一步世界狀態,甚至在某些情況下給出與期望相符的下一步動作,這是實現這一目標的關鍵。

再往遠一點看,機器人的形態本身也會極大豐富。人形機器人在我們已經建成的這個世界里當然有一席之地,但真正釋放創新潛力的,恐怕是一整個形態的譜系:在體內遞送藥物的納米機器人、能穿梭於狹窄空間的軟體機器人、專為深海或外太空環境設計的機器體。不論形態如何,未來的空間智能模型都必須同時吸納機器人所處環境的特性,以及它們自身具身感知和運動的限制。但開發這類機器人面臨的一個關鍵難題,是在這些形態各異的具身形式上嚴重缺乏訓練數據。世界模型將在生成模擬數據、搭建訓練環境和構建評測基準方面發揮關鍵作用。

更長遠的視野:科學、醫療保健和教育

在科學研究中,具備空間智能的系統可以模擬實驗、並行檢驗假設,還可以探索人類難以直接抵達的環境——從深海到遙遠行星。它們有望改變諸如氣候科學、材料研究等領域的計算建模方式。通過把多維度模擬與真實世界的數據採集結合起來,這類工具可以有效降低算力門檻,擴展每一個實驗室的「可見範圍

在醫療領域,從實驗室到病床,空間智能都將重塑流程。在史丹福,我與學生、合作者多年來一直與醫院、養老院以及居家患者合作。這些經歷讓我愈發確信,空間智能在這裏有著巨大的變革潛力。AI 可以通過多維建模分子相互作用,加速藥物發現;通過幫助放射科醫生發現醫學影像中的複雜模式,提升診斷能力;通過構建「環境感知的長期監護系統,在不替代人際鏈接的前提下,為患者和照護者提供支持,更不用說機器人在各類醫療場景中為醫護和病患提供幫助的可能性。

在教育領域,空間智能可以把抽像或複雜的概念變成可感、可操作的對象,構建出符合我們大腦和身體學習方式的迭代體驗。在 AI 時代,更快、更高效的學習和再培訓需求,對在校學生和成年人都尤為迫切。學生可以走進「細胞工廠,在多維空間里觀察分子機器如何運轉,或以一種「親臨現場的方式走進歷史事件。教師則獲得了一整套工具,用互動環境來實現更個性化的教學。從外科醫生到工程師,各種專業人士都可以在高度逼真的模擬中反復練習複雜技能,而不會給現實世界帶來風險。

在所有這些領域,潛在的應用場景幾乎無窮無盡,但目標卻始終如一:構建那種能增強人類專業能力、加速人類發現、放大人類關懷的 AI,而不是取代人類判斷、創造力與共情——這些是作為人的核心所在。

結論

過去十年見證了 AI 成為全球現象,成為技術、經濟甚至地緣政治的拐點。但作為研究者、教育者和現在的企業家,圖靈 75 年前那個問題背後的精神仍然最能激勵我。我仍然分享著他的驚奇感。這正是空間智能的挑戰每天給予我的活力。

有史以來第一次,我們準備好構建與物理世界如此協調的機器,以至於我們可以依靠它們作為我們面臨的最大挑戰中的真正夥伴。無論是加速我們在實驗室理解疾病的方式、革新我們講述故事的方式,還是在我們因疾病、傷害或年齡而最脆弱的時刻支持我們,我們正處於提升我們最關心的生活方面的技術的風口浪尖。這是一個更深刻、更豐富、更有力量的生活的願景。

在自然界在祖先動物身上釋放空間智能的第一縷曙光近五億年後,我們有幸發現自己處於可能很快賦予機器相同能力的技術人員這一代中——並且有特權將這些能力用於世界各地人民的利益。如果沒有空間智能,我們對真正智能機器的夢想將不會完整。

參考資料:

https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

排版:劉雅坤