楊立昆:「AGI即將到來」完全是無稽之談,真正的智能要建立在世界模型之上

近日,在英偉達 GTC 2025 的「爐邊對話」環節中,圖靈獎得主、Meta 首席 AI 科學家、美國紐約大學教授楊立昆指出:「僅僅依靠語言和文字訓練出來的 AI 系統,永遠無法逼近人類的理解力。」他進一步指出,符號操作與真實理解之間存在一道不可踰越的鴻溝。

圖 | 楊立昆在英偉達 GTC 2025 的「爐邊對話」環節(來源:英偉達 GTC)

與此同時,楊立昆認為「通用人工智能(AGI,Artificial General Intelligence)即將到來」完全是無稽之談。而他更願意談此前由他和團隊提出的高級機器智能(AMI,Advanced Machine Intelligence)。

這個觀點再度挑起了人們對於 AI 本質的深層討論:究竟機器能否真正理解這個世界?還是它們永遠只能停留在符號的表層遊戲之中?

「AI 三教父」均認為 AI 不能單單依靠符號操作

在本次「爐邊會談」中,楊立昆還指出真正的智能需要建立在世界模型的基礎上。

世界模型,能夠從內部針對外部世界運作規律加以模擬,從而幫助它在沒有直接接觸現實的情況下做出預測和判斷。比如,它能想像如果一隻貓跳上桌子,可能會打翻桌上的花瓶。也就是說,世界模型不僅是語言上的理解,更重要的是具備一種「想像」與「推演」能力。

這意味著 AI 不再依賴人類標註好的數據,而是能夠像嬰兒一樣通過觀察、預測和自我修正,不斷構建對世界的認知。在 2024 年底的另一場談話中,楊立昆曾指出人類嬰兒四歲前接觸到的感官數據,遠遠超過今天任何一個語言模型所能訓練的數據量,即「四歲孩童花費 16000 小時學會的事,AI 要花幾十萬年」。如果 AI 系統能接觸到類似的感知輸入,或許也能逐步構建起對於世界的理解。

新加坡南洋理工大學杜宇軒博士表示,楊立昆的觀點並不是孤立的,另外兩位和他同樣被稱為「AI」教父的圖靈獎得主持有類似觀點。

在「AI 三教父」中,另一位「AI 教父」、圖靈獎得主傑佛瑞·辛頓(Geoffrey Hinton)也表達過對於當前大語言模型局限的擔憂。Hinton 認為,大語言模型要想理解世界就離不開多模態輸入,即離不開視覺、聽覺、語言等多種感官信息的融合。Hinton 曾明確表示僅僅依靠語言訓練出來的模型,難以真正理解地空間和物體等概念。為此,Hinton 曾努力推動神經網絡從語言模型向多模態模型演進,嘗試讓 AI 能夠同時「看圖」和「讀文」,以便獲得更加接近人類的認知結構。

第三位「AI 教父」、同樣是圖靈獎得主的祖舒亞·本吉奧(Yoshua Bengio)則主張推進所謂「系統 2 的深度學習」。「系統 2 的深度學習」是一個心理學術語,指的是具備更慢、更有邏輯的推理能力和抽像能力的認知系統。Bengio 認為,當前的深度學習模型更多體現的是系統 1,即能夠快速反應、也能基於模式識別進行直覺判斷。Bengio 希望通過構建新的架構和訓練機制,讓 AI 具備逐步推理、因果分析和規劃能力,即讓神經網絡自己湧現出像人一樣思考的過程。在這個問題上,Bengio 反對簡單回到傳統符號主義的老路,而是希望在連接主義的框架內繼續深挖可能性。

從「AI 三教父」的立場可以看出,儘管他們主張的路線略有差異,但是他們的共識在於單靠符號操作是不夠的。真正的理解需要感知、經驗和推理這三者的參與。

要想理解這一觀點,首先需要澄清符號操作的概念。符號操作,指的是 AI 對抽像的語言、文字或邏輯符號進行處理與組合的能力。早期的 AI 系統比如專家系統,正是依靠大量由人類事先編好的規則去「推理」。這些系統對於知識的掌握是來自於外部賦予而非依靠自己習得。在今天的大語言模型中,符號操作被推向了極致。像 GPT 這樣的模型可以根據統計規律,預測接下來最可能出現的詞語,從而生成一段聽起來合情合理的回答。但是,這些模型真的理解了自己所說的內容嗎?這是一個值得深思的問題。

美國麻省理工學院校友 Yuxuan 表示:「楊立昆指出了一個 AI 領域長期存在的深刻問題。符號操作本質上是針對抽像概念的邏輯運算,它能在形式上模仿智能的某些方面,例如進行推理、解決邏輯問題等。然而,真正的理解往往涉及到對世界的感知、經驗、情感以及更深層次的直覺和常識。這些恰恰是符號操作難以觸及的。」

對此,愛爾蘭聖三一大學博士後研究員崔浩深有同感。她表示,一個經典的例子是塞爾(Searle)的「中文房間」思想實驗:一個不會中文的人如果學會了「看到某個符號串就換成另一個」的規則,就能像「懂中文的人」一樣作答。這個過程完全基於符號操作,卻不涉及到對於語言含義的理解。

GPT「讀遍」了互聯網,卻從未喝過一口紅酒、摔過一隻杯子

新加坡 Sea 集團 Sea AI Lab 的研究員竇隆緒認為:」楊立昆的觀點揭示了當前 AI 發展的核心矛盾:即儘管我們在語言模型上取得了令人矚目的進展,卻忽視了真實智能的本質需求。這種觀點是對‘AGI 即將到來’觀點的深刻批評,挑戰了目前普遍存在的過度樂觀情緒。」

英國牛津大學博士後研究員趙睿對於楊立昆的觀點也持整體支持的態度。人們會覺得大語言模型能夠「理解」世界,其中很大一個因素是因為我們作為人類知道辭彙和現實概念的聯繫,所以在閱讀大語言模型輸出的文本時會自動進行聯繫和理解。事實上,大語言模型本身則並不具有這個聯繫。這就像是紅綠色盲人士的確知道「紅」「綠」這兩個字對應著不同的顏色,但是他們始終無法依靠自己去區分這兩個顏色,所以人們不會完全相信他們關於相關顏色的描述。同樣地,我們也不應該相信大語言模型對文本詞句的組合背後存在我們一般經驗中所認為的「理解」。

崔浩認為:「大模型依賴文本 token 的預測,通過處理符號和規則來生成答案,而並不是真正地理解這些符號所指向的現實。例如,‘情人節喝紅酒’對它來說只是一個概率上的語言結構,而不是與味覺、動作、文化、常識相關聯的綜合體驗。因此,即使大模型表現得‘好像理解了’,也不能說它‘真的理解’了。理解,不只是處理符號,而是明白這些符號在現實世界中的含義和所指。比如‘紅酒’這個詞,對人類而言可能聯想到顏色、氣味、場景、社交氛圍,以及它帶來的影響比如‘喝酒不能開車’,這是建立在感知、經驗和常識之上的語義理解。哪怕大模型可以在語言上描述‘打翻紅酒杯、杯子碎裂、紅酒順著桌沿流下’,但它並不知道‘摔碎’意味著什麼,更不知道‘紅酒往下流’在物理上是怎樣的過程。GPT 雖然‘讀遍’了互聯網,但它從未喝過一口紅酒、摔過一隻杯子,從未親身體驗過任何事情。它的‘理解’,更多是基於語言的概率結構,而非體驗或物理常識上的因果模型。」

相比之下,所謂真實理解更加接近於人類的認知。真實理解不僅僅是對符號的處理,而是將這些符號與感知、經驗、世界知識結合起來,形成一種對現實的、可解釋的認識。舉例來說:一個孩子看到玻璃杯掉在地上摔碎之後,他就會明白「玻璃易碎」的概念,這不是因為他聽了多少關於玻璃的定義,而是因為他通過親身體驗建立了這種物理常識。這種從經驗中習得、與世界互動建立起來的世界模型,是當前大多數 AI 系統所缺乏的。

所以,僅僅靠語言或符號系統,無法達到真正的智能。通過語言和邏輯所構建的世界模型是抽像的,遠不及親身感知、實際經驗帶來的理解深刻。

杜宇軒指出,這種現象背後的原因是因為當前的模型雖然龐大,但其學習的基礎仍然是文字與符號。它們缺乏對現實世界的「語義錨定」,也缺少對於「因果」的直觀把握。杜宇軒表示,它們沒有一個內在統一的世界模型來確保其輸出的一致性和邏輯性。這就是為什麼模型有時會「自相矛盾」或者會在對話中出現「健忘」情況,因為它並沒有真正形成一種持續的「情境意識」。

當前基於 token 預測的大模型,本質上只是在處理語言的統計模式,而非理解物理世界的複雜性。語言確實只是現實的低維投影,缺乏物理世界的連續性和因果關係。正如楊立昆所說,真正的智能需要建立在對物理世界的理解之上,這時就需要世界模型的參與,而不是僅僅只有語言模型。

比起 AGI,為何楊立昆更願意談 AMI?

前面提到,楊立昆更願意談 AMI。2022 年,楊立昆團隊曾提出一款名為 JEPA 的世界模型架構,讓 AMI 邁向了一小步。但是,人類智能本身就是高度專業化的而非「通用」的。雖然楊立昆預測未來 3-5 年內或許能夠實現小規模的 AMI,然而要想達到真正的人類智能水平仍需時日。這種謹慎的預測比「AGI 即將到來」的敘事更為可信。

那麼,AGI 與 AMI 之間的差異何在?英國牛津大學博士韓裕舉例表示:「當人類全神貫注於一件事情時,可能會忘記時間,周圍的溫度、風聲和人聲都變得模糊甚至消失。這種現像在認知科學和神經科學中有著明確解釋,即人類的大腦並非逐像素、逐幀地處理世界,而是依賴抽像層次的表徵與結構化信息。」

韓裕表示,作為一種高度智能的系統,人腦的視覺處理體系呈現出明顯的分層和抽像化架構。儘管視網膜接收到的是像素級的連續信號,但是在信號傳遞到大腦皮層之前,視網膜內部的神經回路已完成了初步的邊緣和運動特徵提取。隨後,初級視覺皮層(V1,Visual Cortex 1)進一步提取低層次的邊緣、方向和紋理特徵,而高級視覺通路則將這些低層特徵整合為物體、面孔和場景的抽像表徵。

心理學研究也佐證了這一觀點:人類的注意力會自然而然地聚焦於結構模式和關係,而非數字型的像素化細節。

這一生物機制為 AI 模型設計提供了啟示。即 AI 模型不應該僅僅依賴像素級重建誤差,而是要具備多層次抽像表徵能力。同時,更精細化的多模態處理、關係推理與因果推理能力,也被認為是通往高階智能不可或缺的能力。

過去幾年間,在知識泛化和零樣本推理上,大語言模型和多模態模型已經取得了令人矚目的成果。例如,Flamingo、LLaVA、GPT-4V 等多模態模型展示出跨感知通道的生成與推理能力。

然而,模型結構中的本質問題依然存在。問題的本質在於高維連續數據與離散數據的根本差異決定了模型泛化能力的邊界。語言模型依賴的離散 token 序列只是現實世界的「低維」符號化投影,而真實世界本質上是高維、連續且充滿動態變化的。

當前,主流大語言模型採用離散 token 的條件概率建模,著本質上是一種近似模擬,而非對連續物理過程和動態變化的真實理解。即它們只能在離散空間中擬合局部模式,難以處理非線性、多尺度耦合的物理系統。而依賴 token 預測的架構天然存在天花板,因為它基於離散符號,缺乏對於連續世界及其因果結構的表達能力。

因此,真正的智能需要從「token 預測」邁向「連續世界建模」,從「封閉字典」邁向「開放系統」,從「統計擬合」邁向「具身智能」。基於此,連續建模、多尺度物理一致性和因果推理,將成為未來 AMI 研究的三大支柱。

楊立昆觀點之核心:要發展模型的推理能力

人類通過感受器來感知這個世界,雖然人體感受器的信號精度比目前的機器更高,但人體感受器的高信號精度並不是無法企及的自然法則,目前很多消費級設備已經達到甚至超越了人類的感知精度。比如,市面上輕易就能買到的紅外攝像頭就可以處理人眼無法捕獲的紅外線。趙睿認為:「從這個角度來看,簡單地說‘符號操作和真實理解之間存在不可踰越的鴻溝’似乎有些問題,因為只要人們可以向系統中無限地添加感受器並將其數據 tokenize,那麼系統就可以達到和人類同等乃至更優的感知能力。」其繼續表示:「在我的理解中,楊立昆的觀點重點在於選擇新的方法發展 AGI 或者 AMI。這不能僅僅依靠‘文本’或‘圖片’這些反映‘現象’的 token,而要發展‘推理’能力。至於推理是通過 token 還是其他方式實現,則並不在本次‘爐邊談話’的討論範圍之內。」

另外,楊立昆在「爐邊談話」中關於可靠性的討論也很重要。可靠性的本質就是推理結論(輸出)是否始終正確,或者說始終符合系統所被設計的目標。而在所有當代 AI 系統中,均存在可靠性上的缺陷。這在目前備受關注的自動駕駛和大語言模型領域顯得尤為突出。大眾似乎抱有一種盲目的樂觀態度:只要沿著目前的技術路線走下去,可靠性會自動解決,但其實並非如此。

同時,談論 AI 究竟能為人們帶來什麼,或許比爭論「湧現」和「AGI」等詞語更有意義。毫無疑問,發展 AI 會給人們帶來更好用的工具。然而,人們是否會陷入對概率性黑箱工具的依賴、而不再嘗試「理解」這個世界?或者說不再討論‘科學’?他說:「從中國到歐洲,從古代到近代,歷史曾發生的事情正是我的擔憂所在,即先進技術並不是科學發展的充分條件。而在目前的 AI 路徑上,我看不到 AI (直接)去發展‘科學’的明確路線。即使有 AlphaFold 等最貼合科學研究的技術,也只是在沿著現有科學理論之下進行更多的確認或輔助,而非以其為主導來實現科學理論創新。」目前來看,似乎仍然只能依靠人類自己來發展科學理論。「這是否意味著依靠目前的技術路線根本不可能發展出 AGI?關於此我也不知道。」他表示。

因此,或許是時候重新審視符號操作或知識表示以及推理等技術。它們可以很自然地滿足「推理」和「可靠性」的需求,也能比較容易地支持「發展科學」這一需求。趙睿表示,現有符號系統的準確度和當代的神經網絡系統相去甚遠。也許借助可解釋人工智能(xAI,Explainable AI)就能達成這個目標,但也許需要神經網絡和邏輯兩種機制進行更有深度的融合。「如果繼續發散一下,是否‘不完備性定理’等定理對於 AGI 也是適用的,而這又意味著什麼呢?」其表示。(註:不完備性定理表明,任何足夠複雜的邏輯系統都存在無法解決的問題。)

「過度樂觀的學界需要這樣‘一盆冷水’」‍

在這場「爐邊對話」中,楊立昆還表示:「有一些人在努力讓機器進行額外推理。在我看來,這是一種非常簡單化的推理方式,我認為可能還有更好的方法來做到這一點。」

關於研究方法,其實應該更傾向於把語言模型看作雙重工具:它既是研究結構化數據的手段,也是探索如何通過算力提升智能的途徑。本次同樣亮相於英偉達 GTC 2025、由「杭州六小龍」之一群核科技研發的空間理解模型 SpatialLM,就是一個很好的案例。SpatialLM 使用 Real2Sim2Real 方法讓大語言模型學會了空間理解和物理常識,從而能夠縮小傳統仿真數據與現實數據的分佈差距。

在「爐邊談話」中,楊立昆表示:「我們需要更強大的計算能力,特別是用於抽像推理的計算。」事實上,關於思維模式這一問題,新晉圖靈獎得主、美國計算機科學家李察·瑟頓(Richard Sutton)更加直言不諱,其曾表示 AI 研究者應聚焦如何產生智能本身,不要被科研偽命題分散注意力,更不該為迎合特定場景而犧牲核心探索。這啟示著我們需要回歸第一性原理尋找智能的本質,同時讓技術在實際應用中迭代,而這才是平衡理論與實踐的最佳路徑。

在本次「爐邊談話」中,楊立昆還指出「AI 創新可以來自任何地方」。

對此竇隆緒深表認同,其認為 AI 團隊需要清晰定位各自角色和優勢。學界的研究員應勇於挑戰高風險、高回報的方向,專注於解決基礎問題,用算法和理論突破邊界。業界的工程師則需發揮系統思維和技術專長,確保 AI 在真實世界中可靠運行,同時能夠適應各種複雜環境。雙輪驅動,各司其職,才能讓創新真正開花結果。竇隆緒補充稱:「作為一名研究人員我讚同楊立昆關於‘智能本質’的觀點,過度樂觀的學界很需要這樣一盆冷水。但是,在科技飛速爆發的當下,我們更加需要這種基礎性的反思,避免將資源過度投入到可能是技術死胡同的方向。」

符號操作並非一無是處

儘管楊立昆等學者強調了構建世界模型和系統 2 推理的必要性,這並不意味著符號操作本身一無是處。恰恰相反,符號操作在過去數十年中一直是人類社會知識生產和組織的基礎。從自然語言的書寫與交流,到數學的表達方式,再到法律條文、計算機程序中的變量與語法規則,符號系統以其抽像、高效和可組合的特性,符號操作為科學、工程、教育、商業等多個領域帶來了巨大便利。因此,問題並不在於符號操作本身的價值,而在於當人們試圖追求更接近人類水平的理解與推理能力時,僅僅依賴符號操作可能是不夠的。符號操作是理解的起點,但遠不是終點。符號只是形式,真正的理解需要感知與經驗作為內核。

有人可能會問,AI 最終能否真正「理解」這個世界?事實上,這不僅是一個技術問題,也涉及到哲學層面的探討。在認知科學中,理解是否意味著擁有意識?機器是否可以像人一樣有主觀體驗?對於這些問題,人們目前尚無定論。

但是,至少從工程角度來說,人們正在逐步逼近這個目標。語言模型的崛起為 AI 的自然語言理解奠定了基礎,而世界模型、自監督學習、多模態輸入和因果推理的研究,正在為 AI 系統構建一個更接近人類認知結構的「心智模型」。

如果要讓 AI 邁出「理解」的關鍵一步,或許需要從多個方向入手。首先是多模態感知的引入,讓 AI 不僅「聽語言」也能「看世界」;其次是建立可訓練、可擴展的世界模型,讓系統能夠在內部推演現實世界的動態;再次是開發新的推理機制,讓 AI 具備系統 2 式的思考能力。

真實理解或許並不是某一天突然實現的「里程碑」,而是一個漸進的過程。在這個過程中,人們對 AI 的期望也許需要更加冷靜一些,既看到其驚人的進步,也意識到它尚未觸及的深水區。正如李察·瑟頓在其寫於 2019 年的文章《苦澀的教訓》中指出的那樣:真正通向智能的道路往往不是靠人們人類賦予的規則和技巧,而是依靠系統自己去探索、去學習、去構建。

Yuxuan 也表示,當前的 AI 模型的理解,往往停留在模式匹配和規則執行的層面,缺乏像人類那樣基於豐富經驗和對世界模型的深刻認知。Yuxuan 認為,可能需要我們在模型架構、學習方式以及如何將感知、經驗等非符號化的信息融入到 AI 系統中進行更深入的探索。

崔浩表示:「哪怕未來的 AI 擁有複雜的世界模型,卻很有可能依然無法像人類一樣真正地理解世界。因為它們沒有本能、直覺、情感與痛感,而這些是理解世界不可或缺的一部分。至於機器,或許只能在模擬中無限逼近,卻無法等同。」

韓裕則認為:「跨越從符號操作到真實理解之間的鴻溝或許很難,但並非不可能。也許在不久的未來,隨著下一次技術範式的到來,這一跨越將會成為現實。」

參考資料:

1.Masland, R. H. (2012). The neuronal organization of the retina.Neuron, 76(2), 266–280.

2.DiCarlo, J. J., Zoccolan, D., & Rust, N. C. (2012). How does the brain solve visual object recognition?Neuron, 73(3), 415-434.

3.Biederman, I. (1987). Recognition-by-components: A theory of human image understanding.Psychological Review, 94(2), 115-147.

4.Battaglia, P. W., Hamrick, J. B., Bapst, V., Sanchez-Gonzalez, A., et al. (2018). Relational inductive biases, deep learning, and graph networks.arXiv preprint arXiv:1806.01261.

5.Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention is all you need.Advances in Neural Information Processing Systems, 30.

6.Brown, T., Mann, B., Ryder, N., et al. (2020). Language models are few-shot learners.Advances in Neural Information Processing Systems, 33, 1877-1901.

7.Bommasani, R., Hudson, D. A., Adeli, E., et al. (2021). On the opportunities and risks of foundation models.arXiv preprint arXiv:2108.07258.

8.Alayrac, J.-B., Donahue, J., Simonyan, K., et al. (2022). Flamingo: A visual language model for few-shot learning.arXiv preprint arXiv:2204.14198.

9.Liu, H., Zhu, C., Hu, Z., et al. (2023). Visual instruction tuning with LLaVA.arXiv preprint arXiv:2304.08485.

10.OpenAI. (2023). GPT-4 technical report. Retrieved from https://openai.com/research/gpt-4

11.LeCun, Y. (2022). Path towards autonomous machine intelligence.Communications of the ACM, 65(10), 34-47.

12.Rao, A., Kumar, A., et al. (2021). Continuous control with deep reinforcement learning and physics priors.NeurIPS.

13.Chen, R. T. Q., Rubanova, Y., Bettencourt, J., & Duvenaud, D. (2018). Neural ordinary differential equations.Advances in Neural Information Processing Systems, 31.

14.Grathwohl, W., Chen, R. T. Q., et al. (2019). FFJORD: Free-form continuous dynamics for scalable reversible generative models.International Conference on Learning Representations.

15.Raissi, M., Perdikaris, P., & Karniadakis, G. E. (2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving partial differential equations.Journal of Computational Physics, 378, 686–707.

16.Ha, D., & Schmidhuber, J. (2018). World models.arXiv preprint arXiv:1803.10122.

運營/排版:何晨龍