楊立昆:「AGI即將到來」完全是無稽之談

在英偉達GTC期間,爐邊對話是一個備受關注的保留環節,今年爐邊對話的嘉賓是楊立昆(Yann LeCun)

楊立昆在人工智能領域一向以言辭激烈著稱。

他是Meta首席人工智能科學家、紐約大學教授,也是圖靈獎得主,他始終以批判性視角審視行業熱潮,其觀點既是對當前技術路線的反思,亦是對未來方向的預判。

當地時間3月18日下午,英偉達首席科學家比爾·達利(Bill Dally)與楊立昆在聖荷西市政禮堂進行了一場名為「人工智能與計算前沿」(Frontiers of AI and Computing)的對話,但是楊立昆一開場就說:「可能會讓一些人感到驚訝,我對前沿突破不再那麼感興趣了。」

但他還是和比爾·達利聊了近一個小時,超時約20分鐘。

整場聽下來,楊立昆討論的核心內容是:符號操作與真實理解之間存在著不可踰越的鴻溝。

楊立昆一開始就把矛頭指向當下過度樂觀的AGI(通用人工智能)敘事。他認為,人類智能的本質是「高度專業化」而非「通用」,語言僅是現實世界的低維投影,而現有大模型依賴文本token預測的架構,註定無法理解物理世界的複雜性與連續性,真正的智能需要建立在「世界模型」的基礎上。

他認為「AGI即將到來」完全是無稽之談,他更願意談AMI(Advanced Machine Intelligence,高級機器智能),並認為在未來3到5年內可以在小範圍內實現某種高級機器智能,但整體達到人類智能水平仍需更長時間和不斷的系統性優化。

而對於創新,他強調創新不是封閉的過程,而是跨學科、跨地域合作的成果,創新的前提之一是科學家需要自由探索:「如果你希望研究人員創新,就不能過度施加壓力,不能要求他們每3~6個月必須交出成果。」

楊立昆的思考為AI發展提供了清晰的技術路線圖:從語言模型轉向世界模型,從系統1邁向系統2,從封閉開發走向開源協作。

「甲子光年」拍攝「甲子光年」拍攝

「甲子光年」的感受是,這是一種「清醒的糾偏」:AI不應困在「文本煉金術」中,而需回歸具身交互與物理推理的本質。若Meta能通過JEPA世界模型驗證這一路徑,或許將開啟一條「去GPT化」的新賽道。

畢竟,真正的智能永遠誕生於對現實世界的理解,而非概率遊戲的勝出。

以下是比爾·達利與楊立昆的對話實錄,為了方便閱讀,「甲子光年」做了不改變原意的翻譯、編輯和備註。

一、「AGI即將到來」完全是無稽之談

比爾·達利:過去一年,在歐洲最令人興奮的AI發展是什麼?

楊立昆:有太多值得討論的進展了,但我告訴你我的看法,這可能會讓一些人感到驚訝,我對前沿突破不再那麼感興趣了。

我認為目前更有趣的問題有四個:

如何讓機器理解物理世界,今天早上黃仁勳談到了此事。

如何讓它們擁有特定的記憶,這一點並沒有很多人討論。

如何讓它們進行推理和規劃。

當然也有一些人在努力讓機器進行額外推理。在我看來,這是一種非常簡單化的推理方式,我認為可能還有更好的方法來做到這一點。

因此,我對科技社區中,許多人在五年後可能會感到興奮的事情而興奮,但現在這些事情看起來並不那麼令人興奮,因為這些還只是晦澀的學術論文。

比爾·達利:如果AI的核心問題是這些,那麼它的基礎模型應該是什麼?

楊立昆:許多人正在研究的世界模型(World Models)。什麼是世界模型?世界模型是我們大腦中的認知模型,它允許我們不斷地進行思考和推理。例如,你知道如果從上方按壓一個按鈕,它可能會受到影響並滑動;如果你用力按下,它可能會彈起。

我們在日常生活中習得這些關於物理世界的認知模型,使我們能夠與現實世界互動,而現實世界的複雜性遠超人類語言。所以我認為AI系統需要的架構,與現有的基於Web數據的語言模型截然不同,不能局限於簡單的token預測。

比爾·達利:對,token可以是任何內容。例如,自動駕駛汽車從傳感器接收token,並生成用於駕駛決策的token。從某種意義上說,這也是在對物理世界進行推理。但為什麼token是表示現實世界的正確方式?

楊立昆:Token是離散的。當我們談論token時,通常是指一個在有限可能集合中的選擇。在典型的NLP任務中,token的選擇範圍通常在幾千個左右。因此當你訓練一個系統去預測下一個token,它並不能精確地預測出確切的token,而是只能基於字典中的所有可能選項生成一個概率分佈。

但在現實世界中,我們面對的是高維、連續的數據,比如影片、語音等。當前AI試圖理解世界的方法之一是通過像素級別的影片預測,但這種方法在構建認知模型方面效果極差。

即使AI只是用於學習數據的表示(representation learning),而不是執行更複雜的任務,這種方法仍然未能成功。例如,那些試圖通過重建圖像來學習表示的方法基本都失敗了。

在處理影片或視覺數據時,我們通常不會試圖從像素級別提取信息,而是要學習更高層次的抽像表示,以便AI能夠基於這種抽像信息進行預測。

例如,如果我們拍攝了這個房間的一個影片,並在某個時刻暫停,然後讓AI預測接下來的場景,它可能會預測出「房間里仍然有一些人坐著」等模糊的信息。但它不可能準確地預測出每個人的具體面孔,因為這些信息無法從先前的影片片段中獲取。

世界上存在大量不可預測的事物。如果讓AI在像素級別進行預測,它將浪費大量計算資源來嘗試填補這些不可預測的細節,但最終無法得到有效的結果。因此我們發現,像素級別的預測方式通常是資源的浪費。

這也是為什麼我們一直在探索新的方法,而目前所有基於像素重建的嘗試幾乎都失敗了。只有在抽像表示層面進行預測,才能取得更好的效果。因此,我們需要不同於當前token預測架構的全新方法。

比爾·達利:很多人都在說AGI(通用人工智能)即將到來,你怎麼看?我們能實現嗎?還有哪些差距?

楊立昆:我不喜歡使用「AGI」這個詞,因為人們通常用它來指代具有「人類水平智能」的系統。但實際上,人類智能本身是高度專業化的,因此用「通用」這個詞來描述它並不恰當。

我更傾向於使用「AMI」(Advanced Machine Intelligence,高級機器智能),我們可能在3到5年內能小規模實現它。之後,我們需要不斷擴展、優化,最終才可能達到「人類水平智能」。

回顧AI發展的歷史,每一代研究者都會發現一種新的範式,並宣稱「在未來5到10年內,我們就能實現‘人類水平智能’」。這種預測已經持續了70年。但在過去幾十年里,AI的進展一直沒有達到「人類水平智能」的目標,當前的思路也存在問題。

有些人認為,只要繼續擴展深度學習,或者讓AI生成足夠多的數據,最終就能達到「人類水平智能」。但如果按照這個邏輯,我們可能需要一個數據中心裡全是天才級AI才能實現突破,這顯然是不現實的。

所以,我認為AGI即將到來」這種說法完全是無稽之談(It’s complete nonsense)

當然,在某些特定領域,AI確實能達到博士水平,AI的表現非常優秀。但如果討論整體智能,我們仍然相距甚遠。當然,這個「遠」可能意味著10年左右,所以它也不是遙不可及的。

楊立昆,圖片來源:「甲子光年」拍攝楊立昆,圖片來源:「甲子光年」拍攝

二、AI創新可以來自任何地方

比爾·達利:你認為AI在哪些領域應用最具優勢?

楊立昆:在一些領域,AI的影響力已經相當大。我認為,AI未來在科學和醫學方面的影響可能比我們現在能想像的還要深遠。例如,在蛋白質摺疊(如AlphaFold)、藥物設計以及理解生命過程等研究中,AI已經發揮了重要作用,但它的潛力還遠未被完全挖掘。

在醫療影像分析方面,AI帶來了顯著的提升。在美國,許多醫學影像分析流程都已經引入了AI:以乳腺X線檢查為例,AI參與了初步篩查,並協助檢測異常;如果你進行MRI(磁共振成像)檢查,AI也能幫助提高圖像質量並減少掃瞄時間。目前的技術可以通過AI預測並填補高解像度MRI圖像,從而將掃瞄時間縮短至原來的四分之一。

但我們也必須意識到AI的局限性。構建和部署高精度、高可靠性的AI系統比大多數人想像的要困難得多。自動駕駛領域就是一個典型例子,人們一直在預測L5級別(完全自動駕駛)的實現時間,但現實是,AI關鍵點通常不在於基礎技術或炫目的演示,而是在於實際部署時的可靠性。

要讓AI真正適應現實世界的應用場景,並在各種環境下保持一致性和可靠性,這才是最難的部分。這也是為什麼AI的大規模部署比預期更困難,並且需要更長的時間。

比爾·達利:AI不是在取代人類,而是在增強我們的能力,類似於更強大的工具。

楊立昆:也許某一天它會取代部分工作,但我們仍然主導AI的發展。即使未來出現超級智能,我們仍然會是它們的「老闆」,而不是讓AI管理我們。事實上,我們更可能擁有一群由AI組成的知識型助手團隊,為我們工作。我不知道你的想法,但我更喜歡這種未來,而不是AI取代人類。

比爾·達利:AI能以許多方式造福人類,它也可能被濫用,比如用於製造深度偽造(Deepfake)影片、傳播虛假新聞,甚至造成情感困擾。你對AI的最大擔憂是什麼?我們該如何應對這些挑戰?

楊立昆:有一點可能會讓人驚訝,即便深度偽造等技術已經存在多年,我們那些負責檢測和移除此類攻擊的同事,並沒有觀察到社交網絡上大規模增加的AI生成內容。不過,我們需要考慮AI作為防禦工具的作用,比如用於對抗AI生成的攻擊或其他網絡威脅。

過去幾年,很多人擔心AI生成內容會摧毀信息生態,但實際上,這種情況並沒有想像中那樣失控。

例如,2022年,我們團隊訓練了一個名為Galactica的大模型,該模型基於整個科學文獻庫進行訓練,可以生成技術性極強的文本。我們發佈了一篇論文介紹這個模型,並提供了在線演示,讓人們可以自由嘗試。然而,外界的反應非常激烈,有人擔心它會生成錯誤的科學信息,比如「吃碎玻璃的好處」之類的荒謬內容,引發了巨大的輿論風暴。

最終,我們不得不下線Galactica,因為社會還未準備好接受這項技術,或者說,公眾並不真正感興趣。

但僅僅兩三週後,ChatGPT發佈了,公眾的反應截然不同,彷彿是一次「技術複興」。

當然,AI仍然存在很多風險,特別是在規模化應用時。例如,目前AI仍然缺乏常識,也無法有效驗證自己輸出內容的正確性。因此,我們需要構建更先進的AI系統,使其具備基本的自我評估能力,從而提高可靠性。不過,目前這仍然是一個未完全解決的難題。

比爾·達利:你認為未來的AI創新會來自哪裡?

楊立昆:AI創新可以來自任何地方,任何人都可能提出優秀的想法。沒有人能夠獨佔創新,關鍵在於是否能認識到現實。我不認為一個人可以憑空想出所有好點子。在我的科學研究經歷中,真正的好想法往往來源於與他人的交流和合作。人們互相交換想法、共享代碼,從而推動創新。這也是為什麼我堅定支持開源AI平台的原因之一。

Meta部分採用了這種理念。我們必須承認,無論我們多麼聰明,我們都不可能單憑個人智慧完成一切。

一個有趣的案例是,過去十年中被引用最多的AI領域論文之一,是2015年關於殘差網絡(ResNet)的研究。

《Deep Residual Learning for Image Recognition》,目前被引數267878
《Deep Residual Learning for Image Recognition》,目前被引數267878《Deep Residual Learning for Image Recognition》,目前被引數267878

該論文的研究工作主要由位於北京的微軟亞洲研究院的華人科學家團隊完成,第一作者是何愷明(Kaiming He)。他後來加入了Facebook(現Meta),並在加州工作了多年,最近又回到了麻省理工學院(MIT)。這表明,世界各地都有優秀的科學家,創新的想法可以來自任何地方。

但要讓這些想法真正落地,你需要團隊、資源以及一個能夠支持大規模應用的生態系統,也需要與朋友、同事的密切合作。

比爾·達利:開放的研究和協作社區能夠極大加速技術進步。有人提出一個好想法,另一個人找到不同的實現路徑,雙方交流後,創新就會發生。但如果所有研究都被封閉起來,進展就會受限。

楊立昆:沒錯,創新的前提之一是科學家需要自由探索。如果你希望研究人員創新,就不能過度施加壓力,不能要求他們每3~6個月必須交出成果。

事實上,這正是Transformer誕生的背景。當時在Facebook AI研究院(FAIR)有多個並行項目,其中一個資源充足、受到管理層支持;而另一個則是由位於巴黎的十幾名研究人員自發推動的小型項目,儘管缺乏資源,他們還是決定構建自己的模型。

即便沒有最充足的支持,創新仍然可能發生,只要研究人員擁有足夠的自由度和時間來探索新的想法。

最終,公司決定採用其中一個項目作為主要平台,並圍繞它建立了一個團隊,將其發展成為一個開源項目。這些決策塑造了當前的AI生態。昨天(3月18日)的數據顯示,Llama(Meta的開源大模型)已被下載超過10億次。(現場響起掌聲)

這個數據令人震驚,說明開源AI生態正在迅速發展。

慶祝Llama下載量突破10億次,圖片來源:Meta慶祝Llama下載量突破10億次,圖片來源:Meta

比爾·達利:當然,這與GPU的增長密不可分。讓我們談談開源AI。像Mistral這樣的公司推出了高質量的開源大模型,用戶可以自由下載並在本地運行。開源AI有哪些優缺點?許多公司投入了大量資金訓練和優化模型,那麼這些模型開源意味著什麼?

楊立昆:對於那些希望直接從AI服務中盈利的公司來說,開源可能並不理想,因為他們的核心業務依賴於這些模型的專有性。如果他們的唯一收入來源是AI訪問服務,那麼開源模型可能會影響商業模式。

但如果是像Google這樣的公司,其主要收入來源並非AI服務本身,而是通過AI促進其他業務(例如搜索廣告),那麼開源模型可能是一個合理的策略。

比爾·達利:未來幾年內,你們正在研究哪些新模型?是否有新的架構可以實現真正的推理?

楊立昆:我們稱之為「JEPA World Models(JEPA世界模型)」。過去幾年,我和我的團隊已經發表了一系列論文,探索這種架構的早期階段。這是一種通過在嵌入空間中建模和預測數據結構與關係,來實現理解和推理能力的世界模型。

三、我們需要更強大的計算能力

比爾·達利:運行這些模型需要強大的計算能力。在過去十年中,GPU的計算能力增長了5000到10000倍。硬件不斷進步,推動了AI規模的擴展。你認為未來的計算發展方向是什麼?哪些新技術將推動更強大的JEPA世界模型或其他AI模型?

楊立昆:我們需要更強大的計算能力,特別是用於抽像推理的計算。這涉及到一個關鍵的認知概念,即系統1和系統2的思維模式。

系統1負責自動化任務,不需要深度思考,比如熟練駕駛者可以邊開車邊聊天,因為駕駛動作已經成為自動化行為。而系統2則負責複雜的推理和規劃,比如新手駕駛者需要全神貫注,思考每個決策點。

AI目前仍然主要依賴系統1——即基於大量數據訓練出來的模式匹配模型。但如果AI能夠實現系統2級別的推理,它就可以在完全陌生的任務上進行零樣本(zero-shot)推理,無需專門訓練。這正是當前AI所缺失的能力。我們需要的不是簡單的token預測,而是基於世界模型的深度推理能力。

未來的AI需要採用全新的架構,傳統的生成式架構並不是實現物理世界推理的最佳方法。語言是人類交流的高效工具,但它本質上是離散的,而現實世界是連續且複雜的。

比爾·達利:回到計算硬件的問題,我們是否有可能借鑒生物系統的工作原理,比如類腦計算(neuromorphic computing)?你認為類腦計算能否在未來替代GPU?

楊立昆:在20世紀80年代,人們曾嘗試使用模擬電路(analog hardware)來構建神經網絡,但最終數字計算佔據主導地位,因為它更加高效且易於擴展。

一些研究者提出使用「脈衝神經網絡」(spiking neural networks)或類似的類腦硬件,但這在硬件可擴展性上遇到了極大挑戰。現代AI計算依賴於高並行度的GPU,而類腦計算需要專門設計的芯片,這導致計算效率不如現有的GPU架構。

從生物角度來看,大多數動物的大腦神經元是通過脈衝信號進行通信的,實際上這是一種二進製(數字)信號,而不是模擬信號。例如,秀麗隱杆線蟲(C.elegans)只有302個神經元,它們採用連續信號通信,但更複雜的生物都使用離散脈衝信號。

這表明,即使我們想模仿生物大腦進行計算,最終仍然可能依賴離散計算方式,而不是完全模擬大腦的工作機制。類腦計算可能適用於某些特定的邊緣計算任務,比如超低功耗的智能設備,但要在主流AI計算中取代GPU仍然遙遙無期。

比爾·達利:在某些存儲技術(如存儲器效應)不斷髮展的背景下,你認為它們在AI計算中會發揮什麼作用?

楊立昆:是的,絕對會發揮作用。我有一些同事對這一方向非常感興趣,尤其是在開發智能眼鏡的下一代產品時。對於這類設備,你需要持續進行視覺處理,但目前這在功耗方面仍然是個巨大挑戰。例如,一個圖像傳感器如果持續工作,會在短時間內耗盡電池。

一種可能的解決方案是直接在傳感器端進行處理,避免將所有數據傳輸到外部芯片進行計算,因為數據傳輸本身是非常耗能的,而計算的能耗相對較低。因此,在傳感器層面集成計算能力是一個值得探索的方向。

是的,這是一個很有前景的方向。事實上,人類視網膜就是這樣運作的。我們的視網膜有大約6000萬個光感受器,但這些信號在傳輸到大腦前,會經過四層神經元處理,最終以大約100萬個光學神經纖維的形式傳輸到視覺皮層。這表明,神經系統在數據傳輸前已經進行了大量的信息提取和壓縮。因此,如果我們能在計算機視覺系統中複製類似的機制,就可以顯著減少數據傳輸,提高能效。

比爾·達利:你曾談到希望構建一種能像嬰兒動物一樣通過觀察學習的AI。你認為這對硬件提出了哪些新要求?是否需要進一步提升硬件能力才能實現這一目標?

楊立昆:實際上,這種AI可能比我們想像的計算需求更低。

回顧過去的研究,有一個廣泛使用的技術是自監督學習(self-supervised learning),用於學習圖像表示。之前,我們曾嘗試使用重建任務(reconstruction task)來學習視覺表示,但最終發現這不是最優方法。

過去有一個叫做Masked Autoencoder(掩碼自編碼器,MAE)的項目,它的核心思想是遮擋部分圖像內容,然後訓練AI從剩餘部分重建完整圖像,以此學習內部特徵表示。這類似於文本任務中的填空預測。

MAE主要通過以下步驟訓練AI:

1. 輸入一張圖像,隨機遮擋其中部分像素或區域;

2. 訓練AI通過上下文信息恢復缺失部分,從而學習對圖像的抽像理解;

3. 使用這些內部表示來執行下遊任務,如目標識別、語義分割等。

這種方法可以學習有用的特徵,但在AI推理能力方面仍然存在一定局限性。

目前,我們正在探索更高效的方法,使AI不僅能預測缺失部分,還能在抽像空間中進行真正的推理,這才是通向AGI的關鍵一步。