圖靈獎得主 Yann LeCun 萬字演講：今天的 AI 比貓還笨，自曝早已放棄大模型

10月21日 07:16 新浪網 news-china-auto-hilite

在 AI 圈里，圖靈獎得主 Yann Lecun 是一個典型的異類。

當眾多技術專家堅信，沿著當前的技術路線，AGI 的實現只是時間問題時，Yann Lecun 卻一再提出異議。

在與同行的激烈辯論中，他不止一次表示，當前主流的技術路徑無法引領我們走向 AGI，甚至現在 AI 的水平還不如一隻貓。

而圖靈獎得主、Meta 首席 AI 科學家、紐約大學教授等等，這些耀眼的頭銜以及沉甸甸的一線實踐經驗，卻也讓我們誰也無法忽視這位 AI 專家的見解。

那麼，Yann LeCun 對於 AI 的未來究竟有何看法呢？在最近一次公開演講中，他也再次詳細闡述了自己的觀點：僅僅依靠文本訓練，AI 永遠無法達到接近人類水平的智能。

部分觀點如下：

1. 未來，人們將普遍佩戴智能眼鏡或其他類型的智能設備，這些設備將內置助手系統，形成個人的智能虛擬團隊，以提高個人的創造性和效率。

2. 智能系統的目的不是為了取代人類，而是為了增強人類的智力，使人們能夠更高效地工作。

3. 即使是寵物貓，其大腦中的模型也比任何 AI 系統能夠構建的模型複雜。

4. FAIR 基本上不再專注於語言模型，而是朝向下一代 AI 系統的長期目標邁進。

5. 僅僅通過訓練文本數據，AI 系統無法達到接近人類水平的智力。

6. Yann Lecun 建議放棄生成模型、概率模型、對比學習和強化學習，轉而採用 JEPA 架構和基於能量的模型，認為這些方法更有可能推動 AI 的發展。

7. 雖然機器最終會超越人類智力，但它們將受到控制，因為它們是目標驅動的。

有趣的是，演講開始前還發生了一段小插曲。

主持人在介紹 LeCun 時，稱他為 Facebook AI 研究院（FAIR）的首席 AI 科學家。

對此，LeCun 在演講開始前澄清，FAIR 中的「F」已經不再代表 Facebook，而是「基礎」（Fundamental）的意思。

以下演講原文由 APPSO 編譯，有刪減。

AI 對世界的瞭解不如你的貓

好的，我將談談人類水平級別的 AI，以及說我們如何實現它，以及我們為何又不會實現它。

首先，我們確實需要人類水平的 AI。

因為未來，有一個是我們大多數人將佩戴智能眼鏡或其他類型的設備。我們將與這些設備進行對話，而這些系統將承載助手，可能不止一個，可能是一整套助手。

這將導致我們每個人基本上都有一支智能虛擬團隊在為我們工作。

所以，人人都將成為「老闆」，只是這些「員工」不是真正的人類。我們需要構建這樣的系統，基本上是為了增強人類的智力，使人們更具創造性和更高效。

但為此，我們需要機器能夠理解世界，能夠記住事物，具備直覺和常識，能夠推理和計劃，達到與人類相同的水平。

儘管你可能聽到過一些支持者說，目前的 AI 系統並不具備這些能力。所以我們需要花時間學習如何建模世界，擁有關於世界運作的心理模型。

事實上，每種動物都有這樣的模型。你的貓一定有一個比任何 AI 系統所能構建或設計的模型都要複雜的模型。

我們需要的系統應該具有持久記憶的系統，而當前的語言模型（LLM）並沒有，能夠規劃複雜行動序列的系統，而今天的系統無法做到，並且這個系統應該是可控和安全的。

因此，我將提出一個架構，稱為目標驅動的 AI。我大約兩年前寫了一篇關於這個的願景論文，並發佈了這篇論文。FAIR 的很多人正在努力實現這個計劃。

FAIR 過去研究過更多應用項目，但 Meta 在一年半前創建了一個名為生成式 AI（Gen AI）的產品部門，專注於 AI 產品。

他們進行應用研發，因此現在 FAIR 已經被重新引導，朝向下一代 AI 系統的長期目標。我們基本上不再專注於語言模型。

包括大型語言模型（LLM）在內的 AI 成功，尤其是過去 5、6 年中取得的許多其他系統的成功，依賴於一系列技術，當然，包括自監督學習。

自監督學習的核心在於訓練一個系統，不是針對任何特定任務，而是儘量以良好的方式表示輸入數據。實現這一點的一種方法是通過損壞再重建恢復。

因此，你可以取一段文本，通過去掉一些單詞或改變其他單詞來破壞它。這個過程可以用於文本、DNA 序列、蛋白質或其他任何內容，甚至在某種程度上也可以用於圖像。然後你訓練一個龐大的神經網絡來重建完整的輸入，即未被破壞的版本。

這是一個生成模型，因為它試圖重建原始信號。

所以，紅色框就像一個代價函數，對吧？它計算輸入 Y 和重建後的輸出 y 之間的距離，而這就是學習過程中要最小化的參數。在這個過程中，系統學習到了輸入的內部表示，可以用於各種後續任務。

當然，這可以用於預測文本中的單詞，這就是自回歸預測（autoregressive prediction）所做的事情。

語言模型是這一點的特例，其中架構的設計方式是為了預測一個項、一個 token 或一個單詞時，只能查看其左側的其他token。

它不能查看未來。如果你正確訓練一個系統，給它展示文本，並要求它預測文本中的下一個單詞或下一個 token，那麼你可以使用該系統來預測下一個單詞。然後你將那個下一個單詞加入輸入中，再預測第二個單詞，並將其加入輸入中，預測第三個單詞。

這就是自回歸預測（autoregressive prediction）。

這是 LLMs 所做的事情，這並不是一個新概念，自香農（Shannon）時代以來就存在了，可以追溯到 50 年代，這已經很久了，但變化在於我們現在擁有那些龐大的神經網絡架構，可以在大量數據上進行訓練，並且看起來會從中湧現出一些特性。

但這種自回歸預測有一些主要的局限性，在通常意義上這裏並沒有真正的推理存在。

還有另一個局限性是，這僅適用於以離散對象、符號、token、單詞等形式出現的數據，基本上是可以離散化的東西。

我們在達到人類水平智力方面仍然缺少一些重要的東西。

我在這裏並不一定是在談論人類水平的智力，但即使是你的貓或狗也能完成一些當前 AI 系統無法企及的驚人壯舉。

任何 10 歲的小孩都可以一次性學會清理餐桌並填滿洗碗機，對吧？根本不需要練習之類的，對吧？

17 歲的人學會開車大約需要 20 小時的練習。

我們仍然沒有 L5 級自動駕駛汽車，當然也沒有能夠清理餐桌和填滿洗碗機的家用機器人。

僅僅通過訓練文本，AI 永遠無法達到接近人類水平的智力

所以我們真的缺少一些重要的東西，否則我們將能夠用 AI 系統完成這些事情。

我們不斷碰到一個叫做莫拉維克悖論（Moravec’s Paradox）的東西，即對我們而言看似微不足道、甚至不被認為是智能的事情，實際上用機器完成起來卻非常困難，而像操縱語言這樣的高級複雜抽像思維，似乎對機器來說卻很簡單，像下棋、圍棋之類的事情也是如此。

也許其中一個原因是這樣的。

一個大型語言模型（LLM）通常是在 20 萬億個 token 上進行訓練的。

一個 token 基本上是一個單詞的四分之三，平均來說。因此，這裏總共是 1.5 × 10 的 13 次方個單詞。每個 token 大約是 3B，通常，這樣就需要 6 × 10 的 13 次方個字節。

對於我們任何一個人來說，讀完這些內容大約需要幾十萬年的時間，對吧？這基本上是互聯網上所有公開文本的總和。

但考慮一下一個孩子，一個四歲的孩子總共清醒了 16000 小時。我們有 200 萬個視神經纖維進入我們的大腦。每根神經纖維大約以每秒 1B 的速度傳輸數據，也許是每秒半個字節。有些估計說這可能是每秒 3B。

這沒關係，反正是一個數量級。

這個數據量大約是 10 的 14 次方個字節，差不多與 LLM 的數量級相當。因此，在四年內，一個四歲孩子看到的視覺數據與最大的語言模型在整個互聯網上公開可用的文本上訓練的數據量一樣多。

以數據作為起點，這告訴我們幾個事情。

首先，這告訴我們，僅僅通過訓練文本，我們永遠無法達到接近人類水平的智力。這是根本不可能發生的。

其次，視覺信息是非常冗餘的，每根視神經纖維每秒傳輸 1B 的信息，這已經比你視網膜中的光感受器壓縮了 100 比 1。

我們視網膜中大約有 6000 萬到 1 億個光感受器。這些光感受器通過視網膜前的神經元壓縮為 100 萬個神經纖維。因此，已經存在 100 比 1 的壓縮。然後到達大腦時，信息被擴展了大約 50 倍左右。

因此，我測量的是壓縮信息，但它仍然非常冗餘。而冗餘實際上是自監督學習所需要的。自監督學習只會從冗餘數據中學習到有用的東西，如果數據高度壓縮，這意味著數據變成了隨機噪聲的，那麼你就無法學習任何東西。

你需要冗餘才能學習到任何東西。你需要學習數據的潛在結構。因此，我們需要訓練系統，通過觀看影片或在現實世界中生活來學習常識和物理知識。

我說話的順序可能會有些混亂，我主要想告訴你這個目標驅動的人工智能架構到底是什麼。它與 LLM 或前饋神經元有很大不同，因為推理過程不僅僅是通過神經網絡的一系列層，而實際上是運行一個優化算法。

從概念上來看，它看起來是這樣的。

一種前饋過程是觀察結果通過感知系統運行的過程。例如，如果你有一系列的神經網絡層並產生一個輸出，那麼對於任何單一輸入，你只能有一個輸出，但在很多情況下，對於一個感知，可能會有多個可能的輸出解釋。你需要一種不僅僅計算功能，而是能夠為單一輸入提供多個輸出的映射過程。實現這一點的唯一方法是通過隱函數。

基本上，這個目標框架右側的紅色框表示一個函數，它基本上測量輸入與其提議輸出之間的兼容性，然後通過找到最與輸入兼容的輸出值來計算輸出。你可以想像這個目標是某種能量函數，你是在以輸出為變量最小化這個能量。

你可能會有多個解決方案，並且你可能有某種方法來處理這些多個解決方案。人類的感知系統確實如此，如果你對特定的感知有多個解釋，你的大腦會自發地在這些解釋之間循環。因此，有一些證據表明，這種類型的事情確實會發生。

但是讓我回到架構上來。因此，利用這種通過優化推理的原則。如果你願意，關於人類思維方式的假設如下。你在世界中做出觀察。感知系統給你提供了世界當前狀態的概念。但當然，它只給你提供了你當前能夠感知的世界狀態的概念。

你可能對世界其餘部分的狀態有一些記憶中的想法。這可能與記憶的內容結合在一起，並被輸入到世界模型中。

什麼是模型？世界模型是你對世界行為的心理模型，因此你可以想像你可能採取的一系列行動，而你的世界模型將允許你預測這些行動序列對世界的影響。

因此，綠色框表示世界模型，你將假設的一系列行動輸入其中，它預測世界的最終狀態將是什麼，或者你預測在世界中將要發生的整個軌跡。

你將其與一組目標函數相結合。一個目標是測量目標實現的程度，任務是否完成，也許還有一組其他目標，作為安全邊界，基本上測量所遵循的軌跡或採取的行動在多大程度上對機器人或機器周圍的人沒有危險，等等。

因此，現在的推理過程（我還沒有談論學習）僅僅是推理，包括尋找最小化這些目標的行動序列，找到最小化這些目標的一系列行動。這就是推理過程。

因此，這不僅僅是前饋過程。你可以通過搜索離散選項來完成這一點，但這並不高效。更好的方法是確保所有這些框都是可微分的，你可以對它們進行反向傳播梯度，然後通過梯度下降更新行動序列。

現在，這個想法其實並不新鮮，已經存在了超過 60 年，甚至更久。首先，讓我談談使用世界模型進行這種推理的優勢。優勢在於，你可以在不需要任何學習的情況下完成新任務。

我們時常這樣做。我們面臨新情況時，會考慮它，想像我們行動的後果，然後採取將實現目標（無論是什麼）的行動序列，我們不需要學習來完成該任務，我們可以進行規劃。因此，這基本上是規劃。

你可以將大多數推理形式歸結為優化。因此，通過優化進行推理的過程本質上比僅僅通過神經網絡的多層運行更強大。正如我所說，這種通過優化進行推理的思想已經存在超過 60 年。

在優化控制理論領域，這被稱為模型預測控制。

你有一個要控制的系統模型，比如火箭、飛機或機器人。你可以想像，利用你的世界模型計算一系列控制指令的效果。

然後你優化這一序列，使運動達到你想要的結果。所有經典機器人學的運動規劃都是通過這種方式完成的，這並不是新事物。這裏的新意在於，我們將學習世界模型，感知系統將提取出適當的抽像表示。

現在，在我進入一個例子之前，說明如何運行這個系統，你可以構建一個整體的 AI 系統，包含所有這些組件：世界模型、可以針對手頭任務配置的成本函數、優化模塊（即真正優化、尋找給定世界模型的最佳動作序列的模塊）、短期記憶、感知系統等等。

那麼，這樣是如何工作的呢？如果你的動作不是單一動作，而是一個動作序列，而你的世界模型實際上是一個系統，它告訴你，在時間 T 的世界狀態和可能採取的行動下，預測時間 T+1 的世界狀態。

你想預測在這種情況下兩個動作的序列將產生什麼效果。你可以多次運行你的世界模型來實現這一點。

獲取初始世界狀態表示，輸入對行動零的假設，利用模型預測下一狀態，然後進行行動一，計算下一狀態，計算成本，然後通過反向傳播和基於梯度的優化方法，找出將最小化成本的兩個動作。這就是模型預測控制。

現在，世界並不是完全確定的，因此你必須使用潛在變量來擬合你的世界模型。潛變量基本上是可以在一組數據中切換或從分佈中抽取的變量，它們代表世界模型在與觀察兼容的多個預測之間的切換。

更有趣的是，智能系統目前還無法去做人類乃至動物能夠做到的事情，那就是分層規劃。

例如，如果你在計劃從紐約到巴黎的旅行，你可以使用你對世界、對身體的理解，可能還有你對從這裏到巴黎整個配置的想法，以你的低級肌肉控制來規劃你的整個旅行。

對吧？如果每十毫秒的肌肉控制步驟數量，所有這些你在去巴黎之前必須做的事情疊加起來，簡直是巨大的數字。因此，你所做的就是以分層規劃的方式進行規劃，你從很高的層面開始說，好吧，要去巴黎，我首先需要去機場，搭乘飛機。

我如何去機場？假設我在紐約市，我必須下樓去叫出租車。我怎麼下樓？我必須先從椅子上起來，打開門，走到電梯，按下按鈕，等等。我如何從椅子上站起來？

在某個時刻，你將不得不將事情表達為低級肌肉控制動作，但我們並不是在以低級別的方式規劃整個過程，而是在進行分層規劃。

如何使用 AI 系統做到這一點仍然是完全未解決的，我們對此毫無頭緒。

這似乎是智能行為的一個重要要求。

那麼，我們如何學習能夠進行層次規劃的世界模型，能夠在不同抽像層次上工作呢？沒有人展示出任何接近這一點的成果。這是一個重大挑戰。圖像顯示我剛剛提到的例子。

那麼，我們現在如何訓練這個世界模型呢？因為這確實是一個大問題。

我嘗試弄清楚嬰兒在什麼年齡學習關於世界的基本概念。他們如何學習直觀的物理學、物理直覺，以及所有這些內容？這些發生在他們開始學習語言和互動等事情之前很久。

因此，諸如面孔追蹤之類的能力實際上發生得非常早。生物運動，即有生命的物體與無生命物體之間的區別，也會很早就出現。物體恒常性也是如此，指的是當一個物體被另一個物體遮擋時，它依然存在這一事實。

而嬰兒是很自然地學習的，你不需要給他們事物的名稱。他們會知道椅子、桌子和貓是不同的。而關於穩定性和支持性等概念，比如像重力、慣性、守恒、動量這些實際上大約在九個月大時才會出現。

這需要很長時間。因此，如果你向六個月大的嬰兒展示左邊的情境，即小車在平台上，你將它推下平台，它似乎在空中漂浮。六個月大的嬰兒會注意到這一點，而十個月大的嬰兒則會覺得這不應該發生，物體應該掉落。

當發生意外情況時，這意味著你的「世界模型」是錯誤的。所以你會關注，因為這可能會要了你的命。

因此，這裏需要發生的學習類型與我們之前討論的學習類型非常相似。

獲取輸入，以某種方式破壞它，並訓練一個大型神經網絡來預測缺失的部分。如果你訓練一個系統來預測影片中將要發生的事情，就像我們訓練神經網絡預測文本中將要發生的事情一樣，也許這些系統將能夠學習常識。

不幸的是，我們已經嘗試了這個十年了，結果完全失敗。我們從來沒有接近過能夠通過僅僅試圖預測影片中的像素來真正學習任何通用知識的系統。

你可以訓練一個系統來預測看起來不錯的影片。現在有許多影片生成系統的例子，但它們內部並不是良好的物理世界模型。我們不能用它們來做這件事。

好吧，所以我們將使用生成模型來預測個體將要發生的事情的想法，系統會神奇地理解世界的結構，這完全是失敗的。

在過去的十年里，我們嘗試了許多方法。

之所以失敗，是因為有許多可能的未來。在像文本這樣的離散空間中，你可以預測哪個單詞會跟在一串單詞之後，你可以生成字典中可能單詞的概率分佈。但當涉及到影片幀時，我們沒有好的方法來表示影片幀的概率分佈。實際上，這個任務完全不可能。

比如，我拍攝這個房間的影片，對吧？我拿著相機拍攝那部分，然後停止影片。我問系統接下來會發生什麼。它可能會預測剩下的房間。會有一面牆，會有人坐著，密度可能會和左邊的相似，但絕對不可能在像素級別上準確預測你們每個人的樣子、世界的紋理以及房間的精確大小等所有細節。

所以，我提出的解決方案為聯合嵌入預測架構（JEPA）。

其理念就是放棄預測像素，而是學習一個對世界運作的抽像表示，然後在這個表示空間中進行預測。這就是架構，聯合嵌入預測架構。這兩個嵌入分別取 X（損壞版本）和 Y，經過編碼器處理，然後訓練系統根據 X 的表示預測 Y 的表示。

現在的問題是，如果只是用梯度下降、反向傳播來最小化預測誤差來訓練這樣的系統，它將崩潰。它可能會學習一個常量表示，這樣預測就變得非常簡單，但卻沒有信息量。

因此，我希望你記住的的是，生成架構試圖重建預測的自編碼器、生成架構、掩碼自編碼器等，與在表示空間中進行預測的聯合嵌入架構之間的區別。

我認為未來在於這些聯合嵌入架構，我們有大量的經驗證據表明，學習良好的圖像表示的最佳方法是使用聯合編輯架構。

所有嘗試通過重建來學習圖像表示的嘗試都很糟糕，效果不好，儘管有很多大型項目聲稱它們有效，但實際上並不行，最佳性能是通過右邊的架構獲得的。

現在，如果你仔細想想，這實際上就是我們智力的表現：尋找某種現象的良好表示，以便能夠進行預測，這真的就是科學的本質。

真的。想想看，如果你想預測一個行星的軌跡，行星是一個非常複雜的物體，它巨大，具有天氣、溫度和密度等各種特徵。

雖然它是一個複雜的對象，但要預測行星的軌跡，你只需要知道 6 個數字：3 個位置坐標和 3 個速度向量，僅此而已，你不需要做其他任何事情。這是一個非常重要的例子，真正展示了預測能力的本質在於找到我們觀察事物的良好表示。

那麼，我們如何訓練這樣一個系統呢？

所以你想要防止系統崩潰。做到這一點的一種方法是使用某種代價函數，測量編碼器輸出的表示的信息內容，並儘量最大化信息內容，最小化負信息。你的訓練系統要同時儘可能提取輸入中的信息，同時最小化在該表示空間中的預測誤差。

系統將找到提取儘可能多的信息與不提取不可預測信息之間的某種權衡。你將得到一個良好的表示空間，在這個空間中可以進行預測。

現在，你如何測量信息？這就是事情變得有點奇怪的地方。我將跳過這一點。

機器將會超越人類智力，且安全可控

實際上，有一種方法可以通過訓練、基於能量的模型和能量函數從數學上理解這一點，但我沒有時間深入探討。

基本上，我在這裏告訴你幾件不同的事情：放棄生成模型，轉而使用那些 JEPA 架構；放棄概率模型，轉而使用那些基於能量的模型，放棄對比學習方法，還有強化學習。這些我已經說了 10 年了。

而這些都是今天機器學習中最流行的四個支柱。因此目前我可能不太受歡迎。

一種方法是估計信息量，測量來自編碼器的信息內容。

目前有六種不同的方法來實現這一點。實際上，這裏有一個叫做 MCR 的方法，來自我在 NYU 的同事，那就是防止系統崩潰並產生常數。

取出來自編碼器的變量，並確保這些變量具有非零的標準差。你可以將其放入一個成本函數中，確保權重被搜索，變量不會崩潰並變為常數。這是比較簡單的。

現在的問題是，系統可能會「作弊」，使所有變量相等或高度相關。因此，你需要添加另一個項，要求最小化這些變量的協方差矩陣的非對角線項，以確保它們相關。

當然，這還不夠，因為變量仍可能依賴，但不相關。因此，我們採用另一種方法，將 SX 的維度擴展到更高的維度空間 VX，並在該空間中應用方差協方差正則化，以確保滿足要求。

這裏還有一個技巧，因為我所最大化的是信息內容的上限。我希望實際的信息內容能跟隨我對上限的最大化。我需要的是一個下限，這樣它會推動下限，信息也會隨之增加。不幸的是，我們並沒有信息的下限，或者至少我們不知道如何計算它們。

有第二套方法，稱為「蒸餾風格方法」。

這種方法以神秘的方式運作。如果你想清楚瞭解誰在做什麼，你應該問坐在這裏的 Grill。

他在這方面有一篇個人論文，定義得很好。它的核心思想是只更新模型的一部分，而在另一部分不進行梯度的反向傳播，並通過一種有趣的方式共享權重。關於這方面也有很多論文。

如果你想訓練一個完全自監督的系統，以生成良好的圖像表示，這種方法效果很好。圖像的破壞是通過掩蔽進行的，最近的一些工作是我們為影片做的，這樣我們就可以訓練一個系統來提取良好的影片表示，以便用於下遊任務，如動作識別影片等。你可以看到，給一個影片掩蔽掉一大塊，通過這個過程進行預測，在表示空間中使用這種蒸餾技巧來防止崩潰。這效果很好。