LeCun最新萬字演講:純語言模型永遠到不了人類水平,我們基本已經放棄了

白小交 整理自 凹非寺

量子位 | 公眾號 QbitAI

當奧特曼、馬斯克、Anthropic CEO都紛紛將AGI實現錨定在2026年前後,LeCun無疑是直接澆了冷水:完全是胡說八道。

最新的公開演講中,他表示,系統要推理、規劃和理解物理世界,至少還需要幾年甚至十年的時間,這時候人工智能才能達到人類水平。

他還透露,現在Meta基本已經放棄純語言模型,因為,僅通過文本訓練,永遠不會達到接近人類水平的智能

除此之外,他還談到當前大模型的局限性、以目標驅動的AI架構,包括利用世界模型進行推理和規劃,最後強調了開源AI的重要性。對於未來發展,他提到,最終機器將超越人類智能,但它們將受到控制,因為它們是目標驅動的。

在不改變原意基礎上,量子位做了如下整理。

LeCun:「人類級別的人工智能」

(一上來,他解釋了FAIR中的「F」,不再意味著Facebook,而是代表「基礎的」意思)

讓我們來探討一下人類級別的人工智能,以及我們如何實現它,或者為什麼我們可能無法做到這一點。

什麼是人類水平的AI?

首先,我們確實需要達到人類水平的人工智能

在未來,大多數人可能會戴上智能眼鏡或其他設備,並與它們進行交流。這些設備將集成各種助手功能,可能不僅僅是一個,而是一整套系統。這意味著我們每個人都將擁有一群智能虛擬助手。因此,每個人都將成為「老闆」,只不過這些「員工」並非真正的人類。我們需要構建這樣的系統,以基本提升人類的智能,讓人們變得更具創造力、更高效。

然而,要實現這一目標,我們需要機器能夠理解世界、記憶信息、擁有直覺、具備常識、能夠進行推理和規劃,並且達到與人類相同的水平。

儘管你可能從一些支持者那裡聽到過不同的觀點,但目前的人工智能系統還無法實現這些功能。因此,我們需要開發能夠學習並模擬世界基本運作的系統,這些系統需要擁有對世界如何運作的心理模型。實際上,每隻動物,包括你的貓,都擁有一個比任何現有人工智能系統都要複雜的模型。

我們需要的系統應該具備持久的記憶能力(這是當前語言模型所缺乏的),能夠規劃複雜的動作序列(這也是目前的語言模型所做不到的),並且必須是可控和安全的

僅通過文本訓練,永遠不會達到接近人類水平的智能

為此,我曾在兩年前一篇論文中提出過一個願景:目標驅動的人工智能。

FAIR的許多成員都在努力實現這一構想,但一年半前,Meta成立了一個名為GenAI的產品部門,專注於人工智能產品的研發。因此,FAIR現在被重新定位為開發更長期的下一代人工智能系統我們基本上不再專注於語言模型

人工智能的成功,包括語言模型和其他許多系統,在過去五六年里,主要依賴於自監督學習技術。

自監督學習的一種方法是通過損壞再重建恢復。例如,你可以取一段文本,通過刪除單詞或更改其他單詞來損壞它,這可以是文本、DNA序列、蛋白質或其他任何東西,甚至在一定程度上可以是圖像。然後,你訓練一個大型神經網絡來重建完整的、未損壞的輸入版本。

這是一個生成模型,因為它試圖重建原始信號。

因此,這個紅色框就像一個代價函數,它計算輸入Y和重建的y之間的距離,這是學習過程中需要在系統中的參數上最小化的內容。在這個過程中,系統學習到輸入的內部表示,可以用於各種後續任務。

語言模型就是一個特殊的例子,其架構設計為只能查看左邊的其他標記來預測一個項目、一個標記或一個單詞,不能看向未來。

這不是一個新概念,自克羅達·香農以來就一直存在,可以追溯到20世紀50年代。但變化的是,現在我們有巨大的神經網絡架構,可以在大量數據上進行訓練,由此產生原本沒有的特性。

然而,自回歸預測有一些主要限制,這裏沒有真正意義上的推理。另一個限制是,這隻適用於以離散對象、符號、標記、單詞等形式出現的數據,基本上你可以區分這些數據。

我們仍然缺少一些重要的東西才能達到人類水平的智能

我這裏不一定是在談論人類水平的智能,但即使是你的貓或狗能做的驚人壯舉,目前的人工智能系統仍然完全無法做到。10歲的孩子都能學會清理餐桌並裝滿洗碗機。17歲的孩子可以在大約20小時的練習中學會開車。但現在我們仍然沒有L5自動駕駛汽車,我們當然也沒有能夠清理餐桌並裝滿洗碗機的家用機器人。

這是我們常遇到的莫拉維克悖論,即對我們來說看起來微不足道、我們甚至不認為是智能的事情,對機器來說卻非常非常難以做到。但是,像高級複雜的抽像思維,比如操縱語言、下棋,對機器來說似乎很容易。

也許其中一個原因在於,一個語言模型通常在20萬億個token上進行訓練。一個token對於一種典型語言來說,平均約為四分之三個單詞,對應是1.5×10的13次方個單詞、6×10的13次方個字節。我們任何人要讀完所有這些文本,大約需要幾十萬年。這基本上是互聯網上公開可用的所有文本總量。

一個四歲人類孩子清醒16000小時,200萬條視神經纖維進入我們的大腦。每條纖維大約每秒攜帶一個字節,也許是每秒半字節,數據量大約是10的14次方個字節。

所以,一個四歲孩子看到的視覺數據與最大的語言模型在整個互聯網上公開可用的文本上訓練的數據量一樣多。

從這當中能得出這些結論:

首先,僅通過在文本上訓練,我們永遠不會達到接近人類水平的智能

其次,視覺信息非常冗餘。每根視神經纖維每秒傳輸一個字節的信息,與視網膜中的光感受器相比,這已經實現了100:1的壓縮率。隨後這些信息進入大腦,並在那裡被擴展了大約50倍。

冗餘實際上是自監督學習所必需的。自監督學習只能從存在冗餘的數據中學習到有用信息。如果數據經過高度壓縮,這意味著它幾乎變成了隨機噪聲,你將無法從中學習到任何東西。

因此,我們將不得不通過讓系統基本上觀看影片或在現實世界中進行體驗來訓練它,以學習常識和物理知識。

放棄機器學習的四大支柱

所以再來說說這個目標驅動架構是什麼,它與語言模型或前饋神經網絡等有著顯著不同。因為在推理過程中不僅僅是神經網絡在起作用,實際上它運行的是一個優化算法。

從概念上講,它的運作方式是這樣的:前饋過程是指你觀察到一個輸入,通過感知系統運行,比如通過一系列的神經網絡層,並產生一個輸出的過程。

對於任何一個單一輸入,通常只有一個輸出,但在很多情況下,對於一個感知輸入,可能存在多種可能的輸出解釋。你需要的是不僅僅計算單一函數,而是能夠處理單個輸入對應多個輸出的映射過程。

實現這一點的唯一方法是通過隱函數,基本上就是像這裏的目標函數,即右側的紅色框所示,它主要用來衡量輸入和提議的輸出之間的兼容性,然後通過尋找與輸入最匹配的輸出值來計算最終輸出。

你可以將這個目標想像成某種能量函數,並通過最小化這個能量來相對於輸出進行優化。你可能會有多個解決方案,也可能會有一些方法來遍曆這些多個解決方案。

人類的感知系統就是這樣做的,如果你對一個特定的感知有多種解釋,你的大腦會自發地循環遍曆這些解釋。

事實上這個概念非常悠久,它的歷史已經超過60年。它基於優化控制理論中的一個分支——模型預測控制。在這一領域中,你可以利用你的世界模型來計算一系列控制指令的效果,然後對這些指令序列進行優化,以確保運動按照你的預期進行。所有傳統的機器人運動規劃都是採用這種方法,這並不是什麼新鮮事物。

這裏的新東西是我們要學習世界模型、能將現實世界抽像表示的感知系統。你可以構建一個具有所有這些組件的整體AI系統。

因此,如果你的行動不是一次性的,而是一個序列,並且你的世界模型是一個真實的系統,它能夠告訴你在時間點T的世界狀態,以及你可能採取的某個行動,預測出在時間點T+1的世界狀態,那麼你會想要預測在這種情況下,兩個行動序列將導致什麼結果。你可以通過多次運行你的世界模型來實現這一點。

然後通過反向傳播和基於梯度的優化方法來找出將最小化代價的兩個行動。這就是模型預測控制的基本原理。另外,世界通常不是完全確定的,你可能需要使用潛在變量來輸入到你的世界模型中。

更有趣的是,智能系統目前還無法解決,但人類可以輕鬆做到,甚至動物也能做到的事情,那就是分層規劃

比如,你計劃一段從紐約前往巴黎的旅行。理論上你可以利用你對世界、自己身體的理解,以及你對從這裏到巴黎的整體世界佈局的認知,來規劃整個旅程,包括低層次的肌肉控制。但如果細化到考慮每10毫秒的肌肉控制步驟,那將是一個巨大的數字。

因此實際上人類採用的是分層規劃的方式。你先在非常高的層次上進行規劃,然後逐步細化,最後在通過低級肌肉控制來完成的具體行動。

這對AI系統的確是個巨大的挑戰。我過去一直在試圖弄清楚嬰兒在什麼年齡學習關於世界的基本概念,比如像面部跟蹤、生物運動等,這在他們學習語言和互動之前就已經發生了。但像重力、慣性、守恒、動量這些實際上大約在嬰兒九個月左右才注意到。

過去像通過預測文本來預測影片中的像素這種方法完全失敗了,這裏我們提出了一個新的解決方案,叫做聯合嵌入預測架構(JEPA),也就是放棄預測像素,學習世界上正在發生的事情的抽像表示,然後在那個表示空間中進行預測。兩個嵌入將被破壞的版本X送入編碼器,將Y送入編碼器,然後訓練系統從X的表示中預測Y的表示。

那麼如何做到這一點呢?

如果單純使用梯度下降和反向傳播這樣的方法來訓練系統,以減少預測誤差,那麼系統可能會失效。它可能會學習到一個恒定的表示,使得預測變得輕而易舉,但卻失去了信息量。

因此,我想讓你記住的是,嘗試重建預測器的生成架構(例如自動編碼器、生成對抗網絡等)與在表示空間中進行預測的聯合架構之間的區別。

我認為未來在於那些聯合架構。我們有大量的經驗證據表明,要學習圖像的良好表示,最好的方法是使用那些聯合架構。

所有嘗試通過重建來學習圖像表示的方法都不是最佳選擇,它們的成效有限。儘管有些大型項目聲稱這些方法有效,但實際上並非如此。真正能夠帶來最佳性能的是右側的架構。

這其實與我們在智能領域所做的非常相似:找到事物或現象的良好表示,以便進行預測。這確實是科學的本質。

舉個例子,如果你想預測一顆行星的軌道,行星是一個非常複雜的物體,但是你只需要知道六個參數就能實現預測:三個位置坐標和三個速度向量,僅此而已。

那麼接下來的問題是,我們如何訓練這樣一個系統。

為了防止系統崩潰,一種方法是設計一種代價函數,如果你可以測量來自編碼器的表示中的信息內容,並嘗試最大化信息內容或最小化負信息。你希望訓練系統在輸入中提取儘可能多的信息,同時又要在那個表示空間中最小化預測誤差。系統將在儘可能多地提取信息和不提取不可預測的信息之間找到某種平衡。

這樣,你將得到一個良好的表示,在這個空間中你可以進行預測。

現在,你如何測量信息呢?這就是事情變得有些複雜的地方。

我將跳過這個部分。有一種方法可以從基於能量的模型和能量函數的訓練角度在數學上理解這個問題,但我沒有時間深入探討。

不過基本上我在這裏告訴你的是,許多不同於以往認知的事情。

  • 放棄生成模型,轉而支持那些聯合嵌入預測架構(JEPA);

  • 放棄概率模型,轉而支持那些基於能量的模型;

  • 放棄對比方法。

  • 還有放棄強化學習,這也是我過去十年一直在談論的。

這些都是當今機器學習中最流行的四個主要支柱。因此目前我可能不太受歡迎。

第一組方法是可以對編碼器輸出的信息進行估計,從而測量其信息量。目前有六種已知的方法可以實現這一目標。這裏的核心思想是防止系統崩潰並只輸出常數。

因此,我們要取編碼器輸出的變量,並確保這些變量有非零的標準差。你可以在一批樣本上將這個要求納入成本函數中,確保權重不會讓變量崩潰成常數。這是相對簡單的。

但現在的問題是,系統可能會「作弊」,使得所有變量變得相等或高度相關。因此,你必須添加另一個項,即最小化這些變量的協方差矩陣的非對角元素,以確保它們的獨立性。

當然,這樣還不夠,因為變量之間可能仍然存在某種相關性。於是,我們採用了另一個技巧,即將SX的維度擴展到更高維的空間VX,然後在該空間中應用方差協方差正則化,這似乎足夠了。

但這裏有一個細節,我在這裏最大化的是信息內容的上界,我期望實際的信息內容能隨著上界的最大化而增加。我真正需要的是一個下界,這樣我就可以推動下界,從而增加信息量。遺憾的是,我們目前沒有信息內容的下界,或者如果有但是不知道如何計算它。

第二組方法,被稱之為「蒸餾風格方法」,它以神秘的方式發揮作用。Grill發現了這一方法,儘管其機制尚不完全清晰,但這種方法的效果非常好。

它的核心思想是只更新模型的一部分,而在另一部分不進行梯度的反向傳播,並通過一種有趣的方式共享權重。

關於這一方法,已有眾多論文進行了探討。

如果你想通過完全監督的方式訓練一個系統來學習圖像的良好表示,這種方法和其他任何方法一樣有效。特別是在圖像受損是通過遮罩的方式時,我們最近的工作也涉及到了影片領域。我們可以訓練一個系統來提取影片的良好表示,並將此用於下遊任務,比如動作識別等。這包括取一段影片,對其部分進行遮罩,通過模型運行它,並在表示空間中進行預測,然後使用這種蒸餾技巧來防止系統崩潰,效果很好。

因此,如果我們在未來的這個項目中取得成功,最終開發出能夠進行推理、規劃、理解物理世界的系統,這可能需要數年甚至十年的時間,才能使一切正常運作。

所以,如果我們能夠成功實現這一點,我們將擁有真正能夠調解我們與數字世界所有交互的系統。它們能夠回答我們所有的問題,始終與我們相伴。它們基本上將成為所有人類知識的集合。這感覺不像是一個產品,而更像是一種基礎設施,就像互聯網一樣。

機器將超越人類智能,但它們將受到控制

這個AI平台必須是開源的。因為我們需要人工智能助手具備多樣性,能夠理解全球所有的語言、文化和價值體系。

然而,你不可能某一家公司生產的單一助手那裡獲得這樣的能力。這種多樣性必須來自全球的貢獻。當然,訓練定義模型的成本非常高昂,因此只有少數公司有能力做到這一點。如果像Meta這樣的公司能夠在開源領域提供基礎模型,那麼全球各地都可以根據自己的需求對它們進行微調。

達到人類水平的人工智能需要多長時間?我不知道,可能需要數年到數十年。這個過程中存在很大的不確定性,並且有許多問題需要解決,而且它可能幾乎肯定比我們想像的要困難得多。

它不會在一夜之間發生。它將是一個漸進的進化過程。

因此,它不會像有一天我們突然揭開了人工智能的秘密——打開一台機器,就立即擁有了超級智能,然後我們所有人都被一個超級智能系統所取代。

機器將超越人類智能,但它們將受到控制,因為它們將是目標驅動的。我們給它們設定目標,它們實現這些目標。就像我們這裏的許多人都是行業、學術界或其他領域的領導者一樣。有很多與我共事的人比我更聰明,但這並不意味著他們想要統治或接管。

故事就講到這裏,當然背後也存在風險。

參考鏈接: