Ilya向全世界宣佈:預訓練結束了!全球AI數據耗盡,超級智能才是未來
編輯:Aeneas 好睏
【新智元導讀】全球頂會NeurIPS 2024中,Ilya登場演講,向全世界宣告:預訓練結束了!數據如同化石燃料般難以再生,未來,AI的發展方向就是具備自我意識的超級智能。
剛剛,Ilya現身NeurIPS 2024,宣佈:預訓練從此將徹底終結。
短短16分鐘的發言,足以震撼全場。
是的,他的原話是——
正如我們所知的那樣,預訓練毫無疑問將會終結,與此同時我們也不會再有更多數據了。
原因在於,我們只有一個互聯網,訓練模型需要的海量數據即將枯竭,唯有從現有數據中尋找新的突破,AI才會繼續發展。
Ilya的預測是,以後的突破點,就在於智能體、合成數據和推理時計算。
未來,我們會走向何方?
Ilya告訴我們:接下來登場的就是超級智能(superintelligence)——智能體,推理,理解和自我意識。
十年再登巔峰,Ilya感謝前同事
Ilya感謝了自己的兩位合著者Oriel Vinyals和Kwok-Lee,放出了下面這張圖。
而如今,圖中的三位青蔥少年已經長成了下面的模樣。
Ilya要做的第一件事,是展示10年前同一個演講的PPT。
他們的工作,可以用以下三個要點概括——
這是一個基於文本訓練的自回歸模型;它是一個大型神經網絡;它使用了一個大規模的數據集。
10層神經網絡,只需幾分之一秒
下面,Ilya與我們探討了「深度學習假設」。
如果你有一個10層的大型神經網絡,它就可以在幾分之一秒內,完成任何人類能做的事。
為什麼要強調幾分之一秒內?
如果你相信深度學習的基本假設,即人工神經元和生物神經元是相似的,並且你也相信真實神經元的速度比人類快速完成任務的速度更慢,那麼只要全世界有一個人能夠在不到一秒內完成某項任務,那麼一個10層神經網絡也能做到。
只要把它們的連接,嵌入到你的人工神經網絡中。
這就是我們的動機。
我們專注於10層神經網絡,因為在那個時候,這就是我們能夠訓練的神經網絡。如果你能突破10層,你當然可以完成更多事。
下面這張PPT,描述的是他們的「主要想法」。
核心觀點就是,如果你有一個自回歸模型,並且它能夠足夠好地預測下一個Token,那麼它實際上會抓取、捕獲、掌握接下來任何序列的真實分佈。
在當時,這是一個相對新穎的觀點。
儘管它並不是第一個被應用於實踐的自回歸神經網絡,但Ilya認為,這是第一個令他們深信不疑的自回歸網絡:如果把它訓練得足夠好,那麼你就會得到想要的任何結果。
當時,他們嘗試的是翻譯。這個任務如今看來平凡無奇,當時卻極具挑戰性。
接下來,Ilya展示了一些可能很多人從未見過的古老歷史——LSTM。
不熟悉的人會覺得,LSTM是Transformer出現之前,深度學習研究者所使用的工具。它可以被看作是一個旋轉了90度的ResNet,但更複雜一些。
我們可以看到積分器(integrator),如今被稱為殘差流(residual stream),還涉及一些更為複雜的乘法操作。
Ilya還想強調的一點是,他們當時使用了並行化。
不過並不是普通的並行化,而是流水線並行化(pipelining),每層神經網絡都分配一塊GPU。
從今天來看,這個策略並不明智,但當時的他們並不知道。於是,他們使用8塊GPU,實現了3.5倍的速度。
從這裏,Scaling Law開始了
最終,ILya放出了那次演講中最為意義重大的一張PPT,因為,它可以說是「Scaling Law」的開端——
如果你有一個非常大的數據集,訓練一個非常大的神經網絡,那麼可以保證成功。
從廣義上來說,後來發生的事情也的確如此。
接下來,Ilya提到了一個真正經得起時間考驗的想法——聯結主義(connectionism),這樣說深度學習的核心思想。
這種理念認為,如果你願意相信人工神經元在某種程度上有點像生物神經元,那麼你就會相信,超大規模神經網絡並不需要達到人類大腦的級別,就可以用來完成幾乎所有人類能做的事。
但它與人類仍然不同。因為人類大腦會弄清楚自己如何配置,它使用的是最優的學習算法,需要與參數數量相當的數據點。
在這一點上,人類仍然更勝一籌。
所有這些,最終都引出了「預訓練時代」。
這個時代,可以用GPT-2、GPT-3和Scaling Laws定義。
此處,ILya格外感謝了前同事Alec Radford,Jared Kaplan和Dario Amodei。
這項技術,是推動我們今日所見所有技術進步的核心驅動力。
預訓練時代,即將終結
然而,我們所知的預訓練路線,毫無疑問會終結。
為什麼?
這是因為,儘管計算能力正通過更好的硬件、更優的算法和更大的集群不斷增長,但數據量並沒有增長——我們只有一個互聯網。
甚至可以說,數據是AI的化石燃料。它們是以某種方式被創造出來的,而如今,我們已經達到了數據峰值,不可能再有更多數據了。
當然,目前現存的數據,仍能支持我們走得很遠,但我們只有一個互聯網。
接下來會發生什麼?Ilya給出了下列預測。(或者只是提到他人的猜測)
首先,智能體會有一些突破,這些能自主完成任務的AI智能體,就是未來的發展方向。
其次,還會有一些模糊的合成數據,但這到底意味著什麼?很多人都會取得有趣的進展。
最後,就是推理時計算了,最引人矚目的例子,就是o1。在預訓練後,我們接下來該探索什麼?o1給出了生動的例子。
下面,是一個來自生物學的例子。
這張圖,展示了哺乳動物的身體大小與大腦大小之間的關係。
在生物學中,一切都很混亂,但上面這個緊密聯繫,卻是一個罕見的例子。
從人類及其近親的進化分支上看,包括尼安德特人、能人等等,大腦與身體比例的縮放指數都不同。
這意味著在生物學中,確實存在不同比例縮放的先例。
如今我們所擴展的,可以說是第一個我們知道該如何擴展的事物。這個領域中的每個人,都會找到解決辦法。
而我們在相關領域,也取得了驚人的進步。10年前這個領域的人,還會記得當時是多麼無能為力。過去2年進入深度學習的人,可能都無法感同身受。
超級智能是未來,還會與意識結合
最後Ilya談到的,就是超級智能(superintelligence)了。它是公認的發展方向,也是研究人員們正在構建的東西。
從本質上來說,超級智能與現在的AI完全不同。
目前,我們擁有出色的LLM和聊天機器人,但它們也表現出某些奇怪的不可靠性——時常會感到困惑,但卻能在評估中表現出遠超人類的能力。
雖然我們還不知道如何調和這一點,但最終遲早會實現以下目標:AI將真正具備實際意義上的智能體特性,並將正學會推理。
由於推理會引入了更多的複雜性,因此一個會推理的系統,推理量越多,就會變得越不可預測。相比之下,我們熟知的深度學習都是可以預測的。
舉個例子,那些優秀的國際象棋AI,對於最頂尖的人類棋手來說就是不可預測的。
所以,我們將來不得不面對的,是一些極其不可預測的AI系統——它們能夠從有限的數據中理解事物,同時也不會感到困惑。
同樣,自我意識也是有用的,它構成了我們自身的一部分,同時也是我們世界模型中的一部分。
當所有這些特性與自我意識結合在一起時,就會帶來與現有系統完全不同性質和特性的系統,它們將擁有令人難以置信的驚人能力。
當然,雖然無法確定如何實現、何時實現,但這終將發生。
至於這種系統可能帶來的問題,就留給大家自己去想像吧。
畢竟預測未來是不可能的,任何事情都有可能發生。
參考資料:
https://x.com/_jasonwei/status/1867696401830096970
https://x.com/blueberry_feed/status/1867764724206629224
https://x.com/tmychow/status/1867695173783925071