Kimi創始人楊植麟最新分享:關於OpenAI o1新範式的深度思考

劃重點:

① 規模定律之後,大模型發展的下一個範式是強化學習。

② OpenAI o1模型的發佈,通過強化學習嘗試突破數據牆,並看到計算更多向推理側增加的趨勢。

③ 決定這一代AI技術的上限,核心是文本模型能力的上限。

④ AI產品的能力由模型能力的決定,這和互聯網時代有本質不同,模型能力不強,產品體驗就不會好。

⑤ AI時代的超級應用,大概率會是一個AI助理。

OpenAI o1的發佈,又一次引發了行業內關於大模型進化新範式的討論。

討論的焦點是兩個公認的大模型進化瓶頸:數據瓶頸——數據不夠用了;以及算力瓶頸——3.2萬張卡已是目前的天花板。

但o1模型似乎找到了新的出路,它採用強化學習,試圖通過更深入的思考和推理來克服這些限制,提高數據質量和計算效率。

針對這一新範式是否能夠推動大模型競爭進入新階段,月之暗面創始人楊植麟有一些新的深度思考。

9月14日,楊植麟在天津大學宣懷學院做了一場分享,騰訊科技作為媒體合作夥伴,第一時間對他的分享內容進行了梳理。

然而,行業未來如何發展,無人能精準預測。於創新之途,更多時刻需要的是大膽試錯的魄力以及不斷直面失敗的勇氣。

楊植麟在分享的最後引用了《Thinking, Fast and Slow》作者Daniel Kahneman(丹尼爾·卡尼曼)講的話,他說:

「很多時候你願意去做一個你不知道的東西,其實你不知道有很多東西不知道,所以你才有這樣的勇氣去做。當你做了,你會發現有很多新的問題,也許這個東西就是創新的意義。」

以下為分享實錄(有刪減):

今天主要分享一下對人工智能行業發展的思考。

人工智能領域發展了七十多年,中間經歷了很多的發展階段。2000-2020年,人工智能主要是集中在垂直領域,比如說也誕生了很多像人臉識別、自動駕駛公司,其實這些公司核心在做的很多任務是垂直的任務,為了一個特定的任務來做。

耗費人力且是定製化的系統。這是之前AI核心的範式,「種瓜得瓜,想吃一個西瓜就種西瓜,永遠不能種瓜得豆。」

這個範式在最近幾年發生了很大的變化,不再是訓練很特定的AI模型,而是訓練通用的智能。

通用智能有什麼好處呢?同一個模型可以用到不同行業、不同任務,可以極大程度的泛化,所以它的空間會很大。

如果最後在很多領域做到人的水平,可能一定程度上對社會GDP產生槓桿,因為每個人的生產力都會變大、變強。本來只能產生一份的生產力,但是現在用通用的AI幫你做各種各樣的任務之後,有可能能乘一點幾倍,甚至兩倍、十倍,這個就取決於通用智能發展到什麼階段。

通用模型產生的三個因素

為什麼最近幾年突然能產生通用的模型?我覺得它既是一個必然,也是一個偶然。必然就是說人類科技的發展總是有一天就是會達到這個節點。

但是它的偶然是因為剛好滿足了三個因素:

第一,互聯網發展了二十多年,為AI提供了大量的訓練數據。互聯網等於是把這個世界或人的想法去做數字化的過程,讓每一個人產生數據,每一個人腦子裡的想法最終變成了一堆數據。

這個很巧合,估計2000年的時候大家開始做互聯網產品像搜索引擎的時候,或者做門戶網站的時候,可能從來沒有想到有一天這些數據居然能夠為人類文明的下一代科技產生貢獻。等於說在科技樹的發展上,互聯網是AI的前置節點。

第二,計算機裡面很多技術也都是AI的前置節點,比如說要達到10的25次方FLOPs(浮點數運算)的運算才能得到足夠聰明的模型。

但是要這麼多次浮點數運算同時在單一集群裡面,在一個可控的時間範圍內完成計算,這個在十年前是沒法做到的。

這就取決於芯片技術的發展、網絡技術的發展,不光是芯片算得快,還要把芯片連接起來,還要有足夠大的帶寬、有足夠大的存儲,所有這些技術疊在一起才能在兩三個月時間內算到10的25次方。

如果要花兩三年才能算10的25次方,可能就訓練不出來現在的模型,因為疊加週期很長,每次訓練失敗了可能要再等好幾年,就只能訓練少一兩個數量級的模型。但是少一兩個數量級的浮點數運算就產生不出來現有的智能,這個就是背後的所謂規模化定律決定的。

第三是算法上的提升。Transformer結構是2017年被發明的,發明的開始還是翻譯模型,有點像專用的概念。後來有很多人拓展更通用的概念,後來大家發現Transformer是一個高度通用的架構。不管是什麼樣的數據,不管要學的是什麼,只要能用數字化表述它就能用Transformer學習,而且這個通用體現在規模化的性質非常好。

如果用一個更傳統的結構,比如說用循環神經網絡或卷積神經網絡,可能會發現到了10億參數或更多的時候,再加參數或再加計算就不會變好。但是對Transformer來講,只要一直加就會一直好,而且幾乎看不到上限。這樣的結構,使得通用學習成為可能。只要不斷地把數據放到模型裡面去,然後定義你要學習的目標函數。

這三個東西加起來,就產生了現在我們看到的通用模型,而且是缺一不可。

我們會發現很神奇,人類技術的發展都是站在前人的肩膀上的。

有一本書是《技術的本質》,非常強烈推薦!技術的發展基本上是組合演進的過程,每一代的技術可以認為都是前面好幾代技術的組合。但是有一些組合能產生的威力會比剩下的組合要大得多,比如剛剛說的這三個組合就是非常強大的,它能產生通用模型。但是在OpenAI之前,可能沒人能想到這三個東西組合起來居然能產生這麼大的威力。

AGI的三層挑戰

在剛才這三個要素的前提下,我覺得對於通用智能AGI來講,可能會有三個層面:

最底層是規模化定律,這是第一個層次的創新機會,它被OpenAI發現,並且做到極致。

第二個層次的創新機會,就是Scaling law框架下有一些問題沒有解決,比如怎麼把所有的模態用統一的表示放到同一個模型裡面去?這是第二個層次的挑戰。

同時,雖然互聯網發展了二十多年,但畢竟數據是有限的,整體積累的數據還不夠多。現在大家遇到了一個問題,就是數據牆的問題,沒有更多的數據可以去訓練了。

我舉個例子,假設現在要做一個數學能力很好的AI,我們應該想的問題是我應該有哪些數據會幫助我學習數學能力?現有被數字化的數學題是很少的,可能在互聯網上有大部分數據又跟數學沒什麼關係。

現在好的數據被大家用的差不多了,很難有任何一個人或任何一個公司說,我今天可以找到比互聯網大十倍的數據拿來訓練,所以會遇到數據牆的問題。如果解決第二層次的問題,就會獲得第二個層次的機會,或者收益。

第三層次的問題,比如能夠去做更長的上下文,能夠有更強的reasoning(推理)或者instruction-following(指令遵循),這些就是第三個層次的問題。

最底下的層次是第一性原理,有了第一性原理之後,是0和1的本質區別。第一性原理之上,可能還有很多第二個層次,就是核心技術需要去解決,現在有很多人在解決第二個層面的核心技術,只要把第二個層面做好也能讓技術從本來只是可行到變得非常可用,而且是大規模使用。

如果看蒸汽機的發展都是一樣的一開始發明了定理,發現第一性原理OK了。但是蒸汽機落地過程中,一開始的動力不夠好,或者是成本太高,基本上所有新技術出來都會有這兩個問題,

剛剛我們講到有一個很重要的問題,就是數據牆的問題。在這種情況下,根據第一性原理,又要不斷地訓練更大的模型,要不斷地加更多的數據,所以這裡面就會有衝突。

天然的數據已經被窮盡了,這個時候怎麼能夠加更多的數據?能夠讓它持續做規模化?這裡面就會涉及到範式的轉移。

原來做的事情很簡單,只是去預測下一個Token,本身包含了非常多的推理、知識。

比如假設現在有一句話「距離北京最近的直轄市是天津」,語言模型會把前面的東西作為輸入去預測最後的詞是天津還是重慶等等,它會做預測。預測多了,就知道是天津。通過這種預測,就會把知識吸收到模型裡面,就能學會知識。

另外一種任務,比如現在讀了一本偵探小說,看了前面的九章,到最後一章要預測兇手是誰。如果能正確預測兇手,還是像剛才說的做下一個詞的預測。假設現在有一句話,最後推理半天發現兇手是某一個人,其實這個模型就學會了推理。

如果有很多這樣的數據,它就學會了推理。既能學到推理,也能學到知識,也能學到很多其它別的任務。如果把能搜到的數據全部拿下來,讓它持續預測下一個詞,它的智商就會越來越高,推理能力會越來越強,知識會越來越多。

這裡面會分成三種不同類型的能學到的東西:

第一,如果考慮熵很低的情況下,可能一些事實性的東西、知識本身沒有任何熵,entropy level非常低,就直接把知識記下來了。

第二,推理過程,像偵探小說推理的過程有一個中等的熵,就可能有多條推理路徑,最終得到的是一樣的結果。

第三,比如說一些創作類的,現在想寫一個小說,它就不是一個確定性的事情,它的熵是非常高的。

這幾種不同的東西都可以在一樣的框架裡面被預測下一個詞這樣的單一目標,只做這一件事情就能學會,這是通用智能的基礎。把這些東西全部放在同一個東西裡面去學,而且不用挑到底是在學小紅書,還是在學域奇百科等等,所以它非常通用,這個是通用智能的基礎。

OpenAI發佈o1,標誌著新範式的產生

下一個範式是通過強化學習來做。為什麼要強化學習?就是因為剛才說的天然數據不夠用了,最近OpenAI會發佈o1,標誌著從左邊的範式遷移到右邊範式,因為左邊範式數據不夠了。就像剛才說的這個世界上數學題就這麼多,如果要提升數學怎麼辦呢?

可以一直生成更多的題,然後自己做題,有的做對了,有的做錯了,然後去學習哪些做對了,哪些做錯了,你就可以持續提升,這個本質上就是強化學習的過程。

它的範式跟剛才說的又不太一樣,剛才說的是找天然的數據去預測下一個詞是什麼,現在是通過第一步之後得到了一個比較好的基礎模型,所以可以一直自己跟自己玩,生成很多數據,然後把好的學了,把不好的扔掉。通過這種方式去創造出來很多數據。

比如大家如果去看o1的話,中間會生成很多的思考。這個思考到底有什麼作用呢?核心也是生成數據的過程。因為這些數據本身在世界上是不天然存在的,比如一個很厲害的數學家證明了一個新的定理,或者解了什麼樣的數學題,或者參加了什麼競賽解了數學題,只會把答案寫出來,不會把思考的過程寫出來,所以它是天然不存在這樣的數據。

但是現在如想讓AI把人腦裡面本身的思考過程給生成出來,然後通過去學習這個思考的過程,得到更好的泛化。比如現在給一個學生一道很難的題,如果直接去學這道題的解答,其實並不知道在幹什麼。其實他需要有人給他講一下,這一步原來是這樣,為什麼能得到這個思路其實是有思考的過程。如果能學到思考的過程,下次遇到不太一樣的題,他也能做。

但是如果只是學瞭解答的話,每一次只能做一樣的提醒。只能說我今天解一個一元二次方程,每次都用一樣的方法解,把這個題型背下來也可以。如果能學到思考的過程,等於說有一個明師一直教你思考的過程是什麼樣的,你把思考的過程學下來,泛化能力會更好,而且能通過這個過程又產生了更多的天然不存在數據,它本身是很好的補充。產生了數據之後,這個Scaling就能持續做下去。

而且這個Scaling現在也發生了一些變化,原來大部分Scaling發生在訓練階段,就是我找一堆數據讓它訓練。但是現在大部分的計算,或者說越來越多的計算會轉移到推理階段,因為現在要思考,所以思考的過程本身也是需要花算力的,本身也是可以被規模化的東西,就是能逐漸往推理側+更多的算力。這個也有道理,比如今天想讓一個人去完成更複雜的任務,肯定是需要花更長時間,不可能期待他一兩秒鍾就能證明黎曼猜想。要證明黎曼猜想,有可能要想好幾年。

接下來很重要的點,怎樣去定義越來越複雜的任務。在這些更複雜的任務裡面,有可能模型跟人交互的方式會發生一些變化,可能是從現在完全同步的形式,一定程度上變成異步的,就是允許它花一些時間查一些資料,然後思考分析一下,最後再給你一個報告,而不是說馬上就給你一個解答。這樣就能允許它完成一些更複雜的任務,等於把推理階段的Scaling Law跟強化學習結合起來。

這一代AI技術的上限,核心是文本模型能力的上限

我覺得決定這一代AI技術的上限很核心還是文本模型的能力上限,如果文本模型能持續提升智商,就是能做越來越複雜的任務。它有點像學習的過程,一開始能做小學的題,逐漸能做中學、大學的,現在有一些博士的知識和推理能力都具備。

文本模型在持續提升,這一代AI的上限就會很高。我覺得文本模型是決定這一代AI技術價值的上限,持續提升文本模型的能力很重要。當然現在只要Scaling Law能繼續,大概率就能持續提升。

橫坐標是加更多的模態,因為現在大家討論很多「多模態模型」。比如說會有視覺的輸入、視覺的輸出、音頻的輸入輸出,會有這幾個模態,甚至在這幾個模態裡面任意做轉換。比如今天通過一張圖畫了產品的需求,這個產品的需求可以直接變成代碼,這個代碼裡面還可以自動結合生成的影片作為Landing Page,這個任務就是橫跨了多模態的任務,今天的AI還沒有辦法完全做到。可能一兩年的時間就能把模態去結合起來。

最終這些模態結合多好是取決於大腦怎麼樣,就是文本模型足夠強。因為中間需要很複雜的規劃,要規劃接下來先做什麼做第二步的時候發現結果跟之前想的不太樣,可以隨時調整,第三步不要這樣做了,可以換成別的方式做。

這裡面其實需要很強的思考和規劃能力,需要在很長的窗口下面保持一致、遵循指令、推理能力,這個其實都是由文本模型上限決定的。

但是這兩個東西是橫向和縱向的,多模態的能力更多的是橫向發展,就是能做越來越多的事情。文本模型更多的是縱向的發展,決定了這個AI有多聰明。只有聰明了,AI才能做很多事情。

但是如果說很聰明,但是沒有眼睛,那可能做的事情也會受限,這是兩個不同的維度。當然這兩個維度在接下來也會同時得到提升,在接下來兩三年的時間裡面我覺得還是有非常大的概率,這兩個方面應該會同步提升,等於這樣就能把整個東西給包起來。如果把整個東西包起來,就是所謂的AGI。

剛剛提到了一個問題,每一個新的技術出來之後都會面臨兩個問題:效果不太好、成本太高。對於AI來說也一樣,但是好消息是基本上這個效率的提升還是非常驚人的。首先會出現在訓練階段,比如今天想訓練一個GPT-4 level的模型,花的訓練成本只是兩年前的幾分之一,甚至如果做得好有可能用1/10的成本就能訓練出來智商一樣的模型。

同時,推理成本在持續下降。今年相比於去年,在推理階段產生單位智能的成本基本上降了一個數量級,明年估計還會再有一個數量級的下降。它會讓AI商業模型更成立,獲得智能成本的會越來越低,但同時產生的智能越來越高。對於用戶來講,ROI就會越來越高,所以用AI的會越來越多,我覺得這是一個很重要的趨勢。

這兩個重要的趨勢疊加起來,一方面會在訓練階段得到越來越多的智能,另一方面是智能能越來越便宜的被人使用,所以可以更大規模部署。當然這個模型還會持續發展,我覺得接下來如果去看OpenAI o1的話,很重要的提升是現在可以去完成一些比如人類要想很久才能完成的任務,它不是在回答一個簡單的問題,而是經過20秒鍾的思考。

當然這個20秒鍾是因為計算機本身想的快一點,如果讓人想同樣的內容,可能要想一兩個小時。計算機可以把很久的過程去做一些壓縮,能夠去完成時長越來越長的任務,我覺得這個是重要的趨勢。

下一代模型的三個核心能力

接下來你會看到也許AI能做分鐘級別甚至小時級別的任務,同時會在不同的模態之間做切換,推理能力也會越來越強。我覺得這幾個是接下來AI發展很重要的趨勢。

我們希望能把產品和技術去結合在一起。現在產品的邏輯跟互聯網產品的邏輯發生了很大的變化。現在的產品,基本上很大程度上由模型能力決定的。如果模型能力做不到,這個產品上的體驗是沒有辦法體現出來。

現在有更多的概念,就是模型即產品。

我們在做Kimi的時候,也是很希望能把產品和模型更緊密地結合在一起去思考。比如產品上想做一個功能,背後是需要對應模型能力的支撐。我覺得這裡面會一個相對確定性的需求,AI的助理。我覺得在AI時代,大概率超級應用就會是一個助理,我覺得對智能的需求是非常普適的需求,只不過今天能力還是處於初級階段。同時,這個市場是適應和擁抱新技術的過程,其實是隨著效果不斷變好、成本不斷下降,會導致有越來越強的市場適應性。

我覺得大概率接下來5到10年的時間內,肯定會有大規模市場應用的機會。因為我覺得它其實面向的還是普適的智能需求。說白了,現在用的所有的軟件、APP背後是由幾百、幾千個工程師開發出來的,所以背後的智商是固定的。

但是把人的智商通過一些代碼(本質上是一種規則)編碼下來,智商就固定在那兒了,它不會發生變化。

但是對於AI產品來講不太一樣,因為背後是模型,可以認為模型就是有幾百萬個人,而且幾百萬個人的能力很強,可以幫你完成不同的任務,我覺得它的上限是很高的。

這裡面很重要的一件事是,如果想做越來越複雜的任務,就必須能夠支持越來越長的上下文。所以我們前期在這上面聚焦做了很多能力上的提升,通過上下文長度去解決推理能力的問題。未來我們也會聚焦很多生產力的場景。

我覺得這一代AI最大的變量,還是在生產力端。現在社會裡面每一單位的生產力可能都會有十倍提升的機會,所以我們希望能夠聚焦在這些生產力場景,持續把效果去優化得更好。當然效果優化得更好,背後對應的是模型能力的提升。

同時,我覺得AI現在最大的變量是在於把數據本身當成變量來看,當你去優化一個系統的時候,數據不應該是看成是常量,就是不應該是靜止的東西,這個跟以前做AI研究的範式也不太一樣。比如如果是七年前或五年前,甚至現在很多人研究AI技術的方法是把數據固定,一個固定數據集,然後就去研究各種不同的方法、不同的神經網絡結構、優化器,就只是在固定數據的情況下去提升效果。

我覺得現在數據越來越多會成為一個變量,就是怎麼去使用數據,或者說獲得用戶的反饋,其實會越來越多成為這裡面很重要的東西。比如有一個很重要的技術是RLHF(Reinforcement Learning from Human Feedback),核心是怎麼從人類的反饋裡面去學習。即使說AI有很強的智能,但是它沒有跟人類的價值觀對齊,或者產生的並不是人類想要的東西,可能也不會有非常好的用戶體驗。 

我覺得通往AGI的過程更多是共創的過程,不是純技術,應該是技術跟產品更好的融合。就等於說把產品當成一個環境,然後模型就在這個環境裡面跟用戶交互,然後不斷地從跟用戶交互過程中去學習,這樣就會持續變得更好。

過去從2018年開始,當時Transformer開始出來之後,我們也做了很多基於Transformer的研究和探索。當然一開始的時候,確實沒有想到最終效果能做到今天這樣。當然接下來效果還會持續提升,因為只要Scaling Law一直存在,或者一直是成立的,那模型智商就會一直上升。

對我而言,整個探索過程是巨大的,它源自於深刻的好奇心。在這個過程中,不確定性無處不在。然而,我們往往會比實際情況更加樂觀,這是因為我們並不知道有些東西是我們所不知道的。比如,在我們最初開始這個項目時,雖然預想到了許多困難,但最終發現,無論我們預測了多少挑戰,實際情況總是比我們想像的更加艱難。

儘管第一性原理可能清晰明了,但未知的因素太多。正如《思考,快與慢》的作者丹尼爾·卡尼曼所言,很多時候,我們願意去嘗試那些我們不知道的事情,正是因為我們不知道自己還有很多不知道的東西,這種無知賦予了我們勇氣。當你開始嘗試時,你會發現許多新問題,而這也許正是創新的精髓所在。

可能大多數時候,你的嘗試可能會失敗,但偶爾你會發現某個解決方案突然奏效。這種情況經常在我們辦公室發生,你會看到有人突然歡呼,你可能會以為他出了什麼問題,但實際上,他只是突然發現某個方法有效了,就這麼簡單。

我認為,很多時候,觀察哪些方法有效,哪些無效,就是探索真理的簡單過程。這種探索不僅僅局限於技術領域,無論是產品還是商業模式,找出哪些可行,哪些不可行,或者僅僅是探索答案本身,都是非常有價值的。

* 感謝天津大學宣懷學院對本文的貢獻

本文來自微信公眾號「騰訊科技」,騰訊科技作者:郭曉靜,編輯:鄭可君,36氪經授權發佈。