楊植麟回應不了一切

文|丹恩詠儀

編輯|蘇建勳‍

進入2024年,中國大模型公司面對的牌局愈發艱難。一方面,在2023年快速入局,獲得了大額融資、高昂估值的「六小虎」們,面對著各種聲音——AI應用同質化、尚未跑通的商業模式。

在另一面,以OpenAI為首的頂級模型迭代速度放緩,GPT-5遲遲未發,近期整個行業都在討論:大模型的Scaling Law是否失效了?

但久未露面的月之暗面創始人楊植麟表示:Scaling Law依舊有效,只是Scale的東西變了。

△月之暗面創始人楊植麟 圖源:作者拍攝△月之暗面創始人楊植麟 圖源:作者拍攝

11月16日,月之暗面正式發佈新數學模型K0-math。

這是一個專注於計算能力的數學模型。在Demo中,K0-math不僅展示了能夠解決數學競賽中的高難度數學題,更難得的,是能夠展現解題時的分佈思考步驟——從拿到題目,到拆分步驟思考。在遇到解題步驟出現錯誤時,K0-math還能夠自己反思思考的邏輯是否有誤,返回到特定的步驟重新展開推理。

月之暗面公佈的基準測試顯示,Kimi k0-math的數學能力,可對標全球領先的OpenAI o1中可公開使用的兩個模型:o1-mini和o1-preview。

楊植麟還專門強調,為了讓和o1的對比足夠公平,月之暗麵糰隊使用了不同種類的測試集進行實時測試。

△K0-math模型基準測試結果 圖源:作者拍攝△K0-math模型基準測試結果 圖源:作者拍攝

在中考、高考、考研以及包含入門競賽題的MATH等4個數學基準測試中,k0-math 初代模型成績超過o1-mini和o1-preview模型。

在兩個難度更大的競賽級別的數學題庫——OMNI-MATH和AIME基準測試中,k0-math初代模型的表現,則分別達到了o1-mini最高成績的90%和83%。

僅僅在一個月前,Kimi剛剛發佈最新版本「Kimi探索版」,將以CoT(思維鏈為主)的能力放到了模型當中。Kimi探索版的AI自主搜索能力,可以模擬人類的推理思考過程,多級分解複雜問題,執行深度搜索,並即時反思改進結果。

無論是Kimi探索版還是如今的K0-math,其釋放的信息都是類似的:不斷提升模型的智力、思考水平。這也是面對以OpenAI o1為首的頂尖模型,Kimi邁出的追趕第一步。

不過楊植麟也坦承,如今的K0-math還有不少局限性。

比如,對於高考難題、IMO數學競賽等等難題,K0-math還會有一定概率做錯。有時候,模型也會過度思考——對於1+1=2類的簡單數學題,模型可能會花沒有必要的步驟去反復驗證答案,甚至會「猜答案」,但不能展現為什麼可以得出正確的答案。

作為國內AI初創公司中「技術理想主義派」的代表,楊植麟本人曾多次強調Scaling Law(縮放定律,大模型最重要的技術原理)的意義和重要性。

但現在,他也明確表示行業範式正在發生改變:從原來的擴大計算和參數規模,到如今的強化學習為主的技術路線,著重提升模型智力水平。

「AI的發展就像蕩鞦韆,我們會在兩種狀態之間來回切換:有時候,算法、數據都很ready了,但是算力不夠,我們要做的就是加算力;但今天我們發現,不斷擴大算力規模已經不一定能直接解決問題了,所以這時就需要通過改變算法,來突破這個瓶頸。」楊植麟解釋。

數學模型K0-math之所以選擇在今天發佈,也有其特殊意義:11月16日,是月之暗面第一個產品Kimi Chat的一週年紀念日。

過去兩年里,月之暗面是國內最受關注的AI初創公司之一。經歷了2023年的Kimi助手爆火,到2024年的極速投流增長、近期的仲裁風波,這個團隊一直處於風口浪尖之上,如同在迷霧中穿行。

但現在,月暗顯然並不打算回應一切。在發佈會中,楊植麟只講新模型和技術相關的問題,並簡單地公佈了一個數字:截至2024年10月,Kimi的月活用戶已經達到3600萬。 

△Kimi最新用戶數據 圖源:作者拍攝△Kimi最新用戶數據 圖源:作者拍攝

「我仍然保持更樂觀的心態。」楊植麟預測,行業範式轉向,並不意味著以擴大規模為主的預訓練模式完全失靈——頂尖模型再未來半代到一代,還能釋放出預訓練的許多潛力。

而在模型的思考能力進一步提升後,這也意味著大模型能夠進一步落地,解決更多領域內的專有任務。

以下為楊植麟在發佈會中的更多發言與回應,經《智能湧現》編輯整理:

AI的發展就像蕩鞦韆,本質上都要跟Scaling做好朋友

Q:轉向強化學習路線之後,數據會不會成為模型迭代的比較大的挑戰?

楊植麟:這確實是強化學習路線的核心問題。以前我們做下一個字段預測的時候,通常用的是靜態數據,我們對數據的過濾、打分、篩選,這些技術都比較成熟。

但在強化學習路線上,所有的數據都是自己生成的(比如一些思考過程)。模型思考的時候,其實需要知道想法是對還是錯,這會對模型的獎勵模型提出更高的要求。我們還要做很多對齊的工作,一定程度可以抑制這些問題。

Q:在模型迭代的過程里,無論是之前的擴大算力路線,還是說強化學習上,怎麼進行平衡?

楊植麟:我覺得 AI 的發展就是一個蕩鞦韆的過程,就是你會在兩種狀態之間來回這個切換一種狀態。如果你的算法、數據非常ready,但是算力不夠,那麼你要做的事情就是做更多的工程,把 Infra 做得更好,然後它就能夠持續的提升。

從Transformer誕生到 GPT 4,我覺得基本上其實更多的矛盾是怎麼能夠Scale,在算法和數據上它可能沒有本質的問題。

但今天當Scale得差不多的時候,你會發現加更多算力可能並不一定能直接解決的問題,核心是高質量的數據就沒有那麼多了,小幾十T的token,這就是人類互聯網積累了20多年的上限。

所以我們需要通過算法的改變,讓這個東西不會成為瓶頸。所有的好算法,都是和Scaling做朋友,讓它釋放更大的潛力。

我們在很早就開始做這個強化學習相關的東西,我覺得這是接下來很重要的一個趨勢了,通過這種方式改變目標函數、學習的方式,讓他們持續Scale。

Q:非Transformer路線會不會解決這種問題?

楊植麟:不會,因為它本身不是Architecture的問題,它是一個學習算法或者是沒有學習目標的問題。Architecture我覺得沒有本質的問題。

Q:關於推理成本,數學版上線到Kimi探索版之後,是用戶可以去選擇不同的模型,還是你們會根據提問來分配?以及,你們現在的主要模式是打賞,而不是訂閱,怎麼平衡成本問題?

楊植麟:我們接下來的版本大概率會讓用戶自己去選擇。早期通過這種方式可以更好的分配或者更好的滿足用戶的預期,我們也不想讓它1+1等於多少,想半天,所以我覺得早期可能會用這樣的方案。

但最終,這可能還是一個技術問題。一,我們能動態的給它分配最優算力,模型足夠聰明的話,它就會知道什麼樣的問題匹配什麼樣的思考時間,和人一樣,不會「1+1」的問題也想半天。

二,成本也是不斷下降的過程。比如說今年你如果達到去年GPT4模型的水平,你可能只需要十幾B的參數就能做到,去年可能需要一百多B。所以我覺得覺得整個行業先做大或者做小,是這樣的普遍規律。

Q:現在AI圈子會不會被Scaling Law這件事限制住了?

楊植麟:我比較樂觀一點。核心就在於原來你用靜態數據集,靜態數據集其實是比較簡單粗暴的使用方式,現在用強化學習的方式很多情況下是有人在參與這個過程的。

比如,你標100條數據,你就能產生非常大的作用,剩下的都是模型在自己思考,我覺得以後更多的會用這種方式解決。

從做法上來看,(強化學習路線)確定性是比較高的,很多時候的問題在於怎麼真正把(模型)調出來,我覺得上限是很高的。

Q:你去年說長文本是登月的第一步,你覺得數學模型和深度推理是第幾步?楊植麟:就是第二步。

Q:預訓練的Scale現在都覺得遇到瓶頸了,美國遇到瓶頸以後你覺得對中美大模型的格局的影響是什麼?你覺得差距是變大還是變小?

楊植麟:我一直覺得,這個差距相對是一個常數,對我們來說它有可能是一個好事。

假設你一直pretrain,你的預算今年1B、明年10B或者100B,它不一定可持續。

當然你做Post-train(後訓練)也要Scaling,只是說你Scaling的起點很低。可能很長一段時間,你的算力就不會是瓶頸,這個時候創新能力是更重要的。在這種情況下,我覺得對我們反而是一個優勢。

Q:之前發的深度推理,還有包括你今天說的數學模型,它離普通用戶是比較遠的功能嗎?你怎麼看這個功能和用戶的關係?

楊植麟:其實也不遠。

我覺得是兩個方面的價值,第一個方面,數學模型今天在教育產品上其實有非常大的價值,在我們整體的流量里,也起到很重要的作用。

第二個,我覺得它是技術上的迭代和驗證。以及我們可以把這個技術去放在更多的場景里,比如我們剛剛說的探索版去做很多的搜索,我覺得它會有兩層這樣的含義。

保持單一產品形態,保持卡和人比例最高

Q:現在都在討論AI應用的問題,Super App還沒有出現,一大批的AI應用又非常同質化,你怎麼看?

楊植麟:我覺得Super App已經出現了,ChatGPT已經有超過5億的月活,它是不是超級應用?至少半個吧,這個問題已經很大程度上被驗證了。

哪怕像CharacterAI這種產品,一開始用戶量也蠻多,但後面很難破圈。在這個過程里,我們也會根據美國市場的情況,去判斷哪個業務最後做得最大、做成的概率更高。

我們還是會聚焦在我們認為上限最高的事情,而且跟我們AIG的misson也最相關。

Q:現在整個行業都有出現AI創業公司被收購,以及人才出走、回流大廠的現象,你怎麼看待?

楊植麟:這個問題我們沒有遇到,但可能有一些別的公司遇到。我覺得倒也正常,因為行業發展進入了一個新的階段,它從一開始有很多公司在做,變成了現在少一點的公司在做。

接下來大家做的東西會逐漸不一樣,我覺得這是必然的規律。有一些公司做不下去了,就會產生這些問題,我覺得這個是行業發展的規律。

Q:你們很少談到模型訓練上的情況,現在你們預訓練的情況是怎麼樣的?

楊植麟:我先說第一個問題,我覺得預訓練還有空間,大概半代到一代的模型,這個空間會在明年釋放出來。明年,我覺得領先的模型會把預訓練做到一個比較極致的階段。

但是我們判斷,接下來最重點的東西會在強化學習上,就是範式上會產生一些變化。本質上,它還是Scaling,並不是不用Scale,只是說你會通過不同的方式去Scale,這是我們的判斷。

談未來、競爭、出海

Q:Sora馬上就要發產品了,你們什麼時候發多模態產品?怎麼看多模態這件事?

楊植麟:我們也做,我們幾個多模態的能力在內測。

關於多模態,我覺得AI接下來最重要的是思考和交互這兩個能力,思考的重要性遠大於交互。

不是說交互不重要,而是思考會決定上限。交互是一個必要條件,比如說Vision(視覺)的,如果沒有Vision的能力,那就沒法做交互。

但思考是這樣的——你就看要做的這個任務,標註任務的難度有多大,你到底需要一個博士去標?還是每個人都可以標?哪個東西更難找到這樣的人?那這個東西就是AI的上限。

Q:怎麼看和豆包等一系列AI應用的競爭?

楊植麟::我們還是更希望關注在怎麼能給用戶真正價值上,而不是過多去關注競爭本身,因為競爭本身並不產生價值。

怎麼提升模型的思考推理能力,這是我們現在最核心的問題。通過這個東西給用戶帶來更大的價值,就是做正確的事情,而不專門去做不一樣的事情。我覺得只要能有人實現AGI,它都是非常好的結果。

Q:什麼時候決定只做Kimi這一個產品?

楊植麟:大概今年二、三月份吧,或者三四月份,大概那個區間。一個是基於美國市場的判斷,二是基於我們自己的觀察,主要是這兩點,確實得做減法,不是瘋狂的做加法。

Q:為什麼?

楊植麟:這兩年,我們主動的選擇做了業務的減法。我覺得這個還是很重要的,也是我們過去一年比較大的lesson(教訓)。

我們一開始確實也嘗試過比如說幾個產品一塊做,這個在一定的時期內有可能是有效的,到後來發現還是要聚焦,把它做到極致,是最重要的。

砍業務本質上也是在控制人數。這幾個大模型創業公司里,我們始終保持人數最少,始終保持卡和人的比例最高,我覺得這個是非常關鍵的。

我們不希望把團隊擴那麼大,擴那麼大,對創新的影響是有致命性的傷害的。三個業務一起做,我就活生生把自己變成大廠,我就沒有任何優勢。

Q:現在,你們最核心的任務是什麼?

楊植麟:最核心的任務就是提升留存,或者把留存作為一個重要的衡量指標。

我覺得,用戶留存,和模型的成熟度、技術水平,也是一個正相關的過程。

包括思考能力還不夠強,交互不夠豐富,所以它今天能做的交互還比較有限。無論是跟用戶的交互,還是跟本身客觀世界的交互,還有很大的提升空間。

如果我們衡量離AGI目標的距離,我覺得現在還是初級階段。當然,每年都有比較大的進步,如果我們用去年的產品,你會發現可能根本沒法忍受。

Q:現在怎麼考慮出海問題?

楊植麟:我覺得先聚焦,然後全球化,需要更耐性一點。

Q:最近大家都在談大模型的投流問題,你們怎麼實現良性的商業化?

楊植麟:我覺得肯定有,但是對我們來說現在最關鍵的還是留存,我覺得這個還是需要看的再長遠一點,至少ROI需要為正吧,這跟技術的進展是高度正相關的。

對我們來講最核心的是把留存和Organic growth(自然增長)做好。適當的投放是需要的,但是你需要平衡好這幾個東西之間的關係。