科技

楊植麟回應不了一切

11月17日 14:31 新浪網 tech-auto-hilite

文｜丹恩詠儀

編輯｜蘇建勳‍

進入2024年，中國大模型公司面對的牌局愈發艱難。一方面，在2023年快速入局，獲得了大額融資、高昂估值的「六小虎」們，面對著各種聲音——AI應用同質化、尚未跑通的商業模式。

在另一面，以OpenAI為首的頂級模型迭代速度放緩，GPT-5遲遲未發，近期整個行業都在討論：大模型的Scaling Law是否失效了？

但久未露面的月之暗面創始人楊植麟表示：Scaling Law依舊有效，只是Scale的東西變了。

△月之暗面創始人楊植麟圖源：作者拍攝

11月16日，月之暗面正式發佈新數學模型K0-math。

這是一個專注於計算能力的數學模型。在Demo中，K0-math不僅展示了能夠解決數學競賽中的高難度數學題，更難得的，是能夠展現解題時的分佈思考步驟——從拿到題目，到拆分步驟思考。在遇到解題步驟出現錯誤時，K0-math還能夠自己反思思考的邏輯是否有誤，返回到特定的步驟重新展開推理。

月之暗面公佈的基準測試顯示，Kimi k0-math的數學能力，可對標全球領先的OpenAI o1中可公開使用的兩個模型：o1-mini和o1-preview。

楊植麟還專門強調，為了讓和o1的對比足夠公平，月之暗麵糰隊使用了不同種類的測試集進行實時測試。

△K0-math模型基準測試結果圖源：作者拍攝

在中考、高考、考研以及包含入門競賽題的MATH等4個數學基準測試中，k0-math 初代模型成績超過o1-mini和o1-preview模型。

在兩個難度更大的競賽級別的數學題庫——OMNI-MATH和AIME基準測試中，k0-math初代模型的表現，則分別達到了o1-mini最高成績的90%和83%。

僅僅在一個月前，Kimi剛剛發佈最新版本「Kimi探索版」，將以CoT（思維鏈為主）的能力放到了模型當中。Kimi探索版的AI自主搜索能力，可以模擬人類的推理思考過程，多級分解複雜問題，執行深度搜索，並即時反思改進結果。

無論是Kimi探索版還是如今的K0-math，其釋放的信息都是類似的：不斷提升模型的智力、思考水平。這也是面對以OpenAI o1為首的頂尖模型，Kimi邁出的追趕第一步。

不過楊植麟也坦承，如今的K0-math還有不少局限性。

比如，對於高考難題、IMO數學競賽等等難題，K0-math還會有一定概率做錯。有時候，模型也會過度思考——對於1+1=2類的簡單數學題，模型可能會花沒有必要的步驟去反復驗證答案，甚至會「猜答案」，但不能展現為什麼可以得出正確的答案。

作為國內AI初創公司中「技術理想主義派」的代表，楊植麟本人曾多次強調Scaling Law（縮放定律，大模型最重要的技術原理）的意義和重要性。

但現在，他也明確表示行業範式正在發生改變：從原來的擴大計算和參數規模，到如今的強化學習為主的技術路線，著重提升模型智力水平。

「AI的發展就像蕩鞦韆，我們會在兩種狀態之間來回切換：有時候，算法、數據都很ready了，但是算力不夠，我們要做的就是加算力；但今天我們發現，不斷擴大算力規模已經不一定能直接解決問題了，所以這時就需要通過改變算法，來突破這個瓶頸。」楊植麟解釋。

數學模型K0-math之所以選擇在今天發佈，也有其特殊意義：11月16日，是月之暗面第一個產品Kimi Chat的一週年紀念日。

過去兩年里，月之暗面是國內最受關注的AI初創公司之一。經歷了2023年的Kimi助手爆火，到2024年的極速投流增長、近期的仲裁風波，這個團隊一直處於風口浪尖之上，如同在迷霧中穿行。

但現在，月暗顯然並不打算回應一切。在發佈會中，楊植麟只講新模型和技術相關的問題，並簡單地公佈了一個數字：截至2024年10月，Kimi的月活用戶已經達到3600萬。

△Kimi最新用戶數據圖源：作者拍攝

「我仍然保持更樂觀的心態。」楊植麟預測，行業範式轉向，並不意味著以擴大規模為主的預訓練模式完全失靈——頂尖模型再未來半代到一代，還能釋放出預訓練的許多潛力。

而在模型的思考能力進一步提升後，這也意味著大模型能夠進一步落地，解決更多領域內的專有任務。

以下為楊植麟在發佈會中的更多發言與回應，經《智能湧現》編輯整理：

AI的發展就像蕩鞦韆，本質上都要跟Scaling做好朋友

Q：轉向強化學習路線之後，數據會不會成為模型迭代的比較大的挑戰？

楊植麟：這確實是強化學習路線的核心問題。以前我們做下一個字段預測的時候，通常用的是靜態數據，我們對數據的過濾、打分、篩選，這些技術都比較成熟。

但在強化學習路線上，所有的數據都是自己生成的（比如一些思考過程）。模型思考的時候，其實需要知道想法是對還是錯，這會對模型的獎勵模型提出更高的要求。我們還要做很多對齊的工作，一定程度可以抑制這些問題。

Q：在模型迭代的過程里，無論是之前的擴大算力路線，還是說強化學習上，怎麼進行平衡？

楊植麟：我覺得 AI 的發展就是一個蕩鞦韆的過程，就是你會在兩種狀態之間來回這個切換一種狀態。如果你的算法、數據非常ready，但是算力不夠，那麼你要做的事情就是做更多的工程，把 Infra 做得更好，然後它就能夠持續的提升。

從Transformer誕生到 GPT 4，我覺得基本上其實更多的矛盾是怎麼能夠Scale，在算法和數據上它可能沒有本質的問題。

但今天當Scale得差不多的時候，你會發現加更多算力可能並不一定能直接解決的問題，核心是高質量的數據就沒有那麼多了，小幾十T的token，這就是人類互聯網積累了20多年的上限。

所以我們需要通過算法的改變，讓這個東西不會成為瓶頸。所有的好算法，都是和Scaling做朋友，讓它釋放更大的潛力。

我們在很早就開始做這個強化學習相關的東西，我覺得這是接下來很重要的一個趨勢了，通過這種方式改變目標函數、學習的方式，讓他們持續Scale。

Q：非Transformer路線會不會解決這種問題？

楊植麟：不會，因為它本身不是Architecture的問題，它是一個學習算法或者是沒有學習目標的問題。Architecture我覺得沒有本質的問題。

Q：關於推理成本，數學版上線到Kimi探索版之後，是用戶可以去選擇不同的模型，還是你們會根據提問來分配？以及，你們現在的主要模式是打賞，而不是訂閱，怎麼平衡成本問題？

楊植麟：我們接下來的版本大概率會讓用戶自己去選擇。早期通過這種方式可以更好的分配或者更好的滿足用戶的預期，我們也不想讓它1+1等於多少，想半天，所以我覺得早期可能會用這樣的方案。

但最終，這可能還是一個技術問題。一，我們能動態的給它分配最優算力，模型足夠聰明的話，它就會知道什麼樣的問題匹配什麼樣的思考時間，和人一樣，不會「1+1」的問題也想半天。

二，成本也是不斷下降的過程。比如說今年你如果達到去年GPT4模型的水平，你可能只需要十幾B的參數就能做到，去年可能需要一百多B。所以我覺得覺得整個行業先做大或者做小，是這樣的普遍規律。

Q：現在AI圈子會不會被Scaling Law這件事限制住了？

楊植麟：我比較樂觀一點。核心就在於原來你用靜態數據集，靜態數據集其實是比較簡單粗暴的使用方式，現在用強化學習的方式很多情況下是有人在參與這個過程的。

比如，你標100條數據，你就能產生非常大的作用，剩下的都是模型在自己思考，我覺得以後更多的會用這種方式解決。

從做法上來看，（強化學習路線）確定性是比較高的，很多時候的問題在於怎麼真正把（模型）調出來，我覺得上限是很高的。

Q：你去年說長文本是登月的第一步，你覺得數學模型和深度推理是第幾步？楊植麟：就是第二步。

Q：預訓練的Scale現在都覺得遇到瓶頸了，美國遇到瓶頸以後你覺得對中美大模型的格局的影響是什麼？你覺得差距是變大還是變小？

楊植麟：我一直覺得，這個差距相對是一個常數，對我們來說它有可能是一個好事。

假設你一直pretrain，你的預算今年1B、明年10B或者100B，它不一定可持續。

當然你做Post-train（後訓練）也要Scaling，只是說你Scaling的起點很低。可能很長一段時間，你的算力就不會是瓶頸，這個時候創新能力是更重要的。在這種情況下，我覺得對我們反而是一個優勢。

Q：之前發的深度推理，還有包括你今天說的數學模型，它離普通用戶是比較遠的功能嗎？你怎麼看這個功能和用戶的關係？

楊植麟：其實也不遠。

我覺得是兩個方面的價值，第一個方面，數學模型今天在教育產品上其實有非常大的價值，在我們整體的流量里，也起到很重要的作用。

第二個，我覺得它是技術上的迭代和驗證。以及我們可以把這個技術去放在更多的場景里，比如我們剛剛說的探索版去做很多的搜索，我覺得它會有兩層這樣的含義。

保持單一產品形態，保持卡和人比例最高

Q：現在都在討論AI應用的問題，Super App還沒有出現，一大批的AI應用又非常同質化，你怎麼看？

楊植麟：我覺得Super App已經出現了，ChatGPT已經有超過5億的月活，它是不是超級應用？至少半個吧，這個問題已經很大程度上被驗證了。

哪怕像CharacterAI這種產品，一開始用戶量也蠻多，但後面很難破圈。在這個過程里，我們也會根據美國市場的情況，去判斷哪個業務最後做得最大、做成的概率更高。

我們還是會聚焦在我們認為上限最高的事情，而且跟我們AIG的misson也最相關。

Q：現在整個行業都有出現AI創業公司被收購，以及人才出走、回流大廠的現象，你怎麼看待？

楊植麟：這個問題我們沒有遇到，但可能有一些別的公司遇到。我覺得倒也正常，因為行業發展進入了一個新的階段，它從一開始有很多公司在做，變成了現在少一點的公司在做。

接下來大家做的東西會逐漸不一樣，我覺得這是必然的規律。有一些公司做不下去了，就會產生這些問題，我覺得這個是行業發展的規律。

Q：你們很少談到模型訓練上的情況，現在你們預訓練的情況是怎麼樣的？

楊植麟：我先說第一個問題，我覺得預訓練還有空間，大概半代到一代的模型，這個空間會在明年釋放出來。明年，我覺得領先的模型會把預訓練做到一個比較極致的階段。

但是我們判斷，接下來最重點的東西會在強化學習上，就是範式上會產生一些變化。本質上，它還是Scaling，並不是不用Scale，只是說你會通過不同的方式去Scale，這是我們的判斷。

談未來、競爭、出海

Q：Sora馬上就要發產品了，你們什麼時候發多模態產品？怎麼看多模態這件事？

楊植麟：我們也做，我們幾個多模態的能力在內測。

關於多模態，我覺得AI接下來最重要的是思考和交互這兩個能力，思考的重要性遠大於交互。

不是說交互不重要，而是思考會決定上限。交互是一個必要條件，比如說Vision（視覺）的，如果沒有Vision的能力，那就沒法做交互。

但思考是這樣的——你就看要做的這個任務，標註任務的難度有多大，你到底需要一個博士去標？還是每個人都可以標？哪個東西更難找到這樣的人？那這個東西就是AI的上限。

Q：怎麼看和豆包等一系列AI應用的競爭？

楊植麟：：我們還是更希望關注在怎麼能給用戶真正價值上，而不是過多去關注競爭本身，因為競爭本身並不產生價值。

怎麼提升模型的思考推理能力，這是我們現在最核心的問題。通過這個東西給用戶帶來更大的價值，就是做正確的事情，而不專門去做不一樣的事情。我覺得只要能有人實現AGI，它都是非常好的結果。

Q：什麼時候決定只做Kimi這一個產品？

楊植麟：大概今年二、三月份吧，或者三四月份，大概那個區間。一個是基於美國市場的判斷，二是基於我們自己的觀察，主要是這兩點，確實得做減法，不是瘋狂的做加法。

Q：為什麼？

楊植麟：這兩年，我們主動的選擇做了業務的減法。我覺得這個還是很重要的，也是我們過去一年比較大的lesson（教訓）。

我們一開始確實也嘗試過比如說幾個產品一塊做，這個在一定的時期內有可能是有效的，到後來發現還是要聚焦，把它做到極致，是最重要的。

砍業務本質上也是在控制人數。這幾個大模型創業公司里，我們始終保持人數最少，始終保持卡和人的比例最高，我覺得這個是非常關鍵的。

我們不希望把團隊擴那麼大，擴那麼大，對創新的影響是有致命性的傷害的。三個業務一起做，我就活生生把自己變成大廠，我就沒有任何優勢。

Q：現在，你們最核心的任務是什麼？

楊植麟：最核心的任務就是提升留存，或者把留存作為一個重要的衡量指標。

我覺得，用戶留存，和模型的成熟度、技術水平，也是一個正相關的過程。

包括思考能力還不夠強，交互不夠豐富，所以它今天能做的交互還比較有限。無論是跟用戶的交互，還是跟本身客觀世界的交互，還有很大的提升空間。

如果我們衡量離AGI目標的距離，我覺得現在還是初級階段。當然，每年都有比較大的進步，如果我們用去年的產品，你會發現可能根本沒法忍受。

Q：現在怎麼考慮出海問題？

楊植麟：我覺得先聚焦，然後全球化，需要更耐性一點。

Q：最近大家都在談大模型的投流問題，你們怎麼實現良性的商業化？

楊植麟：我覺得肯定有，但是對我們來說現在最關鍵的還是留存，我覺得這個還是需要看的再長遠一點，至少ROI需要為正吧，這跟技術的進展是高度正相關的。

對我們來講最核心的是把留存和Organic growth（自然增長）做好。適當的投放是需要的，但是你需要平衡好這幾個東西之間的關係。

你可能喜歡