李開複回應一切:競技場排名「讓我們有信心繼續做預訓練」
GenAI 發自 凹非寺
量子位 | 公眾號 QbitAI
我們只落後OpenAI 5-6個月,但要進一步縮短這個時間差,大家的難度都很大。
國產大模型首次在國際最具挑戰的「大模型競技場」榜單上超過GPT-4o(5月版本),當零一萬物的名字緊跟在OpenAI、Google之後,李開複卻如是坦言。
就在「大模型六小強」叫停預訓練的傳聞甚囂塵上之時,李開複旗下零一萬物曆時5月憋了個大招,用實際行動回應一切:
推出最新旗艦模型Yi-Lightning,性能超越GPT-4o-2024-05-13,衝上UC伯克利大模型競技場(Chatbot Arena)總榜第6。
還把每百萬token的價格打到了0.99元人民幣——不到該版本GPT-4o的3%,相比於GPT-4o-mini百萬token輸入輸出價格的均值,也降低了近2/3。
不僅大模型競技場官方發帖盛讚,「這標誌著中國大模型的強勁增長」。
也得到了大模型社區的廣泛認可:
中國大模型正在迎頭趕上!很高興看到競爭仍在繼續,這迫使Google和OpenAI等大公司繼續開發他們的模型,更重要的是,發佈這些模型。
而這樣一個模型背後,另一點值得關注的是,李開複博士和他旗下的零一萬物,對中國大模型創業公司的發展路徑,又有了更清晰的認知。
就在與量子位的一對一對談中,從打榜,到追趕OpenAI,再到大模型應用的商用落地,李開複博士坦誠暢聊一切,還與我們分享了來自矽谷的最新見聞。
具體細節,在此分享。
(以下為李開複觀點呈現)
中國大模型創業公司要「換一種打法」
5-6個月的差距如何追趕
零一萬物從去年11月提出Yi-34B,到今年5月的Yi-Large,再到現在10月的Yi-Lightning,大約是5-6個月出一個模型,每次的新模型基本都能夠達到5-6個月之前世界第一的水平。
5-6個月代表著一個絕對的差距嗎?
我覺得追趕有兩種心態,一種心態是我要用一樣的方法論去做一樣的事情,消耗一樣的資源往AGI去衝。如果是這種思路,那放棄追趕是正確的。
OpenAI在訓練GPT-4的時候花了1億美金,GPT-5花了10億美金,GPT-6可能就要花100億美金,越往下越是一個天文數字。國內沒有一個創業公司能融這麼多錢,大廠可能也不捨得花這麼多錢。
我們必須要有一個認知:美國有一些投資人的心態是很獨特的,無論三年內燒出AGI的概率有多低,都要去砸一下試試。像OpenAI,有非常好的口才能說服一批投資人投他們;像馬斯克,他的名字可能就值幾十億美元;像Google,不甘心他們最正選明的技術風頭被別人搶走,所以咬咬牙也會投入;Meta我覺得一定程度是在攪局,但反正他們最近的廣告收益很高,花個10億美金甚至100億美金沒什麼問題。
我們是沒有這樣的巨量資源的。
所以一模一樣的打法是難以複製到初創企業身上的。但我們可以換一種打法,就是找到獨特的「多快好省」的打法後發製人,用最少的資源,訓練出力所能及的最優秀的模型。
我們說只落後OpenAI 5-6個月,如果說要再進一步縮短這個時間差,包括我們在內的中國同行們,難度都很大。零一萬物的想法是,我們要做一個世界一流的模型,現階段的策略會晚於第一個做到的模型5-6個月,不過我們會爭取做得比它成本更低、速度更快——這樣可用性反而是更高的。
中國公司很擅長把一件事情做到極致,用更低的成本,實現更高的效率。成本低了能夠帶來更多應用的爆發。
衡量模型能力很重要
我認為不能衡量的事情就沒法進步,所以打榜不是為了像高考一樣看能得第幾名,而是去瞭解你在全球這麼多厲害的公司和人當中,處在什麼樣的位置,是不是還有資格繼續往前衝,還是已經掉隊了。這一點非常重要。
各種榜單衡量的東西不一樣。比如MMLU衡量的是「天花板」,問題是蓋一個天花板100米高的房子,而你最高只能跳幾米,上面的80米完全跳不上去,那有什麼意思?
所以我們更看重如何去衡量模型的能力,以及是否被用戶認可。UC伯克利大模型競技場的評估方式,是讓人來公平地評價,這是我們和全球巨頭一直關注這個榜單的原因。
我們認可的不是打榜、刷榜的概念,而是用一個公平的,可以和最終用戶對接、讓他們來評分的這樣一個方法,來給我們反饋。
舉個例子,這次榜單上我們提交了兩個模型,看它們不同的得分,我們就能學到很多東西。
我們在這個榜單上是全球範圍排第三名的公司,只在OpenAI和Google之後。讓我們很欣慰的是我們知道自己肯定處在世界第一梯隊上,這一點對我們來說非常重要,讓團隊非常振奮,因為我們知道自己的模型是可以打國內、國外市場的,誰都不用怕。
這對我們團隊來說是一個正反饋,讓我們有信心往前衝,繼續做模型,繼續做預訓練。
另外很重要的是,跟排我們前面五名和後面五名的模型相比,Yi-Lightning的速度都比它們快。
AI應用進入商業化拐點
現在國內進入了一個可以做AI應用的時間點。
為什麼早前AI應用比較難做呢?其實就一個原因:好的模型推理成本太高。一年半前,中國就沒有一個模型是可以做出PMF(產品市場匹配)來的。
過去做移動應用,用戶從10萬增長到100萬,雖然也會增加帶寬、服務器等成本,但公司們不會因此破產。而在AI時代,如果一次推理就要幾塊錢,當用戶10倍增長時,創業公司們馬上就會破產。
今年,國內達到世界一流水平的模型已經有幾個了,並且有些成本已經足夠低。比如我們的Yi-Lightning,每百萬token的價格是0.99元人民幣,就已經可以支持一個AI搜索應用:每次搜索成本只要1-2分錢,即使用戶達到百萬級別,每人每天搜5次,成本也還是可控的。
這就是為什麼要等到有一個性價比足夠高的世界級模型,才能像移動互聯網時代那樣去做應用的原因。
國內ToC的應用目前還沒有出現一個Super APP,不是因為用戶不需要,而是因為之前足夠好的模型會把任何一個創業者燒破產。到今天好的模型足夠便宜,情況就大大改變了,對ToC我是非常樂觀的。並且我相信,中國的創業者在做PMF方面是超過美國的,就好像美團做得比DoorDash好,抖音做得比Instagram好一樣。
不過做應用可能還有一個挑戰,就是用戶的獲取成本。
國內大廠很強勢,創業公司獲取用戶的成本會比較高。所以對創業者來說,除了要有信心,模型夠好夠便宜,下一個就是怎麼去找到機會,用比較少的錢撬動比較多的流量,或者是解決用戶的強需求。
對於ToB的應用,我覺得本質是大模型代表的AI 2.0時代跟AI 1.0時代是有差別的。AI 1.0是項目製,你要做什麼我全部幫你進場去做,做一單賠一單。在今天很多ToB的公司還是做一單賠一單,這個是讓人擔憂的。
但比較樂觀的是,當你擁有大模型的能力,項目可以更便宜地做出來。有大模型的底座,不用收集那麼多數據,它本身的能力就已經很強了。
大模型還有很多過去未有的能力,無論是做Agent、多模態內容生成,還是做Copilot、直播,這些能力都是AI 1.0時代沒有的,是值得一試的。
走ToB路線特別要當心的是,首先,不要做一單賠一單。
其次,要認識到客戶對模型沒有需求,對解決方案才有需求。
第三,應該努力去找到合適的行業,能夠快速讓模型的本質融合行業的特質,實現慳錢或者賺錢,最好是賺錢。
對於零一萬物來說,我們會逐漸釋放我們的產品。在ToC方面,我們還是會延續國外先嘗試,再回到國內市場的路線。主要是我們已經在海外建立了一些實操經驗,積累了一些對海外市場的理解,而且有些應用在海外收費比較容易被用戶接受。
ToB的話我們在零售、政務、金融、能源等領域做出了一些有利潤的單子。但是坦誠地說也還在不斷驗證,如何去建立可持續的優勢。
當你在某個行業里拿下一單,它是一個不可複製的特例,還是可以重覆再做第二單、第三單?在第二單、第三單中技術的重覆使用能不能讓你的利潤率變得更高?這都還需要驗證。我們的第二年,會聚焦在從技術到應用實踐的商業化驗證。
什麼應用是值得去做的?2009年我做過一次演講,當時說到移動互聯網的應用到來的順序會和PC應用成長的順序相關。比如先是讀取內容、撰寫內容,然後是搜索管理內容,再能夠去把內容做得更加多元化、更豐富,之後能夠在內容之外拓展付費行為,包括廣告、支付、電商、社交等等。內在邏輯是人的需求其實就是這些。
一個新的時代到來,應該也是這樣的。AI內容的閱讀和生產,是ChatGPT、Midjourney、可靈。那下一個階段就是AI搜索,然後是多模態社交/娛樂,再走到本地生活&電商等等。
健康的大模型生態是倒三角結構
「ChatGPT火爆之後,錢都讓英偉達賺走了」,這個觀點是一個客觀的事實。
一個主要因素是英偉達的主要客戶是超級大廠,他們一買就買十萬張、幾十萬張卡,這一下就讓英偉達賺了很多錢。
這些公司的想法是要成為第一個做出AGI的公司,所以花多少錢買GPU都是值得的。這個心態就會導致錢都流向英偉達,也可能導致他們做出來的模型很厲害,但都很大、很昂貴。
對於我們來說其中的機會就是做更小的、推理成本更低的模型,去推動應用的發展。
要突破這個現狀,我覺得就是要有足夠多的公司瞭解到這樣一個生態系統:
底層是GPU,中間是各種模型平台,模型平台之上是應用。這個結構一定要是上層最大、底層最小的倒三角,才是健康的。
另一個因素是,英偉達實在太強了,利潤非常高。如果有兩三家芯片廠商能與之競爭,他們的整個盤子可能就沒有那麼大,我們買到的GPU也可能變得更便宜。但短期來看,英偉達還是業界最強。
矽谷新見聞
o1引入了一個非常新的思維方式:不是所有智能都來自於預訓練和微調。
以後大模型技術的發展應該會有三條路線:
第一還是怎麼做好預訓練;
第二是怎麼做好post-training;
第三是怎麼在推理之中加入思考。
o1最讓我驚訝的是,我在美國碰到一位經濟學教授,他跟我說,他用o1等於能少招一個博士生。
他有什麼想法不用等到博士生每週跟他1 on 1的時候再來討論,而是可以隨時打開電腦去問o1。雖然有時候會有錯誤,但教授給它指出後,o1居然會學習,有時候還能反過來糾老師的錯。所以這件事就變成,o1可能比一個博士生還能增強老師的能力。
當時我跟他聊的時候還有OpenAI的人在旁邊。OpenAI的人就很興奮地加入進來問,教授你願意花多少錢買o1的服務?教授說很簡單,我招博士生一年是10萬美元,那我願意付這10萬美元給o1。
另外一件大家都在討論的事是OpenAI的融資。
OpenAI的這次融資有點辛苦,融到66億美元,看起來很多了,但要考慮到OpenAI的估值是1570億美元。
挑戰來自於哪裡?我的理解是GPT-5是不太好訓練的。理論上GPT-5應該已經出來了,但現在推延了,會推延多久大家並不知道。
但OpenAI可怕的地方在於,他們內部藏了很多類似o1這樣的項目。他們並不著急推出,第一是怕競爭對手會學習進步,第二是要等到融資的節點,回應競爭對手的節點再拿出來用。
可以觀察到的是,一年前,投資人們還在瘋狂投各種模型,到今年,大家已經意識到,從純財務投資的角度來講,花很多錢去訓練一個並沒有產生太大商業價值的模型,幾個月以後它就可能被取代,錢就白燒了。
我講這個事情最主要的一點是想說:
投資人已經開始用商業思維來評估這個領域了。