國產大模型,首次在榜單上干翻GPT-4o

作者|陶然   編輯|魏曉

悄悄地,悄悄地。

國產大模型把GPT-4o從榜單上「干翻了」。

10月16日上午,零一萬物在線上舉辦的新品發佈會上,亮出了自家全新旗艦大模型「Yi-Lightning」。

Lighting直譯為閃電,本來應該是說新模型的推理速度進一步提升。

但零一萬物這次,也確實做了個「閃電奇襲」:在國際權威盲測榜單 LMSYS 上,Yi-Lightning 超越了OpenAI 的GPT-4o-2024-05-13、Anthropic的Claude 3.5 Sonnet,總榜排名世界第六(與馬斯克xAI的Grok並列),國產大模型細分下暫列第一。

這是在 LMSYS 這一全球大模型必爭的公開擂台上,國產大模型首度實現對於OpenAI最新發佈的GPT-4o模型的超越。

當然,數據層面的超越並不直接等同於國產大模型已經全球領先,零一萬物創始人兼CEO李開複在會上也提到了中美之間技術和算力硬件都仍有差距。

目前的情況是:差距還在,但也在不斷縮小。

第一梯隊

類比手機,大模型的「跑分」和用戶體驗,也是不太能直接畫等號。

但LMSYS Org 發佈的 Chatbot Arena ,憑藉來自真實用戶的盲測投票機制以及Elo 評分系統,基本已是全球業界公認「最接近真實用戶使用場景、最具用戶體感」的榜單,被稱為大模型賽道內的奧林匹克。

所以,還是相當有參考價值:

理論層面的能力上,新模型無疑是追近了OpenAI、Anthropic這些頭部公司。

在實際使用環節,發佈會給出了兩組對比來演示Yi-Lightning在生成速度方面的提升,分別是推理和翻譯。

前者直接以「哈利斯與特朗普競選主題分析」為案例,對比GPT-4o:

生成速度對比生成速度對比

從演示中可以明顯看出,Yi-Lightning的推理速度是明顯快於GPT-4o的。

官方介紹稱,單位時間內Yi-Lightning生成的內容大約是GPT-4o的兩倍,整個推理速度提高了四成。

而在內容質量上,演示環節用了莎士比亞著作《李爾王》一段比較晦澀的文字做英譯中,對比的是國內友商的幾款主流模型:

翻譯質量對比翻譯質量對比

Yi-Lightning不僅生成速度最快,而且在翻譯講求的「信達雅」層面,也是四款模型中做得比較好的一位。

李開複在會上簡單解釋了新模型是如何做到「又快又好」的:

這次混合注意力機制是我們做的一個非常重要的點,混合注意力是計算裡面比較大的比例,我們不但把KV cache縮小很多,將部分層的計算複雜度從 L平方降到了L。

簡單來說,零一萬物做的就是通過引入混合注意力機制和優化KV緩存,顯著提高了模型的計算效率。混合注意力機制結合了全注意力和滑動窗口注意力,使得模型在處理長序列數據時既能保持高性能,又能降低計算成本。

通過這種方式,零一萬物成功地將計算複雜度降低,並將KV緩存成倍縮小,從而顯著提高了模型的推理速度和效率。

以及,分析用戶需求的複雜程度,動態調用MoE(混合專家的模型):專家很多(模型的能力上限很高),但不一定每次都要興師動眾地請出所有專家(全量模型能力):

我們訓練時假設有80個專家,每次都調用12個或15個,在做簡單推理的時候少調幾個,就可以省掉很多的時間…通俗點說,對簡單的問題問兩個專家,難的問題問十個專家,就跟人們所碰到的問題一樣,當問題簡單,想知道天氣是什麼的時候,不用找一堆專家來浪費他們的時間,但問題很複雜的時候,或許真的需要很多的專家,這樣的平衡既不影響表現,又節省計算資源和用戶時間。

同時,模型訓練中的黑箱問題似乎也有了一定解法,就是將訓練拆分成多階段。李開複稱公司研究員「不必把全部的數據跑五遍才看哪個最好,訓練中有80%或90%(的內容)都是固定起來,最後再去做高效的對比」,同時也能降低訓練成本。

此外,李開複還透露目前公司的數據,標註分類、收集整理、挑選使用、排序等,也都「做到了業界頂尖水平」。

預訓練的錢

頭部公司還付得起

前段時間,AI六小虎(智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰)中有幾家公司放已經棄預訓練的消息在圈內傳的沸沸揚揚,李開複在會上做了直接的回應。

首先,預訓練確實燒錢——訓練一次三四百萬美金,不是每家公司都可以做這件事情;成本比較高,所以以後有可能會越來越少的大模型公司訓練做預訓練。

但在目前這個階段,這六家公司的融資額度都是還是夠的,足夠支撐訓練成本去推動模型迭代。

「我覺得中國的六家大模型公司只要有夠好的人才,想做預訓練的決心,融資額跟芯片都不會是問題。」

但必須要承認的是,如果將對手設定為矽谷,那麼,國內這些大模型廠商在資金和資源方面,長期來看依然會有較大的差距:

「OpenAI內部仍有一些好東西,但他們不急拿出來,因為他們領先行業足夠多,到了一定的業務節點才釋放出來。」

此前放出的o1模型中,推理環節的思考狀態被OpenAI有意隱藏,但由果推因,行業中一些猜想陸續也會被驗證,李開複認為大概五個月後,其他公司應該也有不少類似o1 模型的能力出現在各個模型公司,「包括零一萬物」。

這種技術上的差距,他認為部分原因卻確實可以歸咎於訓練資源,畢竟人家是用十萬張GPU訓練出來,而國內團隊用的只是兩千張GPU訓練出來,模型的時間差能達到(縮短)只是因為我們模型、AI infra等團隊都熱心聰明,去使用和理解對方做出來的東西,再加上每家的研發有特色,比如數據處理、訓推優化等等。

「縮短時間差非常困難,我不預測我們可以縮短這個時間差。如果期待破局,可能需要一個前所未有的算法才有機會。」

高投入仍是一個繞不開的話題,包括在Yi-Lightning模型能力介紹環節,訓練等成本也被多次提及。此前官宣不參團價格戰的零一萬物,這次也終於宣佈了API降價方案,價格降至每百萬 token 僅收費 0.99 元的極低水平,直逼行業最低價。

研發、市場、利潤,哪家公司能最先在三者之間搭起某種正循環,或許才能真正從頭部集團中再多拉出一段領先的身位。

目前來看,勝負未分。