國產大模型，首次在榜單上干翻GPT-4o

作者|陶然編輯|魏曉

悄悄地，悄悄地。

國產大模型把GPT-4o從榜單上「干翻了」。

10月16日上午，零一萬物在線上舉辦的新品發佈會上，亮出了自家全新旗艦大模型「Yi-Lightning」。

Lighting直譯為閃電，本來應該是說新模型的推理速度進一步提升。

但零一萬物這次，也確實做了個「閃電奇襲」：在國際權威盲測榜單 LMSYS 上，Yi-Lightning 超越了OpenAI 的GPT-4o-2024-05-13、Anthropic的Claude 3.5 Sonnet，總榜排名世界第六（與馬斯克xAI的Grok並列），國產大模型細分下暫列第一。

這是在 LMSYS 這一全球大模型必爭的公開擂台上，國產大模型首度實現對於OpenAI最新發佈的GPT-4o模型的超越。

當然，數據層面的超越並不直接等同於國產大模型已經全球領先，零一萬物創始人兼CEO李開複在會上也提到了中美之間技術和算力硬件都仍有差距。

目前的情況是：差距還在，但也在不斷縮小。

第一梯隊

類比手機，大模型的「跑分」和用戶體驗，也是不太能直接畫等號。

但LMSYS Org 發佈的 Chatbot Arena ，憑藉來自真實用戶的盲測投票機制以及Elo 評分系統，基本已是全球業界公認「最接近真實用戶使用場景、最具用戶體感」的榜單，被稱為大模型賽道內的奧林匹克。

所以，還是相當有參考價值：

理論層面的能力上，新模型無疑是追近了OpenAI、Anthropic這些頭部公司。

在實際使用環節，發佈會給出了兩組對比來演示Yi-Lightning在生成速度方面的提升，分別是推理和翻譯。

前者直接以「哈利斯與特朗普競選主題分析」為案例，對比GPT-4o：

生成速度對比

從演示中可以明顯看出，Yi-Lightning的推理速度是明顯快於GPT-4o的。

官方介紹稱，單位時間內Yi-Lightning生成的內容大約是GPT-4o的兩倍，整個推理速度提高了四成。

而在內容質量上，演示環節用了莎士比亞著作《李爾王》一段比較晦澀的文字做英譯中，對比的是國內友商的幾款主流模型：

翻譯質量對比

Yi-Lightning不僅生成速度最快，而且在翻譯講求的「信達雅」層面，也是四款模型中做得比較好的一位。

李開複在會上簡單解釋了新模型是如何做到「又快又好」的：

這次混合注意力機制是我們做的一個非常重要的點，混合注意力是計算裡面比較大的比例，我們不但把KV cache縮小很多，將部分層的計算複雜度從 L平方降到了L。

簡單來說，零一萬物做的就是通過引入混合注意力機制和優化KV緩存，顯著提高了模型的計算效率。混合注意力機制結合了全注意力和滑動窗口注意力，使得模型在處理長序列數據時既能保持高性能，又能降低計算成本。

通過這種方式，零一萬物成功地將計算複雜度降低，並將KV緩存成倍縮小，從而顯著提高了模型的推理速度和效率。

以及，分析用戶需求的複雜程度，動態調用MoE（混合專家的模型）：專家很多（模型的能力上限很高），但不一定每次都要興師動眾地請出所有專家（全量模型能力）：

我們訓練時假設有80個專家，每次都調用12個或15個，在做簡單推理的時候少調幾個，就可以省掉很多的時間…通俗點說，對簡單的問題問兩個專家，難的問題問十個專家，就跟人們所碰到的問題一樣，當問題簡單，想知道天氣是什麼的時候，不用找一堆專家來浪費他們的時間，但問題很複雜的時候，或許真的需要很多的專家，這樣的平衡既不影響表現，又節省計算資源和用戶時間。

同時，模型訓練中的黑箱問題似乎也有了一定解法，就是將訓練拆分成多階段。李開複稱公司研究員「不必把全部的數據跑五遍才看哪個最好，訓練中有80%或90%（的內容）都是固定起來，最後再去做高效的對比」，同時也能降低訓練成本。

此外，李開複還透露目前公司的數據，標註分類、收集整理、挑選使用、排序等，也都「做到了業界頂尖水平」。

預訓練的錢

頭部公司還付得起

前段時間，AI六小虎（智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰）中有幾家公司放已經棄預訓練的消息在圈內傳的沸沸揚揚，李開複在會上做了直接的回應。

首先，預訓練確實燒錢——訓練一次三四百萬美金，不是每家公司都可以做這件事情；成本比較高，所以以後有可能會越來越少的大模型公司訓練做預訓練。

但在目前這個階段，這六家公司的融資額度都是還是夠的，足夠支撐訓練成本去推動模型迭代。

「我覺得中國的六家大模型公司只要有夠好的人才，想做預訓練的決心，融資額跟芯片都不會是問題。」

但必須要承認的是，如果將對手設定為矽谷，那麼，國內這些大模型廠商在資金和資源方面，長期來看依然會有較大的差距：

「OpenAI內部仍有一些好東西，但他們不急拿出來，因為他們領先行業足夠多，到了一定的業務節點才釋放出來。」

此前放出的o1模型中，推理環節的思考狀態被OpenAI有意隱藏，但由果推因，行業中一些猜想陸續也會被驗證，李開複認為大概五個月後，其他公司應該也有不少類似o1 模型的能力出現在各個模型公司，「包括零一萬物」。

這種技術上的差距，他認為部分原因卻確實可以歸咎於訓練資源，畢竟人家是用十萬張GPU訓練出來，而國內團隊用的只是兩千張GPU訓練出來，模型的時間差能達到（縮短）只是因為我們模型、AI infra等團隊都熱心聰明，去使用和理解對方做出來的東西，再加上每家的研發有特色，比如數據處理、訓推優化等等。