登上「最不可能作弊」的榜單,階躍星辰Step-2位列中國大模型第一
11月19日,國際權威榜單LiveBench官網公佈了最新的語言大模型測評結果:作為唯一進入前十名的中國公司,階躍星辰自研的萬億參數語言大模型Step-2-16k-202411(下文簡稱Step-2)位列全球第五,成績逼近OpenAI的o1-mini-2024-09-12,超越 gpt-4o-2024-08-06、gemini-1.5-pro-002等國際主流模型,是表現最佳的中國基座大模型。
根據榜單,Step-2在IF Average(Instruction Following)一項表現突出,超越包括 o1-preview-2024-09-12 在內的所有國內外語言大模型。
在AI屆, LiveBench榜單一直以嚴苛的標準被人稱為「最難AI榜」。而在國內AI「六小強」中階躍星辰一直以技術實力強和低調著稱,此次登頂LiveBench榜單中國第一,也掀開了這家大模型創業公司的神秘面紗。
1.最權威榜單的最驚豔亮相
事實上,LiveBench是今年新推出的大模型基準測試,但它已經迅速躋身為AI圈「最具權威性和挑戰性」的榜單。
不僅因為LiveBench是由圖靈獎得主、Meta 首席 AI 科學家楊立昆(Yann LeCun)聯合 Abacus.AI、紐約大學等機構推出的大模型測評基準,更因為它特殊的評測機制,被行業內譽為「無法被操縱的LLM基準測試」。
LiveBench自設立之初就致力於消滅「刷榜作弊」的可能性:在評估前就用評估基準數據集相關或完全相同的數據進行訓練,最終取得較高排名(就像手機廠商針對安兔兔跑分優化一樣)。
而且LiveBench每月會發佈新問題,並根據最近發佈的數據集、arXiv論文、新聞文章和IMDb電影簡介設計問題,以限制可能出現的數據汙染現象,並且每個問題都有可驗證的、客觀的基本真實答案,最大限度保證結果的客觀性。
LiveBench的權威性也部分源自評測範圍廣泛,截至今年6月,已經評估了幾個著名的閉源模型和數十個開源模型。
LiveBench有多難?此前GPT-4-Turbo曾在SuperCLUE-OPEN基準上取得了98.40的高分。但在LiveBench上,GPT-4-Turbo整體準確率卻只有50%左右。
在這樣嚴苛的測試標準下,階躍星辰Step-2-16k-202411萬億參數MoE模型不僅拿下了中國第一、全球第五的名次,其成績更是超越了GPT-4o-2024-08-06 、gemini-1.5-pro-002等國際主流模型,直逼OpenAI 的o1-mini-2024-09-12。
尤為值得一提的是,Step-2在IF Average(Instruction Following,指令跟隨)一項表現突出,超越了包括o1-preview-2024-09-12 在內的所有國內外語言大模型。這項指標意味著大模型在語言生成上對細節有最強的控制力,模型能夠更好地理解和遵循人類指令。
2.模型能力不斷進化,指令跟隨全榜第一
階躍星辰之所以能夠首次參加LiveBench評測就取得如此高的成績,與其自研Step-2大模型的兩大特點密不可分——萬億參數和MoE架構。
相對於階躍星辰自研的千億參數語言大模型Step-1,Step-2的綜合能力提升了近50%,無論是編程、邏輯推理、數學、知識等維度都能更好地解決問題。
在模糊指令方面,Step-2具備出色的理解能力,能夠從上下文中推斷出用戶的需求,精準捕捉用戶在模糊指令中的真實意圖,提供更準確、個性化的響應。在知識分佈方面,Step-2在知識覆蓋範圍和深度上都取得顯著突破,不僅能夠處理常見領域知識,還能深入理解和回答在特定領域或邊緣分佈中的複雜問題。
我們在階躍星辰的C端智能助手「躍問」上測試了Step-2的效果。
給出一道數學題,「躍問」能很快給出解答。
在文字創作方面,Step-2能夠生成高質量、有創意的文字內容,同時具備出色的細節控制能力,能夠根據用戶的指令對文本進行精確地調整和優化。
階躍星辰CEO薑大昕認為,想把模型參數擴大到萬億的話,MoE幾乎是一個必選項。但從千億模型到萬億模型,所遇到的挑戰是前所未有的。階躍星辰團隊在設計Step-2 MoE架構時候選擇了迎難而上,完全自主研發從頭開始訓練。
通過部分專家共享參數、異構化專家設計等創新MoE架構設計,Step-2中的每個「專家模型」都得到充分訓練,不僅總參數量達到了萬億級別,每次訓練或推理所激活的參數量也超過了市面上的大部分稠密模型。
這也是Step-2之所以具有超強能力的根本原因所在。
3.模型矩陣完善,戰略佈局全面
大模型算法結構複雜、對算力要求高、對數據需求大,大語言模型和多模態大模型的技術路線也存在差異。也正是因此,不少公司都選擇了「取其一點、打穿打透」的策略,專攻大語言模型或多模態大模型。
但階躍不同。在眾多國產模型廠商中,階躍星辰是為數不多同時佈局大語言模型與多模態模型、兩個方向齊發力的公司。
除了完整、全面的模型矩陣,階躍星辰的模型迭代速度也走在全國前列:
在2024年3月23日的全球開發者先鋒大會上,階躍發佈了語言大模型Step-2的預覽版——這也是國內初創公司,首次交出的萬億參數模型的答卷。
而今年7月,僅僅時隔100天,階躍星辰就在2024 WAIC上發佈了Step-2萬億參數大語言模型正式版,以及Step-1.5V多模態大模型、Step-1X圖像生成大模型。
相較於其他廠商每半年或一年才更新一個新版本,階躍星辰的迭代速度不可謂不快。
目前,階躍星辰 Step 系列通用大模型矩陣,已經覆蓋了從千億參數到萬億參數,從語言到多模態,從理解到生成的全面能力。
階躍星辰創始人兼CEO薑大昕認為,要實現AGI的終局需要走一條「單模態—多模態—多模理解和生成的統一—世界模型—AGI(通用人工智能)」的路。
今年隨著o1的發佈,AI技術也出現了新的範式,國內外基座大模型研發的競賽還在繼續。相信包括階躍星辰的國產大模型,會繼續在實現AGI之路上創造更多驚喜。
(封面圖來源:階躍星辰官網)
本文來自微信公眾號「甲子光年」,作者:王藝,36氪經授權發佈。