LiveBench 發佈最新榜單：階躍星辰Step-2位列中國大模型第一

11 月 19 日消息，國際權威榜單 LiveBench 官網公佈了最新的語言大模型測評結果，階躍星辰自研的萬億參數語言大模型 Step-2 的技術表現位列中國基座大模型第一，成績逼近 OpenAI 的 o1-mini-2024-09-12，超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等國際主流模型，是唯一進入榜單前十名的中國語言大模型，位列全球第五。另外，同時上榜的中國大模型公司還有通義千問和 DeepSeek。

LiveBench 是由圖靈獎得主、Meta 首席 AI 科學家楊立昆（Yann LeCun）聯合 Abacus.AI、紐約大學等機構聯合推出的大模型測評基準。LiveBench 從包括數學、推理、編程、語言理解、指令遵循和數據分析在內的多個複雜維度對模型進行評估，採用新穎的數據來源並保持每月更新，被譽為「世界上第一個不可玩弄的 LLM 基準測試」。

值得關注的是，Step-2 在 IF Average（Instruction Following）一項表現突出，超越包括 o1-preview-2024-09-12 在內的所有國內外語言大模型。這意味著，Step-2 在語言生成上對細節有最強的控制力，模型能夠更好地理解和遵循人類指令，捕捉到模糊需求背後用戶的真實意圖，對通用及特定領域知識的覆蓋上都有更好的表現。比如當使用 Step-2 創作古詩詞，模型在發揮創意的同時能夠對字數、格律、押韻、意境做到精準把握。

據瞭解，今年 3 月，階躍星辰發佈了 Step-2 語言大模型預覽版，這是國內首個由創業公司發佈的萬億參數模型。目前，階躍星辰開放平台為開發者提供 Step-2 的 API 接口，該公司的 C 端智能助手「躍問」也已經接入了 Step-2 萬億參數語言大模型，用戶在躍問 App 和躍問官網（https://yuewen.cn）皆可體驗。

你可能喜歡