LiveBench 發佈最新榜單:階躍星辰Step-2位列中國大模型第一
11 月 19 日消息,國際權威榜單 LiveBench 官網公佈了最新的語言大模型測評結果,階躍星辰自研的萬億參數語言大模型 Step-2 的技術表現位列中國基座大模型第一,成績逼近 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等國際主流模型,是唯一進入榜單前十名的中國語言大模型,位列全球第五。另外,同時上榜的中國大模型公司還有通義千問和 DeepSeek。
LiveBench 是由圖靈獎得主、Meta 首席 AI 科學家楊立昆(Yann LeCun)聯合 Abacus.AI、紐約大學等機構聯合推出的大模型測評基準。LiveBench 從包括數學、推理、編程、語言理解、指令遵循和數據分析在內的多個複雜維度對模型進行評估,採用新穎的數據來源並保持每月更新,被譽為「世界上第一個不可玩弄的 LLM 基準測試」。
值得關注的是,Step-2 在 IF Average(Instruction Following)一項表現突出,超越包括 o1-preview-2024-09-12 在內的所有國內外語言大模型。這意味著,Step-2 在語言生成上對細節有最強的控制力,模型能夠更好地理解和遵循人類指令,捕捉到模糊需求背後用戶的真實意圖,對通用及特定領域知識的覆蓋上都有更好的表現。比如當使用 Step-2 創作古詩詞,模型在發揮創意的同時能夠對字數、格律、押韻、意境做到精準把握。
據瞭解,今年 3 月,階躍星辰發佈了 Step-2 語言大模型預覽版,這是國內首個由創業公司發佈的萬億參數模型。目前,階躍星辰開放平台為開發者提供 Step-2 的 API 接口,該公司的 C 端智能助手「躍問」也已經接入了 Step-2 萬億參數語言大模型,用戶在躍問 App 和躍問官網(https://yuewen.cn)皆可體驗。