豆包大模型披露評測成績,較上一代“雲雀”提升19%

新浪科技訊 5月27日上午消息,在火山引擎最新披露的一份產品資料中,豆包模型團隊公佈了一期內部測試結果:在 MMLU、BBH、GSM8K、HumanEval等11個業界主流的公開評測集上,Doubao-pro-4k 的總分為76.8分,相比上一代模型雲雀Skylark2 的64.5分提升了19%,也優於同期測試的其他國產模型。

據悉,此次評測在今年5月完成,主要包括豆包通用模型-pro、雲雀Skylark2 在內的九款國產大語言模型。除了雲雀Skylark2 以外,其他模型均為各家廠商最新發佈的高級版本,通過API調用進行測試。

評測結果顯示,在評估代碼能力的兩個評測集 HumanEval 和 MBPP 上,豆包相比上一代模型提升了50%左右;在專業知識和指令遵循的評測集上,豆包分別獲得33%和24%的性能提升,同時也是得分最高的國產模型。

綜合11個公開評測集上的測試成績,豆包通用模型-pro的總分為76.8分。根據OpenAI公佈的測試成績,GPT-4在這些評測集上的總分為80.1分,相比國產模型仍有一定領先優勢。(羅寧)