豆包大模型披露評測成績，較上一代“雲雀”提升19%

05月27日 09:48 新浪網 tech-auto-hilite

新浪科技訊 5月27日上午消息，在火山引擎最新披露的一份產品資料中，豆包模型團隊公佈了一期內部測試結果：在 MMLU、BBH、GSM8K、HumanEval等11個業界主流的公開評測集上，Doubao-pro-4k 的總分為76.8分，相比上一代模型雲雀Skylark2 的64.5分提升了19%，也優於同期測試的其他國產模型。

據悉，此次評測在今年5月完成，主要包括豆包通用模型-pro、雲雀Skylark2 在內的九款國產大語言模型。除了雲雀Skylark2 以外，其他模型均為各家廠商最新發佈的高級版本，通過API調用進行測試。

評測結果顯示，在評估代碼能力的兩個評測集 HumanEval 和 MBPP 上，豆包相比上一代模型提升了50%左右；在專業知識和指令遵循的評測集上，豆包分別獲得33%和24%的性能提升，同時也是得分最高的國產模型。

綜合11個公開評測集上的測試成績，豆包通用模型-pro的總分為76.8分。根據OpenAI公佈的測試成績，GPT-4在這些評測集上的總分為80.1分，相比國產模型仍有一定領先優勢。（羅寧）