剛剛,阿里雲Qwen2.5發佈!再登開源大模型王座!

轉自 | 機器之心

編輯 | 大盤雞

人工智能領域再度迎來重磅消息!

2023 年 8 月,通義首次開源後迅速引起全球開發者的關注和熱議,短短一年時間內,阿里雲大模型又迎來了重要升級。 

在 9 月 19 日的雲棲大會上,CTO 周靖人宣佈:通義千問發佈新一代開源模型 Qwen2.5,開源旗艦模型 Qwen2.5-72B 性能超越 Llama 3.1-405B,再次登上全球開源大模型的王座;通義旗艦模型 Qwen-Max 全方位升級,性能已經逼近 GPT-4o。

發佈現場,圖源:澤南

發佈現場,圖源:澤南

通義千問憑藉不斷迭代的技術和豐富的應用場景,迅速崛起為開發者的熱門選擇,尤其是在中文社區中引發了廣泛關注。這次發佈,模型不僅展現出更強大的代碼、數學和語言處理能力,還擁有領先的多模態處理和視覺智能,使其成為當前 AI 技術領域的佼佼者。 

百寶箱:Qwen2.5

這次,Qwen2.5 系列是一個超級 AI 模型「百寶箱」,涵蓋了多個尺寸的大語言模型、多模態模型、數學模型和代碼模型。每個尺寸都有基礎版本、指令跟隨版本和量化版本,總計上架了 100 多個模型,刷新了業界紀錄。

集合鏈接:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

在語言模型方面,Qwen2.5 開源了 7 個尺寸:0.5B、1.5B、3B、7B、14B、32B、72B,每個都在同等參數賽道創造了業界最佳成績。這些型號的設定充分考慮了下遊場景的不同需求:3B 是適配手機等端側設備的黃金尺寸;32B 是最受開發者期待的「性價比之王」,可在性能和功耗之間獲得最佳平衡。令人驚喜的是,Qwen2.5-32B 的整體表現甚至超越了 Qwen2-72B。

所有 Qwen2.5 系列模型都在 18 萬億(18T)tokens 的數據上進行了預訓練。相比 Qwen2,整體性能提升了 18% 以上,擁有更多的知識、更強的編程和數學能力。旗艦模型 Qwen2.5-72B 在 MMLU-redux(通用知識)、MBPP(代碼能力)和 MATH(數學能力)等基準測試中,分別取得了 86.8、88.2、83.1 的高分。72B 作為 Qwen2.5 系列的旗艦模型,在多個核心任務上,以不到 1/5 的參數超越了擁有 4050 億巨量參數的 Llama3.1-405B。

在專項模型方面,用於編程的 Qwen2.5-Coder 和用於數學的 Qwen2.5-Math 都有了實質性飛躍。Qwen2.5-Coder 在多達 5.5 萬億(5.5T)token 的編程相關數據上進行了訓練,當天開源了 1.5B 和 7B 版本,未來還將開源 32B 版本。Qwen2.5-Math 支持使用思維鏈和工具集成推理(TIR)解決中英雙語的數學題,是迄今為止最先進的開源數學模型系列。本次開源了 1.5B、7B、72B 三個尺寸和一款數學獎勵模型 Qwen2.5-Math-RM。 

Qwen2.5 模型支持高達 128K 的上下文長度,最多可生成 8K 的內容。它們還擁有強大的多語言能力,支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 種以上語言。

在多模態模型領域,備受期待的視覺語言模型 Qwen2-VL-72B 正式開源!Qwen2-VL 具備強大的視覺理解能力,能夠識別不同解像度和長寬比的圖片,還可以理解長達 20 分鐘以上的影片內容。同時,它還支持自主操作手機和機器人的視覺智能功能,展現了高度靈活的應用場景。 

Qwen2-VL-72B 在權威測評 LMSYS Chatbot Arena Leaderboard 成為全球得分最高的開源視覺理解模型

Qwen-Max 全方位升級

現在,通義官網和通義 APP 的後台模型都已切換為 Qwen-Max,繼續為所有用戶免費服務。你還可以通過阿里雲百煉平台調用 Qwen-Max 的 API,親自體驗它的強大實力。

那麼,Qwen-Max 到底有多厲害呢? 

相比上一代模型,它在訓練中使用了更多的訓練數據、更大的模型規模,並進行了更深入的人類對齊,最終實現了智能水平的飛躍。在 MMLU-Pro、MATH、GSM8K、MBPP、MultiPL-E、LiveCodeBench 等十多個權威基準測試中,Qwen-Max 的表現已經接近 GPT-4o,尤其是在數學能力和代碼能力上,甚至超越了 GPT-4o!要知道,數學和代碼所代表的推理能力可是大模型智能的核心體現。

更令人興奮的是,與 2023 年 4 月的初代通義千問大模型相比,Qwen-Max 的理解能力提升了 46%、數學能力提升了 75%、代碼能力提升了 102%、抗幻覺能力提升了 35%、指令遵循能力提升了 105%。還有一個更加驚喜的數據,模型與人類偏好的對齊水平實現了質的飛躍,提升了 700% 以上。這意味著 Qwen-Max 不僅更聰明,還更懂你!