最強數學大模型易主！阿里千問新模型成績超GPT-4o，網民：這才是真「草莓」

08月09日 12:40 新浪網 news-china-auto-hilite

基爾西發自凹非寺

量子位 | 公眾號 QbitAI

最強數學大模型，現在易主！

阿里千問大模型團隊發佈的Qwen2-Math，不僅超越了Llama 3.1-405B，也戰勝了GPT-4o、Claude 3.5等一系列閉源模型。

而且還會解決競賽級試題，在GPT-4只能做對一道的AIME 24中，Qwen2-Math答對的題目數量達到了兩位數。

Qwen2-Math一共有三個參數量的版本——72B，7B和1.5B。

最強的72B版本，在MATH數據集上比GPT-4o多得了7分，按比例算高出了9.6%。

7B版本也用不到十分之一的參數量，超過了72B的開源數學模型NuminaMath。

而且這個NuminaMath來頭不小，它的7B版本在全球首屆AIMO中獲獎，獎項由數學大牛陶哲軒頒發。

阿里高級算法專家林俊暘激動地宣佈，千問團隊把Qwen2模型變成了一個數學高手。

fast.ai創始人Jeremy Howard看了直呼amazing。

網民更是驚歎，原來這才是真正的「草莓」，這是開源的勝利，也是所有人的勝利。

超越GPT4o，會做競賽級試題

如前文所說，Qwen2-Math共有72B、7B和1.5B三個參數規模，分別由對應規模的Qwen2基礎模型改造而成。

在基礎模型之上，團隊使用精心設計的數學專用語料庫進行了預訓練，訓練數據包含大規模高質量的數學網絡文本、書籍、代碼、考試題目，以及由Qwen2模型合成的數學預訓練數據。

結果，在GSM8K、MATH等經典數學測試集上，Qwen2-Math-72B的數學能力都超過了405B的Llama-3.1。

這些數據集，涉及到問題涵蓋了代數、幾何、計數與概率、數論等多種類型。

除了這些英文的數據集，Qwen2-Math還專門挑戰了中文數據集CMATH，還有高考試題。

在中文數據集上，1.5B版本的成績就超過了70B的Llama 3.1，而且三個版本相當於同規模的Qwen2基礎模型，成績都有明顯提升。

在Qwen2-Math的基礎之上，千問團隊還微調出了Instruct版本。

具體來說，團隊基於Qwen2-Math-72B訓練一個數學專用的獎勵模型，將獎勵信號與正誤判斷信號結合作為學習標籤，再通過拒絕采樣構建監督微調（SFT）數據，最後在SFT模型基礎上使用GRPO方法優化。

在MATH數據集上的零樣本測試顯示，1.5B的Instruct就能取得70%的準確率，比70B的Llama 3.1還高。

此外，研究團隊還引入了難度更大的OlympiadBench、CollegeMath和英譯版高考試題等更困難的測試集。

作者讓Qwen2-Math採用了貪心（greedy）、RM@8和Maj@8三種策略，結果無論是哪一種，Qwen2-Math的成績全都超過了同規模的Llama 3.1。

中文數據集方面，Qwen2-Math還挑戰了今年最新的中高考試題，與Llama 3.1相比優勢十分明顯。

值得一提的是，為了減少測試成績當中的「水分」，千問團隊專門從訓練數據集中去除了所有和測試集重疊的部分。

而且除了精確匹配，還運用了更嚴格的13-gram去重策略，只要最長公共序列的比率應大於0.6就會被去除。

後訓練的過程也是如此，涉及的數據集，甚至測試成績中沒展示的Aqua、SAT Math，全都被從數據當中剔除。

另外，Qwen2-Math-Instruct已經具備瞭解決一些簡單的競賽級試題的能力。

比如在AIME 24的30道題當中，Qwen2-Math-72B-Instruct用rm@256策略能夠做對11道。

像GPT-4 Turbo、Claude 3 Opus和Gemini 1.5 PRo這些先進模型都只能做對一兩道。

而且最小的1.5B版本也能在rm@256的條件下做對五道題，已經超過了這三家模型。

另外，Gemini 1.5 Pro有一個專門針對數學任務的版本，但也只能做對七八道題目，Qwen2-Math-72B-Instruct是第一個做對的題目數量達到兩位數的模型。

在官方文檔中，千問團隊也展示了一些示例，比如奧賽級數學測試集Math Odyssey當中有這樣一道題目。

這道題目涉及到組合數學和圖論，具體又包括了完全圖、二部圖等概念。

此外還需要理解如何將這些概念應用於特定性質結構的構建，需要較強的抽像思維能力和對圖論結構的深刻理解。

Qwen2-Math的解決方案是這樣的，從中可以看出確實是運用到了圖論方法。

最終，Qwen2-Math正確地回答了這道題目。

△中文為機翻，僅供參考

不過，目前發佈的Qwen2-Math主要針對英文場景，中英雙語版本將會在之後推出。

另外，根據Qwen2-Math的許可協議，該模型對大部分用戶來說可以免費商用，但對於72B版本，如果每月活躍用戶數超過1億，就需要向千問團隊申請許可了。

項目主頁：

https://qwenlm.github.io/zh/blog/qwen2-math/

參考鏈接：

https://x.com/JustinLin610/status/1821554112192012291