哪裡不會掃哪裡！全球最強數學大模型發佈人人可玩Demo，阿里多模態模型加持，中文適用

08月20日 14:22 新浪網 news-china-auto-hilite

衡宇發自凹非寺

量子位 | 公眾號 QbitAI

/*

*/

現在，最強數學大模型，人人都可上手玩了！

/* 

*/

一覺醒來，阿里千問大模型團隊發佈了Qwen2-Math的Demo，抱抱臉在線可玩。

驚喜的是，如果嫌輸入數學公式比較麻煩，可以把想問的題截圖or掃瞄，上傳即可解題。

整得挺方便。

試玩界面上明確寫著，「這個試玩界面的OCR功能，由阿里千問大模型團隊Qwen2-VL提供支持；數學推理能力，由Qwen2-Math支持。」

阿里高級算法專家林俊暘也在Twitter評論區進一步解釋：

目前，Qwen2-VL和Qwen2-Math還是各自負責一部分。

但不久的將來，我們會把多模態能力和數學推理能力結合到一個模型上喲。

不少網民對這種交互模式挺買賬：

歪瑞古德！用圖像來上傳，然後等大模型解決問題，喜歡！

那麼，最強數學大模型Qwen2-Math，上手效果怎麼樣？

效果怎麼樣？這就玩一把

是時候讓Qwen2-Math過五關斬六將了！

先來幾道比較簡單的計算題開開胃。

提前說明，兩位體驗過程中，Qwen2-Math不是一邊算一邊顯示的，而是計算完畢後直接顯示過程和結果。

（而且應該是越來越多人開始玩了，結果生成時間逐漸拉長）

第一題：「計算AxA+A=240」中，A的值。

Qwen2-Math給出了正確答案，A=14或A=-16。

第二題：給定a的值，計算等式的結果。

Qwen2-Math計算出，答案是0，也是對的。

第三題：（A+3）（A+4）（A+5）=120，求A的值。

Bingo！答案是1。

OK，熱身結束，給Qwen2-Math點難度看看。

那就來一道已經是（數學）大模型測評的標配：

9.9和9.11哪個更大？

Qwen2-Math自信回答：

9.9比9.11更大！

那就再上點難度！

扔給它一道截至目前，只有GPT-4o答對過的題：

一個外星人來到地球後等可能選擇以下四件事中的一件完成：

1、自我毀滅；

2、分裂成兩個外星人；

3、分裂成三個外星人；

4、什麼都不做。

此後每天，每個外星人均會做一次選擇，且彼此之間相互獨立。

求地球上最終沒有外星人的概率。

這道題，Qwen2-Math花費了約30秒左右的時間，給出答案：1。

很遺憾，答案是錯誤的，正確答案是√2減1。

我們在各大平台的評論區逛了一下，除了計算錯誤以外，還有另一種可能導致答案不正確——

那就是Qwen2-VL在識別題目的時候，本身就出錯了。

錯在第一步，這樣的話大模型得出的肯定就不是正確答案。

同時，林俊暘還在網民的評論區表示：

咱們Qwen2-Math目前還不能做幾何題。

用中文提問也可以

這次的主角Qwen2-Math，基於通義千問開源大語言模型Qwen2研發，由阿里千問大模型團隊在十天前發佈。

它專用於數學解題，並且能夠解決競賽級試題。

Qwen2-Math總共有三個參數量的版本：

72B，7B和1.5B。

在Qwen2-Math-72B的基礎之上，千問團隊還微調出了Instruct版本。

這也是Qwen2-Math的旗艦模型，它是一個數學專用的獎勵模型，將獎勵信號與正誤判斷信號結合作為學習標籤，再通過拒絕采樣構建監督微調（SFT）數據，最後在SFT模型基礎上使用GRPO方法優化。

Qwen2-Math-72B-Instruct以84%的準確率處理了代數、幾何、計數與概率、數論等多種數學問題。

並且一經發佈就在數學大模型中「登基」，在MATH數據集上比GPT-4o多得了7分，按比例算高出了9.6%。

直接超越開源Llama 3.1-405B以及閉源的GPT-4o、Claude 3.5等。

截至發稿，抱抱臉上Qwen2-Math-72B-Instruct的下載量超過了13.2k。

而且有個最新發現：

雖然團隊聲稱Qwen2-Math目前還是主要針對英文場景，但如果拿中文題目去問它，Qwen2-Math還是能進行解答的。

只不過是用英文回答你罷了。

據瞭解，Qwen2-Math的中英雙語版本將會在之後推出。

參考鏈接：

[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

[2]https://x.com/Alibaba_Qwen/status/1825559009497317406

[3]https://x.com/JustinLin610/status/1825559557411860649