哪裡不會掃哪裡!全球最強數學大模型發佈人人可玩Demo,阿里多模態模型加持,中文適用

衡宇 發自 凹非寺

量子位 | 公眾號 QbitAI

/* */

現在,最強數學大模型,人人都可上手玩了!

/* */

一覺醒來,阿里千問大模型團隊發佈了Qwen2-Math的Demo,抱抱臉在線可玩

驚喜的是,如果嫌輸入數學公式比較麻煩,可以把想問的題截圖or掃瞄,上傳即可解題。

整得挺方便。

試玩界面上明確寫著,「這個試玩界面的OCR功能,由阿里千問大模型團隊Qwen2-VL提供支持;數學推理能力,由Qwen2-Math支持。」

阿里高級算法專家林俊暘也在Twitter評論區進一步解釋:

目前,Qwen2-VL和Qwen2-Math還是各自負責一部分。

但不久的將來,我們會把多模態能力和數學推理能力結合到一個模型上喲。

不少網民對這種交互模式挺買賬:

歪瑞古德!用圖像來上傳,然後等大模型解決問題,喜歡!

那麼,最強數學大模型Qwen2-Math,上手效果怎麼樣?

效果怎麼樣?這就玩一把

是時候讓Qwen2-Math過五關斬六將了!

先來幾道比較簡單的計算題開開胃。

提前說明,兩位體驗過程中,Qwen2-Math不是一邊算一邊顯示的,而是計算完畢後直接顯示過程和結果。

(而且應該是越來越多人開始玩了,結果生成時間逐漸拉長)

第一題:「計算AxA+A=240」中,A的值。

Qwen2-Math給出了正確答案,A=14或A=-16。

第二題:給定a的值,計算等式的結果。

Qwen2-Math計算出,答案是0,也是對的。

第三題:(A+3)(A+4)(A+5)=120,求A的值。

Bingo!答案是1。

OK,熱身結束,給Qwen2-Math點難度看看。

那就來一道已經是(數學)大模型測評的標配:

9.9和9.11哪個更大?

Qwen2-Math自信回答:

9.9比9.11更大!

那就再上點難度!

扔給它一道截至目前,只有GPT-4o答對過的題:

一個外星人來到地球後等可能選擇以下四件事中的一件完成:

1、自我毀滅;

2、分裂成兩個外星人;

3、分裂成三個外星人;

4、什麼都不做。

此後每天,每個外星人均會做一次選擇,且彼此之間相互獨立。

求地球上最終沒有外星人的概率。

這道題,Qwen2-Math花費了約30秒左右的時間,給出答案:1。

很遺憾,答案是錯誤的,正確答案是√2減1。

我們在各大平台的評論區逛了一下,除了計算錯誤以外,還有另一種可能導致答案不正確——

那就是Qwen2-VL在識別題目的時候,本身就出錯了。

錯在第一步,這樣的話大模型得出的肯定就不是正確答案。

同時,林俊暘還在網民的評論區表示:

咱們Qwen2-Math目前還不能做幾何題

用中文提問也可以

這次的主角Qwen2-Math,基於通義千問開源大語言模型Qwen2研發,由阿里千問大模型團隊在十天前發佈。

它專用於數學解題,並且能夠解決競賽級試題。

Qwen2-Math總共有三個參數量的版本:

72B,7B和1.5B。

在Qwen2-Math-72B的基礎之上,千問團隊還微調出了Instruct版本。

這也是Qwen2-Math的旗艦模型,它是一個數學專用的獎勵模型,將獎勵信號與正誤判斷信號結合作為學習標籤,再通過拒絕采樣構建監督微調(SFT)數據,最後在SFT模型基礎上使用GRPO方法優化。

Qwen2-Math-72B-Instruct以84%的準確率處理了代數、幾何、計數與概率、數論等多種數學問題。

並且一經發佈就在數學大模型中「登基」,在MATH數據集上比GPT-4o多得了7分,按比例算高出了9.6%。

直接超越開源Llama 3.1-405B以及閉源的GPT-4o、Claude 3.5等。

截至發稿,抱抱臉上Qwen2-Math-72B-Instruct的下載量超過了13.2k。

而且有個最新發現:

雖然團隊聲稱Qwen2-Math目前還是主要針對英文場景,但如果拿中文題目去問它,Qwen2-Math還是能進行解答的

只不過是用英文回答你罷了。

據瞭解,Qwen2-Math的中英雙語版本將會在之後推出

參考鏈接:

[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

[2]https://x.com/Alibaba_Qwen/status/1825559009497317406

[3]https://x.com/JustinLin610/status/1825559557411860649