讓AI做高考數學最難的解答題,這4家拿到滿分
昨天,我們讓國內的幾個大模型做了今年的高考數學題(全國一卷),大家都很想看看國內和國外的大模型同台競技,然後看看排行。

行,沒問題,今天就多搞點大模型來對比。
但是這次我們就不測簡單的題了,就專門測解答題,畢竟解答題是數學考試中最難的部分,也是分值最高的部分,同時也最考驗模型的數學能力。
本次參考的大模型考生有:DeepSeek-R1(問小白版)、豆包Seed1.5、Qwen3、混元T1、Kimi K1.5、智譜Z1、躍問Step-R1、訊飛星火X1、GPT o4-mini、Gemini 2.5 pro(0605)、Claude 4、Grok3,全部為推理模型。
缺考考生依舊為DeepSeek官方版(不能上傳圖片)和文心X1-Turbo(上傳圖片必須打開聯網功能)。

考試規則
考試規則基本還是昨天的規則,我也給大家放在下面,畢竟有很多朋友可能沒看過昨天的貼。
以下是考試規則:
1.本次測試直接用圖片輸入,不改變題目內容,也不做任何Prompt引導。
2.本次題型全部為解答題,而且選擇的是解道題的最後兩道,沒有什麼別的意思,單純是因為這兩道最難。
3.解答題第一題有兩個問,計40分(其中第二問中兩個小問各計10分),解答題第二題有三個問,計60分,這樣剛好是100分,答錯一個小問扣20分。
4.各模型每題只跑一次,畢竟現實中,每位考生也只有一次的作答機會。
5.將超時問題加入評判標準,如果模型陷入無限循環則計為0分。
6.所有模型都選擇推理模式,不開聯網,不允許寫代碼沙盒計算(相當於帶計算器)。

考試試題
本次考試共兩題,都是解答題,選自全國卷一。
1)解答題一

2)解答題二


考試結果
1)解答題一
標準答案:

問小白版DeepSeek-R1,依舊做題做到一半就歇菜了,我估計是Token被限制了。

豆包Seed1.5全對。

Qwen3錯了第二問的第二小問。

混元T1全對。

Kimi K1.5也是錯了第二問的第二小問。

智譜Z1全對。

躍問Step-R1也是錯了第二問的第二小問。

訊飛星火X1全對。

GPT o4-mini只答對了第一問,差點答對第二問的第一小問,只差一個正負號的差距。

Gemini 2.5pro全對。



Claude 4 sonnet只答對了第一問。

Grok3不僅思考時三個問題就全做錯了,回到答案時更是只回答了一個就停下了。

國內的,豆包Seed1.5、混元T1、智譜Z1、訊飛星火X1都是全對,國外只有Gemini全對。
國內還有三個同樣只錯了第二問的第二個小問的,要不是都算出來不一樣,我都要判他們抄襲了。
2)解答題二
標準答案:

問小白版DeepSeek-R1還是做題做到一半又歇菜了,這給每個問題的Token也分配的太少了吧。

豆包Seed1.5全對。

Qwen3錯了第三問。

混元T1全對。

Kimi K1.5又是做題做到一半就歇菜了,應該也是分配給每個問題的Token用完了。

智譜Z1錯了第二問。

躍問Step-R1錯了第二問和第三問。

訊飛星火X1全對。

GPT o4-mini全對。

Gemini 2.5 pro全對。



Claude 4 sonnet錯了第二問和第三問。

Grok3錯了第二問。

本題國內模型全對的有豆包Seed1.5、混元T1和訊飛星火X1,國外的GPT o4-mini和Gemini 2.5 pro也是全對,錯的就五花八門了,一二三問都有模型出錯。
最後統計下來,所有大模型的得分如下:


寫在最後
看來做數學題這一方面,豆包Seed1.5、混元T1、訊飛星火x1和Gemini 2.5 pro確實是個中好手,一題沒錯拿了滿分。

第二梯隊則是智譜Z1和GPT o4-mini,都按到了80分這個優異的成績。
第三梯隊則是Qwen3,至少是達到及格分以上了。
第四梯隊有Kimi K1.5、躍問Step-R1、Claude 4 sonnet和Grok 3,都沒及格。
至於0分的DeepSeek,我相信這肯定不是它的真實實力,但是沒辦法,答題停止是測試中真實發生的情況,我也改變不了。

總的來說,國內國外都有有優秀的數學能力的大模型,但還是能夠看出有些大模型的數學能力依然差了那麼一截。最後我想「抽水」的是,為什麼DeepSeek和Kimi給定的Token連一道題都跑不完啊。
我希望明年再來一輪測試,以目前AI發展的速度,我估計到時候所有大模型做高考數學題都是沒有難度的了。
最後的最後,我希望不要因為AI越來越牛使得我們失去創造力與學習能力,大家要永遠走在學習的道路上,要永遠保有一顆對未知事物的好奇心。