10款大模型做北京中考數學題,4款國產大模型表現超ChatGPT
【TechWeb】6月26日消息,2024年北京市初中學業水平考試今天結束,中考數學向來是學生和家長關注的重點,而數學試卷主要考查學生對初中數學主幹知識的掌握情況和在知識學習過程中核心素養的發展情況。
此前,我們曾用“9款大模型做高考數學題”,但是效果一般。
現在,降低難度,用大模型做北京中考的數學題,它們的表現又如何呢?
選取百度文心一言、阿裡通義、騰訊元寶、字節豆包、ChatGPT,百川智能百小應、零一萬物萬知、智譜清言、月之暗面的Kimi,好未來九章大模型總計10款大模型來答題。
其中,零一萬物萬知PC端不支援上傳圖片/拍照,這裏採用了萬知微信小程式來參與答題。
一共選擇數據卷中的3道題進行測試。
1、選擇題
正確答案:A
2、填空題
正確答案:
第一空 60
第二空 C-A-B-D
3、解答題
正確答案:符合。因為改造後A類物質排放量為34mg/km,小於標準要求的不超過35mg/km。
統一測試方法:在大模型對話框輸入上述3道題的圖片,大模型進行圖片識別後,再進行答題,最終看答題結果是否正確。解答題除了看結果外,還要考察解答過程是否正確。
測試結果如下:
1、九章大模型、元寶、百小應、智譜清言答對3問,表現較好;
2、通義、豆包、Kimi、ChatGPT答對2問;
3、文心一言、萬知小程式只答對1問。
下面附上各AI產品對三道題的答題情況:
文心一言3.5解答結果
1
2
3
通義
1
2
3
元寶
1
2
3
豆包
1
2
3
百小應
1
2
3
萬知
1
2
3
智譜清言
1
2
3
Kimi
1
2
3
九章大模型
1
2
3
ChatGPT
1
2
3
![](http://n.sinaimg.cn/spider20240626/725/w777h748/20240626/7430-3dff3d39738a4d4d913cdc24e3079778.png)