當AI遇上高考數學題,4個大模型「考生」「成績單」出爐

2024年高考已順俐落幕,讓大模型寫高考作文題已不稀奇,大眾通常認為大模型更擅長文科,不擅長進行數學計算和邏輯推理。當AI遇上高考數學題,大模型化身為「考生」答數學題,會交出怎樣的答卷?

我們選取了4名有代表性的大模型「考生」,分別是九章大模型、星火大模型(v3.5版本)、文心一言(3.5版)、智譜清言(GLM-4),選取2024全國高考數學新課標1卷客觀題部分進行測評。大模型的數學能力究竟如何?其在數學學科教育場景中能夠發揮多大價值?結果值得期待。

四位「考生」表現參差不齊

此次測評選取的4個大模型中,星火大模型(v3.5版本)、文心一言(3.5版)、智譜清言(GLM-4)為通用大模型,九章大模型則為以數學能力見長的教育垂類模型。

在試題選擇上,為便於評價統計,統一選擇了2024年數學新課標Ⅰ卷中的14道客觀題進行測試,其中包括8道單選題、3道多選題、3道填空題。此外,由於試題中存在圖形、大量數學符號,為防止以文本形式輸入題目產生偏差,統一選擇以圖片形式呈現題目並提供給大模型進行解答。

四個大模型在此次「考試」中,整體表現如何?

據新京報記者統計,14道題目中,九章大模型共答對11道,星火大模型共答對12道,二者不相上下。而另外兩位差別較大,文心一言共答對1道,智譜清言共答對4道。

最終統計結果顯示,四位「考生」此次作答正確率從高到低依次為星火大模型(85.71%)、九章大模型(78.57%)、智譜清言(28.57%)、文心一言(7.14%)。

四個大模型正確率測評統計數據。製圖/新京報記者 馮琪四個大模型正確率測評統計數據。製圖/新京報記者 馮琪

從不同題目類型的答題情況來看,九章大模型8道單選題全部答對,3道多選題答錯2道,3道填空題答錯1道;星火大模型單選題全部答對,多選題答錯2道,填空題全部答對;文心一言僅答對1道單選題;智譜清言僅答對3道單選、1道多選(另有3道題目因大模型提示無法識別圖片未參與作答)。

需要指出的是,由於測試的是客觀題,上述正確率僅根據大模型作答的最終選項進行判斷和統計,不涉及解題過程。但記者在測評過程中注意到,的確存在不少選項正確、但解題過程存在差錯及瑕疵的情況。

部分大模型「蒙」對答案 計算推理過程存在明顯錯誤

正確率的背後受多個維度能力影響,而數學能力是此次測評關注的核心。在測評過程中記者注意到,幾位「考生」在題目理解能力、計算推理能力以及解析過程的詳略上,均存在差異和不同特徵。

就正確率而言,星火大模型表現較好,但部分題目的計算推理過程卻經不起推敲,雖然結果正確,但過程中出現了明顯錯誤。例如單選題第1題中,星火大模型的解題步驟中提到「2不在區間(−2.236,2.236)(−2.236,2.236)內(因為它超過了上界)」,存在明顯謬誤,但最後卻「蒙」對答案。再如單選題第2題,一位數學專業人士看到解題過程後評價稱「推理的上下兩行公式之間沒有任何關聯,也無法推導得出這個答案,為何最終選出了正確選項,令人匪夷所思。」

九章大模型的部分解題過程也存在瑕疵。在一道多選題中,九章大模型在推理中明明認為C選項錯誤,但最後又把C選為正確答案,「這個表述上下文之間沒什麼邏輯關係,讓人摸不到頭腦。」上述數學專業人士指出。

如果看看正確率排名倒數第一的「考生」文心一言的試卷,令人匪夷所思的地方就更多了。看完這位考生答對的唯一一道題目,上述專業人士稱,解題過程中連基本的輸入都有多處錯誤,能得出正確答案可能只是「歪打正著」。

測評中可以發現,文心一言具備讀取圖片內容的能力,但無法識別僅帶有複雜分數的公式和圖形。且讀取後出現了理解錯誤,例如單選題第3題,明明成功讀出題目中的「⊥」符號為「垂直」,卻在後面的步驟中理解為「平行」(題面中未出現任何平行相關字眼或符號),經提示,文心一言發現理解錯誤,卻在再次解答時又出現理解偏差。

實際上,從單選題第5題的答題情況不難看出,文心一言解答數學題並不是用數理邏輯,而是試圖用文字論證的方式去猜測一個接近的結果。在多次提示下,它仍然執著於靠猜測來答題——「這個計算過程並不是題目所要求的,因為題目只需要我們根據給定的選項來選擇答案。」

文心一言幾乎對每一題都進行了詳細的推理,但最終大部分題目都得出了錯誤的答案。在第11題,文心一言非常坦誠地做出答覆,並揭示了大模型處理數學問題背後的本質:「由於我們沒有具體的數學工具或方程來直接進行計算,只能根據給定的信息進行邏輯推理。因此,我無法確定任何選項的正確性。」對於第12題,文心一言也告知稱「我只能提供解題的思路和步驟,而不能直接給出確切值。」

智譜清言在部分題目中也存在類似的問題。在第12題中,經過一番分析後,智譜清言告訴用戶無法計算出結果。在第13題中,智譜清言重覆地分析、發現問題、重新審視問題,又一遍一遍地發現行不通,進行了十輪以上的死循環,直到人工點擊暫停才停下。

面對多選題,能否自行判斷每個選項正確與否、有幾個選項符合題目要求,對大模型來說也是一個考驗。

經測試,九章大模型、星火大模型、智譜清言均能夠在未提示此題目為多選題的情況下,識別出多個正確選項;而文心一言在這方面稍遜色,且在提示某題目為多選題的情況下,仍然只選出一個選項(且是錯的)。

根據此次測評的整體答題情況,一位不願具名的數學教研專家對四個大模型的表現分別作出點評。他認為,其中,九章大模型回答較為簡單,缺少深入分析,部分題目的表達力度也比較低,回答也不夠全面。星火大模型的分析有一定的深度和見解,但有些地方的回答不夠簡潔,有的題目的回答不夠準確,在表述和數學符號的應用上存在一些問題。

文心一言(3.5版)思考比較全面,方方面面都會涵蓋,由此推測前期建模分類分得比較細,語言表達相對來說也比較流暢。但回答特別冗長,也沒有重點,答案也存在一些偏差。智譜清言的解答比較簡潔,一般會直接回應題目,也有一定的邏輯性和條理性,但答案不是特別詳細,也沒有深入分析。有些題目的回答和標準答案的匹配度不高,有些題目雖然答對了,但會漏掉一些關鍵點。

大模型在「數學圖形識別及圖文關係理解」等方面存在短板

當大模型應用於教育場景中,除準確性這個核心要求外,如何啟發學生思考、對學生進行引導也備受關注。從這個角度看,四個受測大模型均能夠做到「不直接給出答案」,而是呈現解題過程,這是有別於傳統產品「拍照搜題」之處。

在啟發引導方面,九章大模型能夠依次進行分析、詳解、點睛,最後才會給出答案,但在部分題目關鍵重難點步驟一帶而過,需要追問才會展開解答。星火大模型也能夠給出解題步驟及正確結果,但較少呈現每一步背後的思路和思考邏輯;智譜清言可以從入手點開始一步一步引導解答,最終給出正確答案,但偶有分析錯誤、重新分析的情況出現;而文心一言在答題的每一步都會做詳細的推理分析,但分析方嚮往往是錯誤的。

題目的識別讀取對解題效率有較大影響。此次測試統一採取上傳題目圖片的方式由大模型進行識別讀取,也考驗著大模型的圖片處理能力。

對於多選題第11題,四個大模型均未能成功識別,也是唯一一道讓四個大模型「全軍覆沒」的題目。可以看到,四個大模型在數學圖形識別及圖文關係理解上,普遍存在短板。

九章大模型在圖片題目識別上,會先在輸入文本框中識別讀取出題面,並以文本形式呈現,用戶可在框內確認題目的準確性。若發現識別錯誤,點擊即可出現數學符號的輔助輸入工具欄,進行編輯修改,防止題目讀取錯誤。

星火大模型在圖片題目識別上亦未出現明顯障礙,但由於並不顯示識別內容,而是直接作答,因此無法確定識別結果是否影響了答題。智譜清言則在多道題目中均給出「未能識別」的反饋,需要將題目以文本形式進行人工輸入,方可進行後續解答。文心一言對於圖片及數學符號的識別略優於智譜清言,但複雜分數公式、圖形亦識別不佳。

記者在測評過程中發現,幾個大模型對上下文語境及語義的理解能力也存在差異。這一能力在教育場景中則關乎與學生的互動能否順利達成。

記者注意到,文心一言在答數學題能力上雖然遜色,但通過一系列的追問、對話可以發現,這位「考生」對語義語境的把控能力非常優秀,很容易明白用戶在說什麼,在用戶補充提醒的時候,它很快就可以知道根據新信息去解釋上面的題目。

如果說文心一言是個不錯的「文科生」,那九章大模型和星火大模型可以說是地地道道的「理科生」,雖然非常擅長解題,但上下文語義語境的理解是它們的弱勢。

例如,當用戶對星火大模型提出「上面這道題可以再詳細分析一下嗎」時,星火並不能理解指向的是什麼,而是回答「很抱歉,由於我無法看到您提到的具體問題,所以無法為您提供更詳細的分析。請提供問題的詳細信息,以便我能夠更好地幫助您。」

再如,當用戶對九章大模型追問「請你檢查一下這道題,D選項到底對不對」時,九章並不明白用戶問的是什麼,回應稱「當然可以,請您提供題目的具體內容,包括選項D的表述,我會盡力幫助您檢查。」說明其比較擅長解題,但很難聯繫上下文語境語義來與用戶互動對話。

大模型的數學能力取決於算法和數據量

在大模型這一新事物面世初期,不少網民用開源的大模型去測試一些簡單數學題,發現很多答案並不準確。與自然語言理解不同,大型語言模型在解決算術推理任務時性能欠佳。

九章大模型是此次四位「考生」中唯一一個、也是國內首個專為數學打造的大模型。2023年5月,好未來公佈正在進行自研數學大模型的研發,是以解題和講題算法為核心的數學垂直領域大模型,其官網顯示,其數學計算能力已覆蓋小學、初中、高中的數學題,題目類型涵蓋計算題、應用題、代數題等多個類型。

為何不同模型的正確率及使用體驗會存在差別?

中國社科院新聞與傳播研究所所長胡正榮指出,大模型雖然是語言模型,但這個語言不是人們通常理解的字面意思,音頻、解題等都是大模型可以做的。從理論上看,數學大模型這個技術方向是可行的,但最終結果如何,取決於兩個因素,一是算法是不是足夠好,二是是否有足夠量的數據做支撐。

數據是大模型最基本的要素之一,如果要讓大模型解題精準,那麼訓練大模型的數據量需要足夠大。「正確率的差別,一方面是因為輸入的數據量的差別造成的。」之所以大模型解數學題會出錯、沒有達到理想效果,就是因為訓練的題庫不夠大,數據量越大、質量越高,精準度就會越好。

另一方面,胡正榮也強調了算法的重要性。「如果大模型的算法不夠聰明,不是真正的數學思維,也會影響到答題的正確率。」

北京教育科學研究院基礎教育教學研究中心中學數學教研員丁明怡指出,通過四位「考生」的答題狀況可以看到,都存在答案正確但過程錯誤的情況。從當下情況來看,如果應用到真實教育場景中,無論是給老師用還是給學生用,都還有較大的提升空間。

此次測評暴露出幾個大模型存在的幾個普遍問題。第一,題目識別上存在比較大的困難,涉及一些數學符號、分式等會影響識別效果,還有一些圖形、表格識別存在問題,以及一些數學專業術語的表述識別也不夠精準。

第二,幾個大模型在邏輯推理能力上還存在不足。邏輯推理強調連貫性、嚴謹性,但幾個大模型這方面做得不夠好,例如,經常會出現跳步,或者關鍵步驟缺失的情況。有時候不見得是計算錯誤,而是邏輯推理出現問題,導致最後結果錯誤。

第三是解題方法較為單一。例如此次測試的第十二題,實際上是一道中等偏下難度的題目,通常會基於雙曲線的定義和性質進行求解,這樣可以避免比較複雜的坐標計算、聯立方程求解等,可以大幅減少計算量、節省考試時間,但是這幾位「考生」在答這道題時都使用了常規方法,計算量很大、步驟也特別多。大模型似乎只能按照固定的模板去答題,而不能依據題目的特徵因地製宜地選擇最優方法。「如果用這樣的方法指導學生,對於學生知識學習和知識結構建立都是有弊病的。」

若用於數學教育,大模型還需優化對學生的啟發引導

針對上述大模型存在的普遍問題,丁明怡提出多方面建議。

首先是要提升題目的識別能力,包括術語、符號、圖形、表格等等的識別。第二,建議加強大模型的邏輯推理能力訓練,通過算法的優化提升邏輯的嚴謹性、連貫性,改善跳步、表述不嚴謹的問題。第三,建議優化解題方法,能夠運用概念應用、數學結合等方法,來對學生進行指導。實際教學中,無論是代數還是幾何,都要依靠數形結合的方法讓學生快速理解、簡潔解題。建議大模型提升畫圖技能和應用能力,包括幾何圖形、函數圖形、統計圖形等。

丁明怡特別強調,還有特別重要的一點,要提高大模型的思維能力。「在創新性題型和情景創設性題型上,大模型大多數不太擅長。這類題一般會基於比較複雜的現實情境,表述形式也比較綜合,可能會有文字、表格、圖像等,而且需要解決真實的問題,比如提出最優策略或者建議等。這種題目是沒有答題模板的,考查學生的閱讀能力和問題解決能力。實際上這對大模型也提出了更高的要求,需要真正讀懂這道題說的是什麼,然後再把它轉化成數學問題,再運用數學知識進行解答,隨後再回到現實問題中提出解決方案。這方面大模型還有比較大的提升空間。」丁明怡解釋道。

另外丁明怡提到,如果大模型應用到數學教育場景中,對於學生的啟發引導還需優化。

「比如,拿到一道題,希望能夠先講一下題目所涉及的知識點和知識結構,再去講這道題求解的方法,假如說基於定義性質來求解,可以一邊畫圖,一邊結合知識結構進行分步講解,得出答案後,還可以再進行解法比較,提出更優的方法等。既有前期知識框架的分析,又有後期一步步的啟發以及和前期框架之間的聯繫。」在丁明怡看來,這才是大模型應用於教育場景中的價值體現。

新京報記者 馮琪

編輯 繆晨霞 巫慧 校對 付春愔