AI參加河南高考:四款AI衝上文科一本線 理科成績不盡人意

來源:正觀新聞

6月24日,高考新課標Ⅰ卷全科目大模型評測報告出爐。數據顯示,GPT-4o 以562分排名文科總分第一,字節跳動旗下的豆包成績是542.5分,排名國產AI首位,其後依次是百度文心一言4.0的537.5分,以及百川智能「百小應」的521分。

本次大模型高考評測與河南省考卷完全相同。根據當天公佈的河南高考錄取分數線,文古般科一批錄取分數線為521分,GPT-4o超出41分,豆包等三款國產AI也成功衝上一本線。

而根據最新河南高考分數段統計數據,GPT-4o的562分在文科考生中排名8811名,相當於人類考生的前2.45%,豆包則處於前4.27%的位置。在過去一年多時間里,國產AI技術能力獲得了長足進步,目前已經接近國際頂尖大模型的水平。

文科已達優秀水平,字節豆包排名國產第一

語文作為文科的重要組成部分,是大模型與人類考生展開激烈競爭的舞台。國產大模型憑藉對中文語言的獨特理解和處理能力,表現可圈可點。百小應、字節豆包和騰訊元寶佔據了前三的位置。豆包更是以平均分52分的成績,拿下作文寫作最高分。

負責本次閱卷的是北京市級骨幹教師、懷柔區語文學科帶頭人夏老師,她曾多次參加全國高考語文閱卷。夏老師指出,Al寫出的文章大多有清晰完整的結構,有邏輯性,語言通順流暢,但「其理性有餘,感性不足,缺乏感情色彩,自然就缺乏感染力」,這成為了大模型在語文科目中進一步提升的關鍵所在。

英語考試中,大模型在閱讀和語言運用等客觀題上展現出了較高的水平,GPT-4o、百小應、通義千問等甚至獲得了 80 分的滿分,豆包和文心4.0 也接近滿分。但在 40 分的寫作考試中,最高分僅為 29 分,由 GPT-4o 和百小應獲得。大模型的英語寫作主要在表達的豐富度和細節處理上有所欠缺,若能在這些方面有所突破,未來衝擊高考英語寫作滿分並非遙不可及。

在由歷史、地理、政治組成的文綜考試中,大模型們的表現各有千秋。GPT-4o 以 237 分的總成績展現出了較強的綜合能力,平均得分達到 79 分,超越了多數人類考生。國產大模型中,字節豆包拔得頭籌,取得了 224.5 分的優異成績。尤其是在歷史科目中,豆包拿到了 82.5 分,在所有參與評測的 9 款大模型中位居第一。

不過,在政治考試中,GPT-4o 憑藉 88 分的高分令人意外地奪魁。而地理考卷由於存在大量圖片問題,給眾多大模型帶來了不小的挑戰,最終圖像理解能力較強的 GPT-4o 獲得了最高分,但也僅有 68 分,在一定程度上影響了各家大模型的文綜總成績。

理科成績不盡人意

相比文科,大模型的理科成績則不盡如人意與人類頂尖考生差距十分顯著。

在數學考試中,9 款大模型產品中僅有 GPT-4o、文心一言 4.0 和豆包獲得 60 分以上的成績(滿分 150 分)。據測試機構透露,豆包等大模型能準確運用求導公式和三角函數定理,但在面對較為複雜的推導和證明問題時,往往難以得分。

在化學和物理考試中,情況更為嚴峻,平均分數分別只有 34 分和 39 分。化學單項最高分 49.5 分由豆包獲得,而 GPT-4o 僅有 42 分。在物理考試中,一道基於常識「時間不會倒流」就能輕易排除錯誤選項的送分題,大模型卻幾乎全軍覆沒,凸顯了大模型在應對考試靈活性方面的不足。

綜合來看,此次大模型的高考評測結果表明,在過去一年多的時間里,國產 AI 技術在某些領域取得了顯著進步,已經逐漸接近國際頂尖大模型的水平。但在數理學科方面,大模型仍面臨著巨大的挑戰,需要在算法優化、數據訓練等方面持續發力,不斷提升自身的能力,以更好地適應複雜多變的知識考查和應用場景。