人類最後一次考試,AI慘敗正確率<10%!數百頂級專家聯手出題,DeepSeek竟是王者

新智元報導  

編輯:KingHZ

【新智元導讀】AI模型可能並沒有想像中強大。在最新的AI基準測試「人類最後一次考試」中,所有頂尖LLM通過率不超過10%,而且模型都表現得過度自信。

捍衛「人類智慧」最後一戰!

剛剛,Scale AI和Center for AI Safety(CAIS)公佈了「人類最後一場考試」結果!

新基準全稱「人類最後一次考試」(Humanity’s Last Exam),簡稱「HLM」,包含3000個問題,由數百位領域專家開發,用於追尋人類知識推理的邊界。

目前,最好的模型,準確率也小於10%,而且自信「過頭」。

具體結果如下:

Scale AI和CAIS同時公佈了相關論文、數據集和測試代碼。

項目鏈接:https://lastexam.ai/項目鏈接:https://lastexam.ai/

網民對這項工作也不吝讚賞:

「人類最後一次考試」

為了評估AI的能力的進展,已發佈了多個數據集,針對語言模型,根據「Paper with code」網站統計,就有165個相關數據集。

然而,目前的基準測試難度並未跟上進步的步伐:LLM在一些熱門基準測試(如MMLU)上已能達到90%以上的準確率,這限制了對最新LLM能力的有效評估。

為此,Scale AI和CAIS推出了名為「人類最後的考試」(Humanity’s Last Exam)的多模態基準測試,旨在成為這類封閉式學術基準測試的最終版本,覆蓋廣泛的學科領域。

測評一覽

「人類最後一次考試」(HLE)包含兩種問題格式:

精確匹配題(Exact-Match Questions):模型需要輸出一個完全匹配的字符串作為答案。

選擇題(Multiple-Choice Questions):模型需要從五個或更多選項中選擇一個正確答案。

此外,HLE是一個多模態基準測試,其中10%的問題要求理解文本和圖像參考,80%的問題為精確匹配題,其餘為選擇題。

該數據集包含3000道難度較高的問題,涉及100多個學科。

各學科分類,大體如下:

圖3:HLE高級類別分組。圖3:HLE高級類別分組。

大部分問題已公開發佈,同時保留了一部分私有測試集,用於評估模型是否存在過擬合現象。

在項目網站上,公佈了不同領域/科目的8個樣題,包含化學、物理、數學、計算機科學、語言學等。

比如,其中的一道常識性問題:

希臘神話中,伊阿桑治的曾祖父是誰?

具體樣題,參考下列圖片。

創建流程

為了吸引高質量的問題提交,HLE設立了總額50萬美元的獎金池,並提供以下獎勵:

頂級問題獎勵:每道排名前50的問題將獲得5,000美元獎金。

優質問題獎勵:接下來的500道問題,每道將獲得500美元獎金。

此外,任何被HLE接受的問題提交者,都有機會成為相關論文的共同作者,激勵了眾多高水平的專家參與,特別是那些擁有高級學位或在相關技術領域擁有豐富經驗的專業人士。

總體而言,總收集了超過70,000個試驗性問題,其中13,000個問題被選出來供人類專家評審,進而最終確定在公開考試中發佈的3,000個問題。

近1000名專家成功提交了問題。

他們來自50個國家的500多個機構,其中大多數貢獻者是活躍的研究員或教授。

問題涵蓋了多種格式,包括純文本和多模態難題,整合了圖像和圖表。

為了確保問題的高質量和難度,HLE的數據集通過以下流程創建:

問題篩選:首先接收問題提交,這些問題專門前沿的LLM設計,LLM通常難以正確回答。

迭代優化:在專家同行評審的幫助下,反復修改和優化提交的問題,提升問題的複雜性和準確性。

手動審核:由組織者或由組織者培訓的專家,手動審核每道問題,確保問題符合測試要求。

保留私有數據集:除了公開數據集,還保留了一部分私有測試集,用於評估模型在公開基準測試上的過擬合和可能的作弊行為。

HLE的數據集創建流程HLE的數據集創建流程

具體結果

研究者共測評了7個模型,包括GPT-40、Grok 2、Claude 3.5 Sonnect、Gemini 1.5 Pro、Gemini 2.0 Flash Thinking、o1和DeepSeek-R1。

表1顯示,所有前沿模型在HLE中的準確率都很低,所有模型的校準表現都很差,反映在較高的RMS校準誤差分數中。

表1:不同模型在HLE上的準確率和RMS校準誤差。表1:不同模型在HLE上的準確率和RMS校準誤差。

具有推理能力的模型,通常需要顯著更多的推理時間和計算資源。

為了更清晰地瞭解這一點,對各模型生成的補全(completion)token數量進行了分析。

正如圖5所示,推理模型Gemini  2.0 Flash  Thinking、o1和DeepSeek-R1為了提升性能,需要生成的token數量遠遠超過非推理模型GPT-40、Grok 2、Claude 3.5 Sonnect以及Gemini 1.5 Pro(見圖5)。

圖5:不同模型的平均補全(completion)token數量圖5:不同模型的平均補全(completion)token數量

展望未來

在「人類最後一次考試」(Humanity’s Last Exam,簡稱 HLE)中,目前的LLM表現仍然非常差。

但從發展歷史來看,基準測試的飽和速度非常快——模型往往在短短的時間內,從接近0的準確率躍升至接近100%的表現。

鑒於AI發展的快速步伐,在2025年底前,模型有可能在HLE上超過50%的準確率。

AI實驗室有新榜單可刷了,躍躍欲試AI實驗室有新榜單可刷了,躍躍欲試

如果模型在HLE中獲得高分,將表明模型在封閉式、可驗證的問題以及前沿科學知識方面的專家級表現,但這並不意味著模型具備自主研究能力或「通用人工智能」(AGI)。

HLE測試的是結構化的學術問題,而非開放式研究或創造性問題解決能力,因此它更側重於技術知識和推理能力的衡量。

作者在論文表示:「雖然HLE是給予模型的最後一場學術考試,但它遠非AI評估的最後一個基準。」

參考資料:

https://x.com/DanHendrycks/status/1882433928407241155

https://x.com/alexandr_wang/status/1882481229708358027

https://scale.com/blog/humanitys-last-exam-results

https://lastexam.ai/

https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Publication%20Ready%20Humanity’s%20Last%20Exam.pdf