陶哲軒聯手60多位數學家出題,世界頂尖模型通過率僅2%!專家級數學基準,讓AI再苦戰數年

新智元報導  

編輯:Hjh

【新智元導讀】Epoch AI推出數學基準FrontierMath,目前前沿模型測試成功率均低於2%!OpenAI研究科學家Noam Brown說道:「我喜歡看到新評估的前沿模型通過率如此之低。這種感覺就像一覺醒來,外面是一片嶄新的雪地,完全沒有人跡。」或許,FrontierMath測試成功率突破的那一天,會是AI發展過程中一個全新的里程碑。

數學為評估複雜推理提供了一個獨特而合適的測試平台。它需要一定的創造力和精確的邏輯鏈條——通常涉及複雜的證明,這些證明必須縝密地籌劃和執行。同時,數學還允許對結果進行客觀驗證。

在鋪天蓋地的宣傳中,LLM看起來已經攻破了數學大關。但果真如此嗎?

不久前,來自蘋果的研究院團隊證明,就算是在數學這些基礎科學方面最先進的o1模型,其卓越的表現也是來源於對特定數據集針對性的持續優化。

所以為了更好的檢驗模型對於數學問題的理解與解決能力,我們需要一個更加全面而行之有效的數學測試基準。

近日,Epoch AI聯合六十餘位全世界的數學家,其中包括教授、IMO命題人、費爾茲獎獲得者,共同推出了全新的數學基準FrontierMath。其包括數百個原創的、格外具有挑戰性的數學問題,旨在評估AI系統中的高級推理能力。

研究團隊基於這個測試基準評估了六個前沿的模型,它們的成功率竟然都低於2%!

論文地址:https://arxiv.org/abs/2411.04872論文地址:https://arxiv.org/abs/2411.04872
論文特意致謝了陶哲軒為FrontierMath基準貢獻了一些問題論文特意致謝了陶哲軒為FrontierMath基準貢獻了一些問題

具體來說,這些數學問題從奧賽難度到當今的數學前沿,包含了目前數學研究的所有主要分支——從數論和實數分析中的計算密集型問題到代數幾何和群論中的抽像問題,而它們也通常需要數小時或數天的時間才能被專業數學家解決。

FrontierMath涉及的數學領域

這一測試集的發佈一下炸出了不少AI大佬。

OpenAI研究員Clive ChanOpenAI研究員Clive Chan
德撲之父,OpenAI研究科學家Noam Brown德撲之父,OpenAI研究科學家Noam Brown
Anthropic聯創Jack ClarkAnthropic聯創Jack Clark

知名AI大牛Andrej Karpathy還發了一篇長帖「Moravec悖論在大語言模型評估中的體現」:

我對這個新的前沿數學基準測試感到驚訝,因為大語言模型在其中僅能解決2%的問題。引入這個基準測試的原因是大語言模型在現有數學基準測試中表現得越來越出色。有趣的問題在於,儘管從許多評估來看,大語言模型在數學和編程等領域已經逐漸接近頂級專家的水平,但你還是不會選擇它們來完成對人類本身來講最容易的工作。它們可以解決複雜的封閉問題,只要你在提示詞中恰當地呈現問題描述,但它們在自主且連貫地解決長問題序列方面卻很艱難,而這對人類來說是非常容易的。

這就是Moravec悖論的隱性體現,他在30多年前觀察到,人類認為簡單或困難的事情,對於計算機來說可能卻恰恰相反。例如,人類對計算機下棋感到非常驚訝,但下棋對計算機來說卻很簡單,因為這是一個封閉的、確定性的系統,具有離散的動作空間、完全可觀測性等等。反過來,人類可以繫鞋帶或摺疊襯衫,並不覺得這有什麼了不起,但這實際上是一個極其複雜的傳感運動任務,對硬件和軟件的最先進技術也還是一個挑戰。這就像OpenAI前段時間發佈的魔方項目,大多數人關注的是解魔方本身(這很簡單),卻不是讓機器人用手去扭合一面魔方這種其實極其困難的任務。

所以我非常喜歡這個FrontierMath基準測試,我們應該多做一些這樣的測試。但我也認為這是一個有趣的挑戰,我們如何為所有那些「簡單」但實際上很難的事情創建評估。非常長的上下文窗口、連貫性、自主性、常識、有效的多模態輸入輸出……我們如何構建好的「簡單工作」評估?這些是你期望團隊中任何入門級實習生都能完成的事情。

除了AI大佬們在紛紛討論,網民們也炸了鍋——

網民「Chubby」表達了自己的興奮與期待!

同時,Epoch AI也採訪了費爾茲獎得主陶哲軒(2006年)、蒂莫西·高爾斯(1998年)、李察·博赫茲(1998年)以及國際數學奧賽教練陳誼廷。

他們一致認為,FrontierMath的研究問題極具挑戰性,需要深厚的領域專長。

左右滑動查看
左右滑動查看
左右滑動查看左右滑動查看

成功率低於2%

FrontierMath支持模型在評估中擁有充足的思考時間以及實驗和迭代能力。並且還可以在Python 環境中交互式地編寫和執行代碼來測試假設、驗證中間結果,並根據即時反饋改進方法。

FrontierMath的模型評估流程框架

研究團隊基於這個測試基準評估了六個前沿的模型,包括Claude 3.5 Sonnet、o1-preview和Gemini 1.5 Pro。

即便在延長思考時間(10000個token)、提供Python訪問權限以及允許運行實驗的條件下,它們的成功率仍然低於2%!

這與GSM-8K和MATH等其他流行的數學基準形成鮮明對比,在這些僅包含高中到本科數學難度的基準測試中,頂級模型現在的準確率都已經超過 90%。

當然,這在一定程度上是由於數據汙染——訓練數據中無意或有意地包含了測試數據的內容,或包含了與測試數據非常相似的數據。

這種現象會導致模型在測試時表現優異,但並非因為它真正學會了新知識或推理能力,而是因為它在訓練中「見過」測試題或其相似題。

以至於模型的測試分數表現虛高,無法真實反映其在新數據上的表現能力。

也就是說,原來的這些基準測試達到高分已經不值得吹噓了,大模型又有了新的數學大關需要攻破!

FrontierMath:評估AI高級數學推理

對於這個新的數學大關,FrontierMath有三個關鍵設計原則:

1. 所有問題都是全新且未公開的,防止數據汙染。

2. 模型的解答支持自動驗證,從而實現高效評估。無論是精確的整數,還是如矩陣或符號表達式(在SymPy中),一個驗證腳本可以通過將模型確認提交的答案與已知解決方案來精確匹配以對提交的答案進行檢查驗證。

3. 問題具有「防猜測」特性,問題的答案是大數值或複雜的數學對象,若沒有數學推理,模型猜對的機率低於1%。

這些設計原則,每一條都非常具有針對性,彌補了現有基準測試的不足。

值得欣喜的是,模型在這個測試中幾乎沒辦法「作弊」了,這將有效杜絕一些「名不副實」的現象。

具體案例

由於FrontierMath中的問題是具有封閉形式答案(例如整數)的,所以它們可以讓模型去自動進行驗證與評估。

例如下圖中的構造一個符合條件的19次多項式問題,問題給定的答案是非常大數值的整數,所以幾乎不可能通過預測和精巧的模式匹配來解決這個問題。

模型必須有涉及數論、群論、代數幾何這些方面的專業數學邏輯能力才可以得到正確的答案。

涉及到阿廷原始根猜想則更為複雜,模型需要求解計算的甚至是

而數百道題目皆為如此,所以FrontierMath足以作為一個標杆性的數學基準,去檢驗AI模型是否具備了真正的複雜邏輯推理能力。

參考資料:

https://x.com/EpochAIResearch/status/1854996368814936250

https://x.com/karpathy/status/1855659091877937385

https://epochai.org/frontiermath/the-benchmark

https://epochai.org/frontiermath/benchmark-problems