o1/Claude 集體翻車!陶哲軒等 60+ 頂尖數學家合力提出新數學基準,大模型正確率通通不足 2%

一水 發自 凹非寺

量子位 | 公眾號 QbitAI

讓大模型集體吃癟,數學題正確率通通不到2%!

獲大神卡帕西力薦,大模型新數學基準來勢洶洶——

一出手,曾在國際數學奧賽中拿下83%解題率的o1模型就敗下陣來,並且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%這一防線。

所以,新挑戰者到底什麼來頭??

一打聽,這個新數學基準名為FrontierMath,由Epoch AI這家非營利研究機構號召陶哲軒在內的60多位頂尖數學家提出。

這群人這次鐵了心要給AI上難度,直接原創了數百道極具挑戰性的數學問題——

從數論中計算密集型問題到代數幾何和範疇論中的抽像問題,涵蓋了現代數學的大多數主要分支。

這些題有多難呢?按數學大佬陶哲軒對這項研究的評價說:

大模型們,至少需要再戰個幾年吧。

同時,卡帕西也表示非常喜歡這一新基準,甚至樂於見到大模型們「吃癟」:

之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準

FrontierMath:評估AI高級數學推理能力的新基準

今年以來,大語言模型(LLM)開始在各種數學benchmark上瘋狂刷分,而且正確率動輒90%以上。

宣傳看多了,人也麻了,於是紛紛反思——

一定是現在的基準測試「被汙染了」(比如讓AI在訓練階段提前學習基準測試中的問題)

對此,非營利研究機構Epoch AI看不下去了,於是直接聯合60多位頂尖數學家(共獲得了14枚IMO金牌)推出FrontierMath。

這一新基準擁有數百道大模型們之前沒見過的數學題,而且難度頗高。

通常需要專業數學家花費數小時甚至數天的努力

一番實踐檢驗下,果不其然,一眾頂尖大模型紛紛折戟(包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等)解題率均不足2%

而且即使有延長的思考時間(10,000個token)、Python訪問權限以及運行實驗的能力,相關成功率仍然低於2%。

下面,我們具體介紹下FrontierMath。這第一關主要解決數學題的原創性。

這群數學家們被要求按照3個關鍵原則設計題目:

  • 所有問題都是新的且未發表的,以防止數據汙染;

  • 解決方案是自動可驗證的,從而實現高效的評估;

  • 問題是「防猜測」的,在沒有正確推理的情況下解決的可能性很低;

除了出新題,為了防止數據汙染,機構還採取了其他措施。

比如為了最大限度地降低問題和解決方案在網上傳播的風險,機構鼓勵所有提交都通過安全、加密的渠道進行。

具體來說,機構採用加密通信平台與投稿人協調,並要求對在線存儲的任何書面材料進行加密(如加密文檔)

同時,機構依賴於核心數學家團隊專家評審這一原創驗證性方法,以識別自動化系統可能錯過的潛在相似性(專家比機器更熟悉這些研究細節)

當然也不完全依靠人力,為了進一步保證原創性,機構還通過抄襲檢測工具Quetext和Copyscape對問題進行測試。

最終,數學家們提出了數百道原創題目,涵蓋了現代數學的大多數主要分支,從數論中計算密集型問題到代數幾何和範疇論中的抽像問題。

其中數論和組合學最多,合計約佔所有MSC2020(數學學科分類系統2020版本)的34%。

接下來,為了評估大模型在FrontierMath問題上的表現,研究開發了一個框架。

簡單說,這一框架具體執行任務的過程如下:

  • 分析問題:模型首先分析給定的數學問題;

  • 提出策略:模型提出可能的解決方案策略;

  • 實施並執行代碼:將這些策略轉化為可執行的Python代碼並自動執行;

  • 接收反饋:從代碼執行的結果中接收反饋,包括輸出和錯誤消息;

  • 改進方法:根據實驗結果,模型會驗證中間結果,測試猜想,並可能改進其推理過程以修正潛在的錯誤;

該框架支持兩種提交方式:一種是模型可以直接給出問題的最終答案;另一種是,在提交最終答案之前,模型可以先通過代碼執行進行實驗,以驗證其解決方案的有效性。

不過需要提醒,在提交最終答案時,模型必須遵循一些標準化格式

比如,在答案中需包含#This is the final answer這一標記註釋,且將結果保存在Python的pickle模塊中,同時需確保提交的代碼必須是自包含的,不依賴於先前的計算。

總之,這一評估過程將持續進行,直到模型提交了正確格式化的最終答案,或者達到了預設的標記限制(研究設置為10,000個token)。

如果模型在達到標記限制之前沒有提交最終答案,它將收到一個最終提示,要求立即提交最終答案;

如果在收到該提示後模型仍然無法提供正確格式化的最終答案,則該嘗試被標記為不正確。

陶哲軒看了都說難

為了進一步驗證FrontierMath的難度,該機構還特意採訪了4位數學大佬。

包括費爾茲獎得主陶哲軒 (2006)、蒂莫西·高爾斯 (1998)、李察·博赫茲 (1998),以及國際數學奧林匹克競賽 (IMO) 教練陳誼廷 (Evan Chen)在內,他們一致認為這些題非常具有挑戰性。

下一步Epoch AI也計劃從四個方面持續推進

  • 定期評估這些領先的大模型,並觀察高級數學推理能力隨時間推移和規模擴大而提高的情況;

  • 保持難度的同時,向FrontierMath添加更多問題;

  • 在未來幾個月內發佈更多代表性問題,供大家研究討論;

  • 擴大專家審查、增加錯誤數量和改進同行評審流程來加強質量控制;

這也合了卡帕西的心意,他認為這樣的新基準應該更多,尤其是為那些看似「容易」的事情創建評估。

之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準。有趣的問題是,儘管從許多方面(/evals)來看,大模型正逐步躋身頂級專家行列(如數學和編碼等),但你不會僱用他們而不是讓他們從事最瑣碎的工作

如果你把問題描述整齊地放在盤子裡,他們就能解決複雜的封閉式問題,但他們很難連貫地把長長的、自主的、解決問題的序列串聯起來,而人卻會覺得非常容易。

這是莫拉維克悖論的變相,他在30多年前就觀察到,對人類來說容易/困難的事情,與對計算機來說容易/困難的事情,在非直覺上可能大相逕庭。

例如,人類對計算機下國際象棋印象深刻,但國際象棋對計算機來說卻很容易,因為它是一個封閉的、確定性的系統,具有離散的行動空間、完全的可觀測性等等。

反之亦然,人類可以繫好鞋帶或疊好襯衫,而且根本不需要考慮太多,但這是一項極其複雜的傳感運動任務,對硬件和軟件的技術水平都是挑戰。

這就像不久前OpenAI發佈的魔方一樣,大多數人都把注意力集中在解魔方本身(這是微不足道的),而不是用機器人的手轉動魔方的一個面這一實際難度極高的任務。

因此,我非常喜歡這個FrontierMath基準,我們應該製作更多的基準。但我也認為,如何為所有 「容易 「但其實很難的東西創建評估是一個有趣的挑戰。

很長的語境窗口、連貫性、自主性、常識、有效的多模態輸入/輸出…… 我們如何建立良好的 「初級工作 「評估?就像你對團隊中任何初級實習生的期望。

網民也表示,能在這種基準測試中取得高分的大模型將大有裨益。

陶哲軒夢想的就是這樣的東西,可以連接到LEAN(微軟研究院推出的一款定理證明器),讓數學家成為編輯、顧問,偶爾處理一些真正困難的部分,而其餘部分則自動化且可證明正確。

很難說一個在這次基準測試中能夠達到80%的LLM對數學家來說沒有用處。

對此,你怎麼看?

論文:

https://arxiv.org/html/2411.04872v1

參考鏈接:

[1]https://x.com/EpochAIResearch/status/1854993676524831046

[2]https://x.com/karpathy/status/1855659091877937385?s=46

[3]https://news.ycombinator.com/item?id=42094546