LLM 數學基準測試集 FrontierMath 公佈:號稱多數題型 AI 沒學過、業界模型均敗北

IT之家 11 月 15 日消息,研究機構 Epoch AI 現公佈了一款名為 FrontierMath 的全新 AI 模型數學基準測試集,旨在評估系列模型的數學推理能力。

與現有諸如 GSM-8K、MATH 等測試題集不同,FrontierMath 中的數學問題號稱特別複雜,收錄了現代數學中的數論、代數和幾何等領域,這些題目的難度據稱極高,甚至人類專家解答往往需要數小時甚至數天的時間。

IT之家獲悉,FrontierMath 的題目由人工智能學方面資深專家設計,相應問題號稱不僅要求 AI 理解數學概念,還需要具備複雜情境的推理能力,以避免模型利用以前學習過的類似題目進行比對作答。

LLM 數學基準測試集 FrontierMath 公佈:號稱多數題型 AI 沒學過、業界模型均敗北
▲ 題庫中的題型舉例▲ 題庫中的題型舉例

研究機構表示,他們利用 FrontierMath 對當前市場上的 AI 模型進行初步測試,發現這些模型普遍表現不佳,包括此前在 GSM-8K、MATH 上取得近乎滿分成績的 Claude 3.5 和 GPT-4 等模型在 FrontierMath 中的解題成功率也均敗北(成功率低於 2%)

研究團隊指出,AI 在解決高級數學問題時的主要困難在於這些模型通常依賴於訓練數據中學過的類似題目來生成答案,而不是對問題本身的邏輯結構進行真正的理解和推理。這意味著目前業界大部分 AI 模型只要遇到沒學過的題目,就容易出錯,而這一原則性的問題難以實際上無法通過「暴力增加模型規模」解決,需要研發人員從模型推理架構層面進行深入改造

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。