AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

機器之心報導

編輯:杜偉、陳陳

Scale AI 等提出的新基準再次暴露了大語言模型的弱點。

又又又一個超高難度的推理基準測試向 AI 發出了挑戰!

大語言模型的進展伴隨著評估基準的不斷進步,各種難度、覆蓋不同學科的評估基準被用來測試這些模型的各項能力。

比如前幾天,Center for AI Safety(AI 安全中心)與 Scale AI 聯合打造了全新基準:Humanity’s Last Exam,即「人類的最後考試」,簡稱 HLE。這個新基準對主流的推理模型提出了巨大挑戰,結果顯示 DeepSeek-R1、o1 的準確度都低於 10%。

如今,一個比「人類的最後考試」更苛刻的基準了,它就是同樣由 Scale AI、Center for AI Safety 以及 MIT 的研究者聯合推出的 ENIGMAEVAL。這是一個針對高難度問題的基準,其格式多種多樣,涵蓋了從解謎尋寶(puzzle hunts)抽取的文本和圖像難題。

Puzzle hunts 是一種團隊解謎競賽,測試了參與者的邏輯推理、創造性思維、團隊協作以及跨學科知識運用能力。它們通常包含一系列複雜的謎題,每個謎題的解答可能會涉及文字遊戲、數學、密碼學、圖像分析、程序編寫、文化常識等多個領域。 

對於 ENIGMAEVAL 基準,研究者使用了原始的多模態問題和高質量的人工轉錄版本,從而評估大語言模型的端到端能力以及它們的獨立推理能力。這種設計選擇使得研究者能夠區分模型的性能限制源於它們的推理能力,而不是解析複雜文檔或處理不同模態的能力。

  • 論文標題:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges

  • 論文地址:https://arxiv.org/pdf/2502.08859

  • 榜單地址:https://scale.com/leaderboard/enigma_eval

在 ENIGMAEVAL 基準上,研究者對現有多模態和推理基準上表現優異的前沿語言模型進行了評估。結果顯示,包括 OpenAI o1 在內等 SOTA 模型在普通謎題(Normal)上的準確率最高僅為 7.0% 左右,在困難謎題(Hard)上的準確率則降至 0%,遠遠不及經驗豐富的人類解謎者。

有趣的是,從轉錄的謎題到原始 PDF 版的謎題,模型性能可能會急劇下降,這表明了一些前沿模型仍然受限於 OCR 和解析能力。雖然研究者最開始假設原始謎題格式可能會造成額外的困難,但對模型成功案例的詳細分析表明,它們已經針對複雜文檔的處理進行了很好的優化。

研究者表示,ENIGMAEVAL 將與「人類的最後考試」一起構建全新的 LLM 基準,通過極具挑戰性的任務揭露當前大語言模型的局限性。

正如一些網民評論所說,看起來 AI 離真正理解世界還有很長的路要走。

另外,該基準測試中沒有將 DeepSeek R1 納入在內,所以很好奇它的表現如何。

 ENIGMAEVAL 基準

ENIGMAEVAL 包含 1184 道謎題,每個謎題通常需要一群經驗豐富的人花費數小時甚至數天才能解決。其有兩種格式:

(1)原始 PDF 的 PNG 圖像(如頁面截圖),用於測試模型端到端的性能;

(2)結構化的文本 – 圖像表示,保留了語義關係和視覺元素,用於有針對性地評估模型多模態推理能力,同時減少幹擾和預處理負擔。

ENIGMAEVAL 來源如下(表 1),按照難度分組為 Normal (949 道題)和 Hard (235 道題)兩大部分:

普通謎題示例(Normal):

困難謎題示例(Hard):

除了這些謎題,本文還收集了相應的解決方案文檔,以 PDF 或 HTML 頁面的形式提供。

實驗

本文在 ENIGMAEVAL 基準上測試了最先進的 LLM 的深度推理能力。

結果

模型在解答謎題方面的表現並不出色 。

所有前沿的視覺 – 語言模型在此次評估中的準確率都顯著偏低,即便是領先的模型(o1)在常規難度部分也僅達到 7.0% 的準確率,在困難難度部分更是達到了 0%(見表 2)。

所有測試模型在困難難度部分完全失敗(準確率為 0%),這強調了這些模型在面對更為複雜的謎題變體時所遭遇的重大挑戰。

此外,本文還使用 o1 模型對其自身生成的答案進行審核,以檢查是否存在抄襲或荒謬的推理鏈條,這是通過將前沿模型生成的逐步解決方案與官方謎題解析(附錄 B.3)進行對比來實現的。每一個被 o1 標記的案例都經過了人工檢查,結果發現審核模型幻覺般地提供了抄襲的證據,這表明實驗所採用的模型是獨立得出正確答案的。