o3被曝成績「造假」,60多位數學泰鬥集體被耍,OpenAI暗中操控,考卷提前看光

又爆大瓜!FrontierMath的o3驚人表現,竟是因OpenAI資助了Epoch AI而提前獲得大部分試題訪問權。OpenAI模型的性能究竟幾分是真,幾分炒作,愈來愈變得撲朔迷離。

不久前,OpenAI在「聖誕12連更」中發佈的最強推理模型「o3」,毫無疑問地驚豔了所有人。

尤其是對於新近發佈的數學基準FrontierMath,其準確率相比o1直接翻了12倍。

要知道FrontierMath可是Epoch AI聯合六十餘位全世界的數學家,其中包括教授、IMO命題人、費爾茲獎獲得者,共同推出的。

其包括數百個原創的、格外具有挑戰性的數學問題,每個問題就算是專業數學家,也得需要數小時或數天的時間才能解決。

正因如此的高難度,o3這種對於FrontierMath驚人的突破才讓大家都對其推理能力而感到不同凡響。

但是,近日曝出一則消息,o3之所以能在短時間之內就相比於o1提升12倍的準確率,是因為OpenAI資助了FrontierMath,並且可以訪問大部分數據集。

但那些為評測集創建問題和解答的數學家們卻完全被蒙在鼓裡,根本不知道OpenAI是項目資助方並將獲得數據訪問權。

簡單來說就是:

  • 我們無從得知OpenAI是否用這個評測集訓練了o3,因此他們宣稱的結果可信度值得質疑
  • 數學家們被有意隱瞞了真相,而大多數人甚至從未懷疑過會有一家AI公司在背後提供資金支持

對此,Epoch AI解釋稱:「我們承認OpenAI確實可以訪問大部分FrontierMath的問題和解決方案,但有一個OpenAI未見過的保留集使我們能夠獨立驗證模型能力。我們有口頭協議這些材料不會用於模型訓練。 」

但是這所謂與OpenAI達成的「口頭協議」——嗬,現在還有誰會相信OpenAI的承諾?

根據網上的各種報導,FrontierMath中的難題本應都是未公開的,目的就是防止AI公司利用這些數據訓練模型。

然而現在看來,「AI公司根本接觸不到這個數據集」這一點,實際上卻是Epoch AI和OpenAI刻意製造出的假象。

但考慮到OpenAI前科纍纍的欺騙和誤導行為——從矇騙自家董事會,到強迫前員工簽署秘密的不誹謗協議,應有盡有。

所以這次的事件,多少有種「意料之外,情理之中」的意味了。

Epoch AI首席數學家回應

消息曝出後,Epoch AI首席數學家Elliot Glazer對此進行了回應。

他首先是承認了自己的錯誤,並對因為沒有被告知真相而自主做出貢獻的數學家致以歉意。

而對於o3那驚人的25.2%的準確率,他只是個人層面上表示相信,卻沒有一個真實可靠、有理有據的保證。

Epoch AI聯創Tamay Besiroglu也正式發佈了博客作為回應。

對於此次事件,Tamay給出的解釋是:「我們的合約明確禁止披露資金來源信息以及OpenAI可以訪問大部分(但不是全部)數據集的事實。」

現在回想起來,我們應該更積極地爭取向評測集貢獻者及時公開相關信息的權利。我們對此承擔責任,並承諾未來會做得更好。

雖然我們確實向部分數學家告知了來自lab的資金支持,但這種溝通並不系統,也沒有具體說明合作方。

這種不一致的溝通方式是我們的疏忽。我們應該一開始就堅持爭取公開合作關係的權利,尤其是對那些創建問題的數學家們。

僅在o3發佈前後才獲得披露OpenAI參與的許可是遠遠不夠的。參與項目的數學家們有權知道誰可能會接觸到他們的工作。

儘管我們受到合約條款的限制,但我們應該將對貢獻者的透明度作為與OpenAI合作的基本前提。

同時,對於FrontierMath他仍然聲稱:「OpenAI完全支持我們維護獨立的未見測試集的決定——這是防止過擬合和確保準確評估進展的重要保障。」

在交流中,OpenAI的員工將FrontierMath稱為「嚴格保留」的評估集,這種公開表述與我們的理解一致。

而且,我想強調的是,擁有真正未被訓練數據汙染的測試集對各個lab都很重要。

從項目伊始,FrontierMath就被設計和定位為一個評估工具,我們相信當前的安排完全符合這一初衷。

對於未來的合作,我們將致力於提高透明度,確保貢獻者能在項目初期就清楚瞭解資金來源、數據訪問權限和使用目的等信息。

總結來看,Epoch AI的確意識到了這次事件的嚴重性,但是很多回應依然停留在「公關套詞」層面,並且全程都在甩鍋稱自己不說是因為「合約」的限制。

已有端倪,激起熱議

一石激起千層浪,紐約大學教授Gary Marcus,亞利桑那州立大學計算機教授Subbarao Kambhampati等大佬,紛紛發文對OpenAI這一的行為表示譴責。

其實,在去年12月剛發佈時,便有參與o3-mini早期測試的研究人員發現了這一端倪。

比如Open Vision Engineering的創始人Akshay Narisetti在推上po出的發現,就從側面印證了這次的爆料:

  • o3-mini在ARC-AGI中的正確率為156/400
  • o3-mini在Frontiermath上的表現並不理想

根據實測結果,模型擅長解決特定類型的問題,但泛化能力還未完全成熟。在結構化任務上表現優異,但在需要多維度推理能力的問題上仍有明顯短板。

對此,GoogleDeepMind的研究員「Ted Xiao」分析認為,這種影響可以有兩個極端的解釋:

1. 糟糕,OpenAI正在操縱benchmark,還把測試題目泄漏進訓練數據里了!2. OpenAI只是用FrontierMath的私有題庫來指導新訓練數據的整體設計方向和目標,以及設計推理路徑。

當然了,也有沒那麼極端的。比如,稍微改改題目內容創建新的訓練數據,這樣從技術角度來說,確實沒有直接用測試數據中的token來訓練。

如今,SOTA模型之間的競爭已經白熱化。如果使用這種投機取巧的方式,模型在實際應用場景中就會原形畢露(缺乏泛化能力)。

這種冒險頂尖AI實驗室可承擔不起,因此於理來說,OpenAI更可能採用第二種方式。

但即便如此,這一行為依然讓o1和o3在FrontierMath上,表現得比在其他未經優化的複雜推理領域中更亮眼。

不過,這種差距應該不會像某些在MMLU上採用第一種手段的「小語言模型」那樣——評測分數和實際能力簡直是天壤之別。

對於那些堅信OpenAI用了第一種方法、偷偷把測試數據混進去的人,我建議:不妨等等看o3在實際應用場景和其他評測中,跟下一代重點強化推理能力的頂尖模型相比,表現如何。

到時就知道,o3是不是只在FrontierMath上特別強,在其他地方就不行了。

參考資料:

https://x.com/Mihonarium/status/1880944026603376865

https://x.com/xiao_ted/status/1881075585843069258

https://x.com/ElliotGlazer/status/1880812021966602665

本文來自微信公眾號「新智元」,作者:澤正 好睏,36氪經授權發佈。