OpenAI最強模型被曝「造假」,發生了什麼?
近日,OpenAI 再次陷入了輿論風波。
事件源於 LessWrong 論壇上的一則爆料。一位名為 Meemi 的 Epoch AI 承包商透露,OpenAI 不僅為 FrontierMath 基準測試提供資金支持,還獲得了測試題庫的特權訪問權。
而這或許也是 o3 的成績在短時間內獲得極大提高的重要原因。但這個信息直到去年 12 月 20 日 o3 發佈時,才由 Epoch AI 對外公佈。

消息一出,瞬間在 AI 圈引起軒然大波。
因為這很難不讓網民懷疑 OpenAI 是既當球證,也當選手。吃瓜之前,需要給不熟悉的朋友先捋事件的背景信息。
去年 12 月,OpenAI 正式發佈了新一代號稱突破 AI 極限的 o3 模型。
在其中一項名為 FrontierMath 的 AI 數學基準測試(成績單)中,OpenAI 以 25.2% 的準確率遙遙領先,遠超 GPT-4 和 Gemini 等模型不足 2% 的成績。

FrontierMath 是一個份量極重的高級數學推理能力評估基準。它由 Epoch AI 聯手 60 多位頂級數學家共同打造,參與者包括多位費爾茲獎得主和國際數學奧林匹克競賽的資深命題人。
該基準包含數百個原創且極具挑戰性的數學問題,覆蓋現代數學的多個主要分支,如數論、實分析、代數幾何、範疇論等。
2006 年費爾茲獎得主、數學天才陶哲軒曾評價 FrontierMath 的問題「極其具有挑戰性」,並認為這些問題只能由領域專家來解決。
他指出,即使是人類專家,解決這些問題也需要數小時甚至數天的努力。
本表明 o3 在高級數學推理方面有巨大進步的成績單,卻在承包商的爆料後迎來了風評反轉。
面對爭議,Epoch AI 副主任兼聯合創始人之一 Tamay Besiroglu 很快在 X 平台承認了此事。
我們犯了一個錯誤,沒有更早披露 OpenAI 在 FrontierMath 中的參與。我們的合約在 o3 發佈前禁止我們這麼做。事後看來,我們確實應該更努力地爭取更早的透明性。我們承認這一點,並承諾未來做得更好。

事態進一步發酵,史丹福大學數學博士生 Carina Hong 聲稱,在 Epoch AI 的安排下,OpenAI 擁有對 FrontierMath 的特權訪問權。
對 FrontierMath 基準測試做出重大貢獻的六位數學家向我證實,他們並不知道 OpenAI 會獨佔該基準測試的訪問權限,而其他人無法獲得。多數人表示,如果他們事先知情,可能不會選擇參與。

面對質疑聲浪,Tamay Besiroglu 也通過博客表達歉意,承諾將在未來採用更高的透明度標準。
博客強調 OpenAI 的資金支持僅限於 FrontierMath 的開發,並未乾預測試內容,同時聲明所有數據和問題均來自獨立貢獻者並經過獨立專家審核。
關於訓練使用:我們承認 OpenAI 確實可以訪問大部分 FrontierMath 問題和解決方案,但不包括 OpenAI 無法訪問的保留集,這使我們能夠獨立驗證模型功能。此外,我們有一個口頭協議,這些材料不會用於模型訓練。
相關 OpenAI 員工的公開溝通將 FrontierMath 描述為「嚴格保留」的評估集。雖然這種公開立場與我們的理解一致,但我還要進一步強調,實驗室從擁有真正未受汙染的數據集中獲益匪淺。
OpenAI 也完全支持我們維護一個單獨的、未公開保留的數據集的決定,這是一種額外的保護措施,可以防止過度擬合併確保準確的進度測量。自最初設計之時起,FrontierMath 就被定位並展示為一種評估工具,我們相信這些安排反映了這一目的。
(編輯:澄清了 OpenAI 的數據訪問—— 他們無權訪問作為獨立驗證額外保護措施的單獨保留集。)
Epoch AI 的首席數學家 Elliot Glazer 承認在項目過程中未主動披露行業資助方面的信息,並向那些如果事先知情可能不會參與的數學家道歉。
關於 o3 的成績,他表示相信 OpenAI 報告的分數準確性,但強調 Epoch AI 需要通過正在開發的獨立保留測試集來驗證,並承諾保留集評估分數將公開。
當被質疑保留集狀態時,Glazer 澄清這個測試集仍在開發中,而不是已經完成。

但這些解釋並未能平息事件的爭議,更多批評風浪湧向 Epoch AI 以及身處輿論漩渦的 OpenAI。
計算機科學家 Subbarao Kambhampati 表示,他此前就對 OpenAI 聲稱未預先接觸奧林匹克數學和 FrontierMath 數據的說法持懷疑態度。
在他看來,OpenAI 禁止相關方披露協議內容的做法本身就極具可疑性。

知名 AI 專家 Gary Marcus 對此事件提出了猛烈的批評。
他將 OpenAI 的 o3 演示描述為一場「絕望的、操縱的、誤導性的、科學上粗製濫造的展示」,認為這更像是一次過度炒作而非真實突破。
一個生動的打吡方是,如果有人提前獲得了試題和答案,而其他人只能靠實力應考,這樣的比較顯然缺乏公平性。
OpenAI 不僅獲得了問題和解決方案的訪問權,而其他競爭對手如 xAI、DeepMind 以及學術團隊卻無法獲得相同資源。
更重要的是,Gary Marcus 認為 OpenAI 對這一關鍵背景事實隻字未提,同時也選擇性地隱藏了關鍵信息。
他們既未公佈在具體問題上的成功與失敗案例,也沒有提供相應的推理過程記錄,更未說明哪些問題出現在訓練集中。同時,他們也沒有允許 Epoch 對保留測試集進行驗證。

而回歸到這場愈演愈烈的風波,很大程度上源於網民們對 OpenAI 無休止炒作的厭倦。疑似「造假」的行為,也再次觸及了許多網民敏感的神經。
就在輿論持續發酵之際,有消息稱,OpenAI Operator 項目取得突破,CEO Altman 預計將於 1 月 30 日向美國政府進行閉門簡報。

據悉,Operator 是 OpenAI 開發的一種具有博士級別能力的自主 AI 智能體,能夠在瀏覽器中獨立執行任務,比如編寫代碼、預訂旅行、管理日程等。
當然,在這個節骨眼上,或許最好的危機公關策略就是立即發佈 o3。而這也是最好的春節禮物。截至發稿前,OpenAI 尚未進一步作出聲明。
本文來自微信公眾號:APPSO,作者:APPSO