OpenAI發佈MLE-Bench：是AGI奇點的先兆還是炒作？

機器之心PRO · 會員通訊 Week 42

—- 本週為您解讀 ③個值得細品的 AI & Robotics 業內要事 —-

1. OpenAI發佈MLE-Bench：是AGI奇點的先兆還是炒作？

OpenAI 提出的 MLE-bench 是什麼？MLE-bench 暗示了什麼？為什麼 OpenAI 認為能夠解決 MLE-bench 的模型可能會導致奇點？AGI 和 ASI 的定義又變了？用 AI 改進 AI 真的已經實現了嗎？從 AGI 到 ASI 轉變的關鍵是什麼？…

2. Ilya Sutskever：對 ChatGPT 的深層理解與對 AI 未來的思考

為何 Ilya Sutskever 的訪談再度引起關注？Ilya 在訪談中講了哪些核心觀點？為什麼說 ChatGPT 不僅僅是一個 LLM？為什麼 Ilya 認為確保輸出內容的可靠性才是 AI 未來發展的關鍵？…

…本期完整版通訊含 2 項專題解讀 + 27 項本週 AI & Robotics 賽道要事速遞，其中技術方面 10 項，國內方面 9 項，國外方面 8 項。

本期通訊總計 26516 字，可免費試讀至 8%

消耗 99 微信豆即可兌換完整本期解讀（約合人民幣 9.9 元）

要事解讀① OpenAI發佈MLE-Bench：是AGI奇點的先兆還是炒作？

日期：10 月 11 日

事件：近日，在社交媒體平台 Reddit 的「Singularity（奇點）」板塊，一個名為「OpenAI 最新研究論文中關於 AGI 的摘錄」的帖子引發大量關注。「Singularity」板塊聚集了諸多對 AI 技術奇點等話題關心的網民，在該帖子下，網民們對於「AI 智能體能夠解決 MLE-bench 所有問題就可能會帶來奇點」的說法展開了探討。

OpenAI 提出這個的 MLE-bench 基準測試是什麼？[1]

近日，OpenAI 發表論文《MLE-Bench: Evaluating Machine Learning Agents on Machine Learning Engineering》，提出了一個用於評估 AI 智能體在機器學習工程中表現的基準測試「MLE-bench」。在論文的「Impact on AGI Preparedness」部分，OpenAI 提到，「能夠解決 MLE-bench 中大部分任務的模型很可能具備執行許多開放式機器學習任務的能力」。

1、MLE-bench 由從 Kaggle 手動篩選了不同領域的 75 個機器學習工程任務組成，包括訓練模型、準備數據集和運行實驗等，涉及了機器學習領域工程師在前沿實驗室中使用的核心日常技能。

2、在設計上，MLE-bench 考慮了兩個要素：一是選擇具有挑戰性且代表現代 MLE 工程工作的任務；二是能夠將評估結果與人類水平的表現進行比較。

3、MLE-bench 參考「Kaggle 根據參賽者相對於排行榜的表現向優勝的參賽者頒發銅牌、銀牌和金牌」的方式，將實驗中 AI 智能體提交的結果與私有排行榜進行比較，為 AI 智能體頒獎。實驗結果顯示，

① 基於專為 Kaggle 競賽構建的 AIDE 開源框架，o1-preview 在 16.9%的競賽中至少獲得了 Kaggle 銅牌獎牌；

② 同時，研究發現當智能體被允許有更多的嘗試次數時，獲得獎牌的百分比顯著增加。例如，o1-preview 當從 1 次嘗試增加到 8 次嘗試時，得分從 16.9%翻倍到 34.1%；

② 每項競賽的時間上限為 24 小時，時間限制增加後，當智能體有更多的時間迭代解決方案，獲得獎牌的百分比有所提高；

③ 研究者比較了 GPT-4o（AIDE）在三種不同硬件設置下的性能，結果顯示，GPT-4o（AIDE）在所有實驗中表現相似。這表示智能體的性能並沒有隨 GPU 資源的變化而顯著變化，沒有有效地利用額外的計算資源。

OpenAI 認為能夠解決 MLE-bench 的模型可能會導致奇點？

1、OpenAI 在 MLE-bench 論文的「Impact on AGI Preparedness」章節提到，「如果我們的 AI 智能體能夠自主執行機器學習研究，它們可能會帶來許多積極的影響，比如加速醫療保健、氣候科學等領域的科學進步，加速模型的安全和對齊研究，並通過開發新產品促進經濟增長。智能體執行高質量研究的能力可能標誌著經濟的一個轉型步驟。」這部分內容，引發了 Reddit 網民的熱議。[1]

2、AI 智能體能夠解決 MLE-bench 所有問題，就可能會帶來奇點嗎？雷·庫茲韋爾定義「奇點」為加速回報定律達到了極限，技術進步以近乎無限的速度發展，而奇點之後我們將在一個完全不同的世界生活。

3、在「OpenAI 最新研究論文中關於 AGI 的摘錄」的帖子下，一類探討是針對於 AGI、ASI 兩者概念的混淆。[2]