280頁PDF,全方位評估OpenAI o1,Leetcode刷題準確率竟這麼高

機器之心報導

編輯:張倩

計算機科學、數學、自然科學、醫學、語言學、社會科學……OpenAI o1擅長什麼?還有哪些不足? 

OpenAI 的 o1-preview 模型已經發佈兩週了,網上也有了很多零星的測評。不過,大部分測評都側重於某一個方面,對於 o1-preview 的系統評估目前還比較匱乏。

在一篇長達 280 頁的論文中,來自加拿大阿爾伯塔大學等機構的研究者報告了他們對 o1-preview 的系統評估結果,非常具有參考價值。

  • 論文標題:Evaluation of OpenAI o1: Opportunities and Challenges of AGI

  • 論文鏈接:https://arxiv.org/pdf/2409.18486

具體來說,這項綜合研究評估了 o1-preview 在各種複雜推理任務中的性能,涵蓋多個領域,包括計算機科學、數學、自然科學、醫學、語言學和社會科學。通過嚴格的測試,o1-preview 展示了非凡的能力。

主要結論如下:

  • 編程挑戰:在解決複雜的競賽性編程問題上,o1-preview 的成功率達到了 83.3%,超過了眾多的人類專家。

  • 放射學報告生成:在生成連貫且準確的放射學報告方面,o1-preview 的表現優於其他評估過的模型。

  • 高中數學推理:在高中水平的數學推理任務中,o1-preview 達到了 100% 的準確性,並提供了詳細的解題步驟。

  • 自然語言推理:無論是在通用領域還是醫療等專業領域,o1-preview 都展現出了高級的自然語言推理能力。

  • 芯片設計任務:在 EDA 腳本生成和錯誤分析等芯片設計任務中,o1-preview 的表現超過了專門的模型。

  • 人類學和地質學:o1-preview 在人類學和地質學這兩個專業領域展示了深刻的理解和推理能力。

  • 量化投資:o1-preview 具有全面的金融知識和統計建模技能,在量化投資領域表現良好。

  • 社交媒體分析:在包括情感分析和情緒識別在內的社交媒體分析任務中,o1-preview 也有有效的表現。

儘管 o1-preview 在一些簡單的問題上偶爾會出現錯誤,並且在某些高度專業的概念面前遇到了挑戰,但總體結果表明,該模型在向通用人工智能(AGI)邁進的過程中取得了顯著進展。

評估不僅突顯了 o1-preview 目前的優勢和局限性,還指出了未來發展的關鍵領域,如多模態集成、特定領域的驗證和實際應用中的倫理考慮。這些發現為大型語言模型在眾多領域的潛力提供了寶貴的見解,並為 AI 研究和應用的進一步發展鋪平了道路。

論文目錄如下:   

以下是論文中的部分結果展示。

代碼生成

為了評估 o1-preview 的編碼能力,作者在 Leetcode 競賽環境中對其性能進行了擴展測試。

如表 2 所示,o1-preview 成功通過了 12 個問題中的 10 個,通過率高達 83.3%。該模型在 Weekly Contest 413 中只答錯了一個問題,在 Biweekly Contest 138 中又答錯了一個問題。值得注意的是,這兩個問題都被歸類為「hard」級別。雖然花了幾分鐘才能生成解決方案,但 o1-preview 無法在三次提交嘗試中通過這些挑戰。

儘管存在這些挑戰,但與頂級人類競爭者相比,01 -preview 展示了相當或更快的代碼生成速度。這說明 01 -preview 具有較強的推理能力,可以有效處理大部分的編碼任務。然而,在特別複雜或計算密集的情況下,模型的性能仍然有限,正如在這些困難的問題中觀察到的那樣。

圖 3 和圖 4 演示了編碼評估中的兩個示例。在圖 3 中,01 -preview 展示了它有效解決簡單問題的能力,用最少的計算時間完成任務併成功通過所有測試用例。然而,如圖 4 所示,該模型遇到了一個難題。在這個失敗案例中,01 -preview 最初生成了一個正確的解決方案,但是解決方案超出了時間限制。在第一次提交之後,模型陷入了試圖優化代碼時間複雜度的循環中,這在隨後的嘗試中導致了不正確的解決方案。這個例子突出了該模型在處理需要顯著優化的複雜問題時的掙扎,它為提高效率所做的努力導致了重覆的錯誤。

放射學報告生成

為了評估 o1-preview 的醫學報告生成能力,作者使用了來自中南大學湘雅二醫院的中文放射學報告數據集 SXY。它包含 317,339 份放射學報告,分為五個類別:胸部報告、腹部報告、肌肉骨骼報告、頭部報告和頭頸面部報告。

作者通過比較 o1-preview 與基線模型(如 gpt-4-turbo、gpt-4o 等)的 ROUGE 指標,評估了 o1-preview 生成醫學報告的能力。表 3 提供了 o1-preview 與另外五種模型的詳細性能對比。

如表 3 所示,與醫生撰寫的報告相比,o1-preview 生成的報告的 ROUGE 評分為:R-1: 0.3019, R-2: 0.0448, R-L: 0.2841,在 6 種模型中排名最高。值得注意的是,o1-preview 的平均報告生成時間也最長,為 15.051 秒。

圖 5 和圖 6 展示了兩個例子,說明了作者對放射學報告生成的評估結果。在評估過程中,o1-preview 展示了在零樣本情況下快速生成可靠放射學報告的能力,突顯了其強大的推理和知識遷移能力,以及在醫療領域的潛力。作者觀察到,o1-preview 的報告與人類寫作模式高度一致,結構清晰,語言簡潔。儘管其他模型未能達到最高的相似度分數,但大多數模型能夠遵循指令並完成任務。

自然語言推理

在本節中,作者評估 o1-preview 在自然語言推理(NLI)任務上的表現。NLI 任務涉及確定兩個句子之間的邏輯關係,結構化為一個分類任務,其中第二個句子要麼從第一個句子邏輯上推導出來,要麼與第一個句子矛盾,要麼是中立的(可能是真實的)。

作者從每個數據集的測試集中隨機抽取兩個測試樣本,共進行 10 個測試用例。表 4 給出了每個數據集的示例,其中 01 -preview 準確地分析了邏輯關係,展示了高級推理能力和特定於領域的知識。這展示了它在各種複雜場景中的實際應用的潛力。

芯片設計

o1-preview 在芯片設計中的實驗涵蓋工程助手聊天機器人、EDA 腳本生成和錯誤總結分析三大關鍵任務,展示了其在技術諮詢、代碼生成和錯誤檢測方面的強大能力。這些應用不僅有望徹底改變半導體行業,減少時間和錯誤成本,優化設計性能,還標誌著向實現通用人工智能(AGI)的重要邁進,證明了 AI 在處理複雜、高風險專業任務中的潛力。

在評估 o1-preview 作為工程助手聊天機器人的表現時,作者發現其在多個任務中展現出比 ChipNeMo 更高級的解決問題能力。比如在第一個例子中(圖 21),詢問如何使用 testgen 框架運行多個隨機測試種子。ChipNeMo 的回應雖然功能正確,但較為基礎,缺乏對大規模模擬優化的深入見解。相比之下,o1-preview 不僅覆蓋了基本配置步驟,還詳細解釋了如何並行化測試過程,確保測試的隨機性和可擴展性,展示了更高水平的專業知識,特別是在處理大規模模擬中的隨機數生成完整性和錯誤處理等關鍵問題上。

在 EDA 腳本生成任務中,作者測試了 o1-preview 和 ChipNeMo 生成 EDA 工具腳本的能力。

在圖 24 所示的第一個例子中,任務是編寫 TOOL1 代碼來統計給定矩形邊界內的觸發器單元數量,這是物理設計中常見的操作,用於確定邏輯分佈和優化佈局。ChipNeMo 的回應提供了一個基本的解決方案,涵蓋了如何遍曆設計層次結構並在指定區域內計數觸發器的基本機制。雖然其結構和功能正確,但靈活性有限,未涉及處理邊緣情況(如重疊區域或邊界條件)或優化搜索算法以適應更大設計的高級特性,這些在生產環境中是至關重要的。

相比之下,o1-preview 的回應更為細緻。除了提供核心代碼外,o1-preview 還討論了潛在的優化策略,如如何高效遍曆大型設計和更優雅地處理邊界條件。此外,o1-preview 還包括了擴展功能的註釋和建議,如添加計數其他類型單元的功能或將腳本集成到更大的設計規則檢查自動化流程中。這一回應展示了對實際 EDA 環境中複雜性的深刻理解,強調了靈活性和可擴展性的重要性。o1-preview 能夠預見工程師在大規模設計中部署此腳本時可能遇到的問題,使其回應在專業環境中更具實用性。

在 Bug Summary & Analysis 任務中,作者測試了 o1-preview 和 ChipNeMo 分析與芯片布線電流測量相關的錯誤報告的能力,這是一個在芯片功率優化中至關重要的任務。半導體設計中的錯誤分析不僅涉及識別問題的根本原因,還需要以一種使團隊能夠高效優先處理和解決的方式總結問題。

ChipNeMo 的技術總結詳細列出了功耗測量的條件,如測試模塊的活動百分比和所需的電壓角。管理總結僅傳達了用戶之間的討論,沒有深入分析或提供明確的行動計劃。ChipNeMo 的回應主要集中在總結錯誤報告的即時事實,缺乏對功耗測量對未來設計影響的深入分析,也沒有提出將矽數據與預矽估計相關聯的策略。

相比之下,o1-preview 不僅涵蓋了與 ChipNeMo 相同的技術和管理方面,還深入分析了功耗測量的更廣泛影響。它討論了布線功耗數據如何影響未來的芯片設計,特別是優化功耗密度和提高面積效率,這些因素在現代芯片開發中至關重要。

此外,o1-preview 提供了更詳細的請求解讀,建議使用更精細的隔離技術和數據分解方法。它還提供了一個更清晰的任務分配框架,確保工程團隊能夠優先處理任務,並設定具體的時間表和里程碑,以隔離和測量布線宏單元的功耗。

高中數學推理

為了調查 o1-preview 的數學性能,作者設計了一系列涵蓋不同難度級別的測試。本節首先從高中數學競賽題目開始,隨後在下一節中涉及大學水平的數學問題,以便觀察模型在不同複雜度層次上的邏輯推理能力。

在本節中,作者選擇了兩個主要的數學領域:代數和計數與概率。選擇這兩個領域是因為它們高度依賴於問題解決技能,並且常用於評估邏輯和抽像思維。

具體來說,作者進行了 10 項測試,包括 5 個代數問題和 5 個計數與概率問題,難度等級從 1 到 5 不等。o1-preview 表現出色,所有 10 個測試案例均達到了 100% 的準確率。這一穩定的表現表明,它能夠處理從簡單到複雜的各類數學問題。除了提供正確的最終答案外,o1-preview 的解決方案還詳細地展示了每一步的推理過程,這些步驟與參考答案中的關鍵步驟一致。這種詳細的解答方式表明,模型在數學領域的邏輯推理能力已接近人類水平。

以下是一些測試案例:  

大學數學推理

本節中的問題由作者手動創建。這些問題因其高度的抽像性和所需的複雜推理而特別具有挑戰性。這些問題可以大致分為以下幾類:

  • 基本離散數學問題。

  • 高級離散數學問題。

  • 微積分問題。

  • 高級定理的證明。

表 5 列出了 o1-preview 在各類問題中的答題情況。

總的來看,o1-preview 在大學數學推理中表現出了以下優點:  

  • 全面的數學知識:o1-preview 對大學水平的數學術語和經典定理有全面的理解。即使問題涉及高級概念,模型也能輕鬆理解問題陳述。當問題可以通過直接應用一兩個定理(無論多高級)解決時,模型能夠有效地識別並應用適當的定理。

  • 初步的創造性推理能力:o1-preview 展示了一定的創造性推理能力,能夠做出深刻的觀察,有時還會構建小例子來輔助觀察。然而,這種能力尚處於初級階段,還不夠成熟。

  • 類似人類的錯誤:o1-preview 的一些錯誤非常像人類的錯誤。與早期模型(如 GPT-4o)的錯誤(常常模糊、重覆且充滿無關細節)不同,新模型的錯誤更加相關和可理解。實際上,這些錯誤類型類似於大學生可能會犯的錯誤。

但同時,他們也觀察到了一些局限性:  

  • 觀察和泛化的局限:雖然 o1-preview 能夠做出深刻的觀察並從構建的例子中識別模式,但也可能被自己的觀察誤導,導致不當的泛化,誤以為巧合適用於更廣泛的情況。總體來看,沒有證據表明模型真正理解邏輯原則。在面對長推理鏈時,模型甚至可能陷入循環推理。

  • 缺乏對問題難度的意識:o1-preview 似乎缺乏對問題難度的意識,往往優先考慮效率而非適當性。例如,在問題 7 中,它應用了過於先進的技術來解決一個中等難度的問題。

  • 處理不同類型問題的能力差異:總體而言,模型在處理高度抽像、需要高級定理但推理鏈較短的問題時表現更好,如最後五個問題。而在處理陳述簡單但需要較少高級知識且推理過程較長的問題時表現較差,如三個高級離散數學問題。

作者在論文中針對很多問題都給出了詳細分析。

結論

作者對 o1-preview 在不同領域的全面評估揭示了幾個主要觀點: 

  • 高級推理能力:o1-preview 在高中數學、量化投資和芯片設計等多個領域都表現出卓越的邏輯推理能力。它顯示出很強的逐步解決問題的能力,以及處理複雜、多層次任務的能力。

  • 特定領域知識:該模型在醫學遺傳學、放射學、人類學和地質學等不同領域的知識廣度令人印象深刻。在這些領域,它的表現經常達到或超過研究生或早期職業專業人士的水平。

  • 創造性和實際應用:在三維佈局生成和藝術教育等領域,o1-preview 展示了創造力和實際應用技能,生成了功能設計和結構化教案。不過,在這些領域,它仍然缺乏人類專家的靈活性和適應性。

  • 自然語言理解:該模型在情感分析、社交媒體分析和內容摘要等需要細微語言理解的任務中表現出色。它展示了捕捉複雜表達(如諷刺和挖苦)的能力,但在處理非常微妙的情感細微差別時仍有困難。

  • 科學與醫學推理:o1-preview 在醫學診斷、放射報告生成和回答覆雜的醫學考試問題方面表現出了很強的能力。雖然它在這些方面表現出色,但其推理過程有時與訓練有素的醫學專家有所不同。

  • 局限和有待改進的地方:儘管 o1-preview 的表現令人印象深刻,但它在處理極其抽像的邏輯謎題、適應實時動態情況以及在高等數學和隨機過程等領域的最複雜任務中始終表現出色方面仍存在局限性。

  • 現實世界的應用潛力:該模型的性能表明,它在教育支持、醫療援助、金融分析和科學研究等各個領域都有巨大的應用潛力。不過,在關鍵的實際應用場景中部署之前,還需要進一步完善和驗證。

更多詳細信息請參見原論文。