OpenAI掀「百萬美金」編程大戰!Claude 3.5 Sonnet狂賺40萬拿下第一

新智元報導  

編輯:犀牛 好睏

【新智元導讀】OpenAI剛剛發佈SWE-Lancer編碼基準測試,直接讓AI模型挑戰真實外包任務!這些任務總價值高達100萬美元。有趣的是,測試結果顯示,Anthropic的Claude 3.5 Sonnet在「賺錢」能力上竟然超越了OpenAI自家的GPT-4o和o1模型。

昨天馬斯克剛剛發佈了號稱「地表最聰明」的Grok 3模型,搶走了所有關注。

這邊OpenAI就開始坐不住了,立刻扔出了SWE-Lancer(AI編碼測試基準),看一下AI到底能在現實任務中掙到多少錢。

SWE-Lance是一個全新的、更貼近現實的基準測試,用於評估AI模型的編碼性能。它包含了來自Upwork的1400多個自由軟件工程任務,這些任務在現實世界中的總報酬價值100萬美元。

參加評測的包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在內的前沿模型,結果多少有些尷尬,掙到最多錢的竟是隔壁Anthropic的Claude 3.5 Sonnet。

下圖5展示了各模型在完整的SWE-Lancer數據集上所獲得的報酬總額,其中Claude 3.5 Sonnet掙到了最高的403,325美元,高於OpenAI自家的GPT-4o以及o1。

不過這也基本符合大家對這幾款模型的真實感受。

眾所周知,現實世界中軟件工程師的工作涵蓋整個技術棧,並且必須對複雜的跨代碼庫交互和權衡進行推理。

為了更好地衡量AI編碼的能力和影響,OpenAI提出了SWE-Lancer——第一個使用由專業工程師創建的E2E(端到端)測試的基準,提供更全面、真實的評估,更難並且更難被鑽空子。

SWE-Lancer包含兩種任務類型:IC SWE(獨立開發者)任務和SWE管理任務。IC SWE任務要求模型生成代碼補丁以解決實際問題,而SWE管理任務要求模型作為技術負責人,選擇給定問題的最佳實現方案。

論文地址:https://arxiv.org/abs/2502.12115論文地址:https://arxiv.org/abs/2502.12115

開源項目:https://github.com/openai/SWELancer-Benchmark

基準構建

SWE-Lancer的基準構建過程旨在確保數據集包含高質量和代表性的任務。

研究團隊首先選擇Expensify開源存儲庫,因為它是一個擁有大量用戶的上市公司,並且在Upwork上提供具有實際報酬的軟件工程任務。然後,100名專業軟件工程師審查任務,確保其清晰、明確和可執行,高價值任務會經過更嚴格的驗證。

該流程還包括從經過驗證的Github問題生成IC SWE任務和SWE管理任務。研究團隊為IC SWE任務開發全面的端到端Playwright測試,模擬真實世界的用戶流程,並由專業工程師進行三次驗證。

此外,每個IC SWE任務都配備一個用戶工具,允許模型模擬用戶操作並查看結果,從而進行迭代調試。

下圖展示了SWE-Lancer基準測試中多樣化的任務:涵蓋了不同的目標、類型、角色,並提供了具體示例。

實驗結果

根據下圖5顯示,所有模型在完整的SWE-Lancer數據集上獲得的報酬都遠低於100萬美元的潛在總報酬。

為了展示模型在各項實驗中的表現,研究人員在下表1中列出了IC SWE任務和SWE管理任務的通過率(pass@1)、相應的「報酬」(即總報酬)和報酬率(即獲得的報酬與潛在總報酬之比)。

如下圖6所示,所有模型在SWE管理任務上的表現都優於IC SWE任務,後者的性能仍有較大提升空間。在IC SWE任務中,通過率和報酬率均低於30%。

SWE管理任務中,表現最優的模型——Claude 3.5 Sonnet——在高質量數據集(Diamond set)上達到了45%的得分。

3.5 Sonnet在這兩類任務上都展現出最強的性能,優於其他所有模型。

提高嘗試次數

為了評估性能如何隨著嘗試次數的增加而變化,研究團隊使用通過率指標(pass@k)評估了GPT-4o和o1。

如下圖7所示,所有模型的通過率都隨著嘗試次數的增加而持續提升。

這種趨勢在o1模型中特別明顯,增加6次嘗試後,解決任務的比例提高了近兩倍。GPT-4o在允許6次嘗試時(pass@6)達到了與o1首次嘗試(pass@1)相同的得分(16.5%)。

增加測試計算資源

在高質量數據集的IC SWE任務中,啟用o1和用戶工具的實驗表明,增加推理計算量能將通過率從9.3%(低計算量)提升至16.5%(高計算量),相應的報酬也從16,000美元增加到29,000美元,報酬率從6.8%提升至12.1%。

下圖8展示了不同計算資源水平下各價格區間任務的通過率分佈,結果表明增加測試計算資源能特別提高在較難且報酬較高問題上的性能表現。

移除用戶工具

如下圖9所示,在IC SWE任務中,移除用戶工具對通過率(pass@1)的影響較小。

不過,研究人員觀察到較強的模型能夠更有效地利用用戶工具,因此在此消融實驗下會經歷更大的性能下降。

討論

結果表明,在基準測試中的真實自由職業工作對於前沿大語言模型來說仍具有相當的挑戰性。

表現最優的模型Claude 3.5 Sonnet在SWE-Lancer高質量數據集上獲得了208,050美元的報酬,成功解決了26.2%的IC SWE任務問題。然而,其大部分解決方案仍存在錯誤,要達到可信部署的標準還需要提高可靠性。

最強大的模型在各類任務中都表現出色。

下表2將任務按照應用程序邏輯(客戶端)、UI/UX、服務器端邏輯和系統範圍的質量和可靠性任務進行分類,並列出了GPT-4o、o1和Claude 3.5 Sonnet在每種任務類型上的pass@1通過率以及對應任務數量。

數據顯示,所有模型在SWE管理任務上的表現均優於IC SWE任務,且Claude 3.5 Sonnet表現最佳。

下表3將任務按照Bug修復、新功能或增強以及維護、QA、測試或可靠性改進進行分類。

數據顯示,各模型在Bug修復類型的任務上表現相對較好,而在新功能或增強類型的IC SWE任務上表現較差。

這些模型在SWE管理任務上的通過率通常是IC SWE任務的兩倍以上。特別是在用戶界面/用戶體驗(UI/UX)任務上,Sonnet 3.5比o1的表現高出近15%;在實施新功能或功能增強的任務上,也領先將近10%。

有效使用工具是區分頂級表現的關鍵。

研究發現,最強大的模型經常使用用戶工具,並能高效解析輸出結果來重現、定位和迭代調試問題。

用戶工具通常需要90到120秒的運行時間,在這段等待期間,像GPT-4o這樣相對較弱的模型往往會完全放棄使用該工具。表現最優的模型會考慮到這種延遲,設置合理的超時時間,並在結果可用時進行複查。

AI智能體在問題定位方面表現突出,但往往未能找出根本原因,導致解決方案不完整或存在缺陷。這些智能體能夠通過在整個代碼庫中進行關鍵詞搜索,以驚人的速度準確定位相關文件和函數。

然而,它們對問題如何跨越多個組件或文件的理解往往有限,未能解決根本原因,從而導致解決方案不正確或不夠全面。研究人員很少發現AI智能體嘗試重現問題或因找不到正確的修改位置而失敗的情況。

參考資料:

https://openai.com/index/swe-lancer/