AI科學家太多，誰可靠一試便知，普林斯頓新基準CORE-Bench：最強模型僅有21%準確率

普林斯頓大學新發佈的CORE-Bench基準測試，通過270個基於90篇跨學高高學論文的任務，可評估AI智能體在計算可重覆性方面的表現，最簡單任務的準確率可以達到60%，最難任務準確率僅有21%

大模型的能力越來越強，用戶在一些重要的任務中也可以依賴大模型，比如說輔助做科研。

不過現有科研輔助相關的基準測試都太簡單，跟現實世界的任務差距還是比較大的。

最近，普林斯頓大學的研究人員發佈了一個新的基準測試CORE-Bench（Computational Reproducibility Agent Benchmark，計算可重覆性智能體基準測試），主要關注模型在處理科研問題中的計算可重覆/可複現（computational reproducibility）的問題。

論文鏈接： https://arxiv.org/pdf/2409.11363v1

對其他論文進行重覆是科研活動的基礎，研究人員需要使用提供的代碼和數據來對論文中報告的結果進行複現。

CORE-Bench基於90篇科學論文，包含了270個任務，覆蓋了三個學科（計算機科學、社會科學和醫學），其任務被劃分為三個難度等級，覆蓋純文本和視覺-語言任務。

文中還提供了一個評估系統，可以快速、並行地測試智能體的準確性，與順序實現相比，每次測試可以節省數天的評估時間。

在評估過程中，研究人員設計了兩個基線智能體：通用的AutoGPT和基於該任務設計的CORE-Agent，其中底層語言模型用到了GPT-4o和GPT-4o-mini，結果顯示，最佳智能體在最難級別的任務上達到了21%的準確率，即模型在常規科學任務自動化方面仍然有很大的改進空間。

CORE-Bench

基準構造

驗證可重覆性需要深度專業的領域知識，即使是對於經驗豐富的研究人員來說，其過程可能也算是勞動密集型的任務，驗證一篇論文最快也需要幾個小時，就算只是給100篇不同領域的論文建立可重覆性基準測試，也是不現實的。

簡單來說，研究人員的目標是找到一些比較困難的基準任務，雖然這些任務在現實中很難驗證其可重覆性，但其基準測試的建立要相對簡單一點。

為瞭解決這個問題，研究人員基於CodeOcean capsules構建了基準測試，可以輕鬆地進行複現。

研究人員從CodeOcean中選擇了90篇可複現的論文，然後將數據集分為45篇用於訓練和45篇用於測試。

在論文的選擇標準上，由於CodeOcean包含來自不同學科和編程語言的論文，為了創建一個真實且健壯的基準測試，研究人員提出十個標準，可以確保CORE-Bench能夠代表多樣化但可行的計算可重覆性任務子集。

1. 對應於可公開獲取的研究論文；對於基準測試的範圍是必要的

2. 來自計算機科學、醫學或社會科學領域；測試由於分佈變化導致的準確性變化

3. 用Python或R編寫；測試由於分佈變化導致的準確性變化

4. 包含一個README文件；提高構建有效性，雖然並非所有CodeOcean上的膠囊都有README文件，但現實世界中的大多數論文都有

5. 在CodeOcean的硬件上運行代碼不超過45分鐘；確保在給定的時間和硬件限制下膠囊（capsule）是可複現的

6. 需要一個相對簡單的Bash命令來正確複現代碼；允許輕鬆設計一個英文任務提示，指明在智能體無法訪問運行文件的情況下應該如何運行代碼

7. 結果在代碼輸出中有充分標記的圖表、表格或文件名；消除了為無組織或未標記的數據設計任務問題的需求

8. 運行代碼時結果的方差低；確保所有包含的膠囊都可以由人類驗證和複現

9. 膠囊大小不超過10GB；確保在給定的資源限制下膠囊是可複現的

10. 膠囊的結果可以在本地運行代碼時複現；確保膠囊是可複現的

雖然並非現實世界中的所有論文都符合這些標準，但這些標準可以提高任務的清晰度，確保了在當前智能體發展水平下，達到基準測試的高準確率是可行的，

對於每篇論文，手動創建了一組關於成功複現論文生成的輸出的任務問題，可以評估智能體是否正確執行了代碼並檢索了結果。比如說，可以要求智能體報告模型的測試準確率、圖表的軸標籤或其他複現的結果，其中有些是單一任務問題，有些任務則包含多個問題。

數據集中可以確保每個任務至少有一個不能通過猜測來解決的問題（比如開放式的數值答案），並且只有當所有任務問題都正確回答時，任務才會被標記為正確，也能夠保證任務無法通過隨機猜測來完成。

研究人員從網站CodeOcean.com中獲取的論文，CORE-Bench中的所有任務都來自於可複現的論文。

由於基準測試是衡量智能體複現與論文相關代碼運行結果的能力，而不是為了確保論文中報告結果的正確性，所以研究人員認為沒有必要在基準測試中包含不可複現的論文。

CORE-Bench的優勢

能力要求高、多模態（Skills and modalities）

解決CORE-Bench中的任務需要多種能力，包括理解指令、調試代碼、檢索以及跨學科解釋結果，模型只有具備這些技能才能在CORE-Bench上拿到更高分數，而這些技能對於複現新的研究成果來說也是必要的。

並且任務需要解釋代碼輸出的文本和圖像：基於視覺的問題需要從圖形、圖表、圖或PDF表格的屬性中提取結果；基於文本的問題包括從命令行文本、PDF文本、表格或HTML、Markdown或LaTeX中的文本提取結果。

例如，一個基於視覺的問題可能是「從室內空氣質量 – 廚房 – 秋季圖表中，報告濕度和氣體之間的相關性」，而一個基於文本的問題可能是「報告第10個epochs後神經網絡的測試準確率」。

現實世界中的計算可重覆性任務

在構建基準測試時，研究人員主要關注其建構有效性（construct validity），即如何有效地衡量模型在現實世界中的表現，即CORE-Bench的任務與研究人員必須完成的任務密切相關，而其他編碼基準測試中設計的玩具問題，並不能反映軟件工程的複雜性。

在CORE-Bench上提高表現將直接轉化為計算可重覆性的改善，也是科學研究的基石。

邁向科研智能體的第一步

完成新科學研究的第一步是能夠複製現有的科學工作，在實現能夠進行新穎研究的智能體的過程中，這一步是非常有必要的。

實驗結果

研究人員按照難度把CORE-Bench劃分為CORE-Bench-Easy、CORE-Bench-Medium和CORE-Bench-Hard

CORE-Bench-Easy只包括最簡單的任務，代碼輸出已經提供在環境中，智能體只需要導航環境以找到相關結果來回答任務問題。

在CORE-Bench-Medium上，智能體輸入一個Docker命令來複製論文的代碼，測試智能體與Bash終端交互的能力，如果智能體擅長與終端交互，這些任務應該也不算難。

CORE-Bench-Hard，智能體必須安裝所有依賴項和庫，並輸出正確的命令以複現結果。

研究人員並選擇了兩個基線模型進行評估：

1. AutoGPT，研究人員基本沒有修改原始模型，創建了query_vision_language_model工具，輸入位一張圖片和一個查詢，並利用OpenAI API輸出對該圖片查詢的回覆，以分析圖表和插圖中的結果，該模型的查詢視覺語言模型的能力並不特定於CORE-Bench。

2. CORE-Agent，研究人員在AutoGPT的基礎上創建了CORE-Agent，為CORE-Bench的不同難度級別進行定製，主要修改了程序檢查，以確保正確提交和報告複製結果的文件（即report.json）。

對於不同的難度級別，研究人員添加了特定的提示來引導智能體的行為，可以根據模型在訓練集上的表現進行定性分析，並調整指令，其中最耗時的部分是分析失敗日誌以確定有效的提示策略。

評估指標

任務準確率，即所有任務問題都回答正確的任務比例；智能體的平均成本，即請求智能體的平均API成本。

評估結果

總體來說，使用GPT-4o的CORE-Agent在基準測試集的所有三個級別上都是表現最佳的智能體，其在CORE-Bench-Easy上解決了60.00%的任務，在CORE-Bench-Medium上解決了57.78%，但在CORE-Bench-Hard上僅解決了21.48%

實驗結果表明，通用智能體可以通過簡單地調整就能適應特定任務，從而獲得顯著的性能提升，作為對比，使用GPT-4o的AutoGPT在CORE-Bench-Hard上僅得分6.7%

文本問題比視覺問題簡單

智能體在基於文本的問題上的表現始終優於基於視覺的問題。在測試集上，使用GPT-4o的CORE-Agent在CORE-Bench-Easy中正確回答了59.26%的視覺問題和87.88%的書面問題；使用GPT-4o-mini的CORE-Agent正確回答了37.78%的視覺問題和81.81%的書面問題。

視覺問題之所以更難，主要因為模型需要分析圖表中的結果，而書面答案通常可以直接在終端輸出中找到。

如果生成了多個輸出文件，智能體有時無法找到相關的圖表；即使找到了，分析輸出也可能很睏難。

Python比R更簡單

智能體在Python任務上的表現遠勝於R任務，可能的原因是R的輸出通常更難解析，因為許多R任務生成了完整的PDF手稿，智能體需要閱讀；另一個可能原因是安裝R包的依賴項可能比Python花費的時間要長得多。