北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?

本項目由北京大學物理學院朱華星老師、曹慶宏副院長統籌指導。基準設計、項目管理以及數據整合的主要工作由學生核心團隊完成,核心成員包括仇是、郭紹陽、桑治卓洋、孫韞博、蔡則宇、衛家燊、羅天宇等。項目還得到了北京大學計算中心羅民興院士和人工智能研究院張牧涵老師的鼎力支持。

PHYBench 項目彙聚了來自物理學院及兄弟院系的 200 餘名學生,共同承擔題目編寫、審核及人類基準測試等工作。這支高水平的參與者團隊中,包含至少 50 位全國中學生物理競賽金牌得主,更有亞洲物理奧賽和國際物理奧賽的金牌獲得者。這場大規模、高質量的協作,不僅充分展現了北大學子深厚的學術功底和卓越的組織協調能力,也為 PHYBench 產出高質量成果提供了堅實保障。

在大語言模型(LLMs)飛速發展的當下,模型的推理能力儼然成為模型能力的代名詞。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相繼發佈,這些大模型憑藉強化學習技術的助力,在許多科學評測基準上頻頻刷新紀錄,甚至聲稱 「超越人類專家」。

但是,隨著模型能力和評測基準的軍備競賽白熱化,越來越多的基準不得不轉向生僻的知識點、或者抽像的數學競賽題。這些題目雖然能 「區分」 模型,但是逐漸脫離實際場景,可能難以真正反映模型的實際表現。

近日,北京大學物理學院聯合人工智能研究院等多個院系,推出了全新評測基準 PHYBench。PHYBench 包含 500 道經過精心設計的高質量物理題(如圖 1),難度橫跨高中物理、大學物理以及物理奧林匹克競賽。這些題目以真實的物理場景為基礎,對人類來說並不抽像,卻把一眾大模型考得七零八落。大模型在解決物理題時的思維鏈也暴露了它們在感知(Perception)和推理(Reasoning)能力上的缺陷。

  • 論文鏈接:https://arxiv.org/abs/2504.16074

  • 項目網址:https://phybench-official.github.io/phybench-demo/

  • 數據集:https://huggingface.co/datasets/Eureka-Lab/PHYBench

也許,物理才是最適合考察 AI 推理能力的學科?PHYBench 的嘗試為評估大模型真正有效的推理能力提供了全新的工具和視角。

圖 1:題目樣例與兩種評估方法:表達式樹編輯距離、正確率。圖 1:題目樣例與兩種評估方法:表達式樹編輯距離、正確率。

表 1:與現有 benchmark 對比,PHYBench 在高難度數據集中,有著相對大的規模,同時引入了創新的分數度量:表達式樹編輯距離。

評測方法創新

表達式樹編輯距離(EED Score) 

傳統基準通常依賴 Accuracy 這一單一指標:設置唯一正確答案,模型只有在完全匹配時才能得分。為了方便評分,問答題通常被改寫成選擇題或要求代入數值。這樣會導致答案的信息量被嚴重壓縮,而且給出過多條件可能導致模型 「根據選項猜過程」,或者缺乏使用解析表達式表達普適關係的能力。同時在高難度的樣本上,0/1 打分會使得所有模型在分數層面都被歸零,強弱差異無從體現。

EED Score(Expression‑tree Edit Distance)帶來了更貼近人類閱卷的方案。它將數學表達式解析成表達式樹,再計算模型答案與參考答案之間的編輯距離:樹的結構越接近,得分越高。這一機制輸出的是連續、細粒度的分數,能在更多題目上顯示區分度,顯著提高了統計效力。

實驗表明,採用 EED Score 的 500 題,其區分能力相當於 1500 道使用 0/1 Accuracy 的題目。上圖(圖 1)展示了同一道題三種不同答案在 Accuracy 與 EED Score 下的對比:前者只能給出 「全錯 / 全對」 的粗糙評價,而後者則定量刻畫了模型解答與正確答案之間的 「距離」。

實驗結果

前沿模型與人類專家的差距

PHYBench 團隊招募了 81 名北大學子,在 3 小時時限內做 8 道題目,與最先進的 AI 模型展開了一場 “人機大戰”。

結果顯示,即使是最強的 Gemini 2.5 pro,也只能答對 36.9% 的題目,EED 評分 49.5%。而 「人類專家」 們則輕鬆碾壓,平均正確率高達 61.9%,EED 評分高達 70.5%。 排名前 25% 的受試者更是達到了 71.4% 的正確率 —— 幾乎是最強 AI 的兩倍。其他模型與人類的差距則更為顯著。這一顯著差距揭示了現階段 LLM 在在物理推理場景中的瓶頸。

PHYBench 對模型的能力也進行了細粒度的對比。可以看到,Gemini 2.5 pro、o3 等強推理模型雖然和人類還有較大差距,但是相比前代推理模型已經有了明顯的進步。DeepSeek-V3 等基座模型雖未能超越主流推理模型,但也展現出了亮眼的成績。QwQ-32B 和 DeepSeek32B 蒸餾模型等小型推理模型在 PHYBench 上的表現很令人失望,這可能歸因於其物理感知能力的不足。

基於思維鏈的錯因分析:PP × RR

PHYBench 團隊對模型的錯誤進行了系統性總結分析,將模型的推理過程和推理能力劃分為了兩個關鍵模塊:物理感知(Physical Perception,PP)和魯棒推理(Robust Reasoning,RR):

  • 物理感知(PP):在此階段,模型進行密集的文字推理,模型需要識別問題相關的物理對象、變量和動力學關係,定性判斷哪些物理效應是重要的,哪些可以忽略不計。若 PP 出錯,後續整個推理都會偏離軌道。(示例 1 展示典型 PP 失誤)

  • 魯棒推理(RR):在此階段,模型寫下大量的 「草稿」,一步步化簡表達式,解方程。現階段的推理模型在此階段的推理效率尚不高,「草稿」 長度遠長於人類,而且經常犯 「低級錯誤」。(示例 2 展示典型 RR 失誤)

PP 和 RR 交替進行,組成了典型的物理解題思維鏈。

未來展望

推動 AI 的物理理解與推理能力發展

PHYBench 的願景遠不止於 「評測」,更在於 「引領」 AI 探索物理世界的無限可能。

PHYBench 的發佈,不僅為評估大語言模型在物理感知與推理方面的能力提供了一個全新且權威的基準,更為未來 AI 系統的發展指明了攻堅方向。我們精心設計的真實、複雜的物理場景,旨在深度激發並驗證 AI 理解世界並進行可靠推理的能力,推動 AI 系統真正實現對世界的認知、融入與變革。

面向未來,PHYBench 團隊將持續致力於數據集的拓展與創新,計劃納入更多前沿物理課題、跨學科交叉內容,甚至挑戰人類尚未解開的科學謎題。我們相信,通過提供更具深度和廣度的物理挑戰,PHYBench 將有力催化 AI 向著突破認知邊界、探索未知領域的 「智能夥伴」 或 「超級助手」 發展。