首次擊敗人類數學天才,高中生最難數學考試被DeepMind AI攻克了
讓人類高中生頭疼的最難數學考試——國際數學奧林匹克競賽(IMO)——被人工智能(AI)攻克了。
在一項近期公佈的研究中,Google DeepMind團隊稱他們的幾何解題系統 AlphaGeometry解決了 84%(42/50)的幾何難題,其表現首次超過了 IMO 平均金牌得主(40.9/50)的水平。
此外,去年 7 月,AlphaGeometry 也「聯手」AlphaProof(一個基於強化學習的形式數學推理新系統),在當年 IMO 中首次達到了銀牌獲得者的水平。
AlphaGeometry2 是 AlphaGeometry 的顯著改進版本。它是一個神經符號混合系統,其語言模型基於 Gemini,並在比其前身多一個數量級的合成數據上從頭開始訓練。這幫助模型解決更具有挑戰性的幾何問題,包括關於物體運動和角度、比例或距離的方程問題。
AlphaGeometry2 使用的符號引擎比其前身快兩個數量級。面對新問題時,一種新穎的知識共享機制被用來實現不同搜索樹的先進組合,以解決更複雜的問題。
對此,倫敦帝國理工學院數學家 Kevin Buzzard 評價道:「我想,不久之後,計算機就能在 IMO 競賽中拿滿分了」。
相關研究論文以「Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2」為題,已發佈在預印本網站 arXiv 上。
更強的數學推理,速度提升 300 倍
AlphaGeometry2(AG2)是 Google DeepMind 開發的一款神經-符號混合 AI 系統,用於解決國際數學奧林匹克(IMO)的幾何問題。
AG2 結合了語言模型(Neural)和符號推理引擎(Symbolic),採用一種混合推理方法(neuro-symbolic approach)來解決幾何問題。相比其前代 AlphaGeometry(AG1),AG2 在解題率、搜索算法、語言模型和符號推理方面都有重大改進,首次超越了 IMO 平均金牌得主的表現。
據論文描述,AG2 在原始 AlphaGeometry(AG1)語言的基礎上進行了擴展,使其能夠處理更複雜的幾何問題,包括:
物體移動(Locus-type Problems):AG2 新增了軌跡(locus)相關謂詞,使 AI 能夠推理點、直線、圓等幾何對象的移動;
線性方程問題(Linear Equations):AG2 現在可以解析涉及角度、比例和距離的線性方程;
新的幾何謂詞(Predicates):AG2 語言新增了多個謂詞,以支持更複雜的幾何推理。
這些擴展將AG2 語言的覆蓋率(coverage rate)從 66% 提高到了 88%,使其能夠處理更多 IMO 幾何題目。

圖|AG2 與 AG1 的訓練數據分佈對比(a-c): a.與 AG1 相比,AG2 包含更複雜/更長的問題; b.AG2 在每種問題類型的示例分佈上更加均衡; c.G2 在包含輔助點的證明與不包含輔助點的證明之間具有更均衡的比例)
此外,AG2 還採用了 Gemini 語言模型,相比 AG1 具有更強的數學推理能力。該語言模型用於預測幾何構造(如輔助線、角度計算等),並幫助生成解題步驟,其訓練數據包含 3 億條自動生成的定理和證明,大幅擴展了 AI 的數學知識庫。
同時,AG2 採用了一種新型搜索算法(Shared Knowledge Search Trees, SKEST),引入知識共享機制,將多個搜索樹(multiple search trees)結合在一起,相比 AG1 僅用單一搜索策略,AG2 允許不同搜索路徑可以共享已驗證的數學推理,顯著提升了 IMO 競賽的求解能力。

不僅如此,相比 AG1 的符號引擎,AG2 在求解速度上提升 300 倍,並且新增處理「雙點」能力,能夠解決一些需要構造多個相交點的問題。
探索可泛化 AI
儘管 AG2 已經取得突破性進展,但仍存在一定局限性。在 AG2 未能解決的題目中,有 6 道 IMO 題目因涉及變量點個數、不等式、非線性方程而未能求解,因 AG2 語言尚不支持這些類型;2 道題目涉及更高級的幾何技術(如反演、投影幾何、根軸法),目前也未在 AG2 的符號引擎中實現。
DeepMind 團隊表示,未來 AlphaGeometry 的改進方向將包括處理涉及不等式和非線性方程的數學問題,這些能力對於「完全解決幾何問題」至關重要;此外,進一步改進自動數學公式化(Auto-Formalization)技術,使 AI 能更準確地從自然語言解析數學問題也在團隊的計劃當中。
另外,研究表明, AG2 不僅能夠生成輔助構造(auxiliary constructions), 還能推導出完整的證明(full proofs),這表明當前的語言模型有潛力在無需外部工具(如符號推理引擎)的情況下獨立運行。如果他們的設想正確,這些解題能力可能會成為未來通用人工智能(AGI)的一個重要組成部分。
AlphaGeometry2 或許表明,符號操作和神經網絡這兩種方法的結合 ,是探索可泛化 AI 的一條有希望的道路。事實上,根據 DeepMind 的論文,同樣具有神經網絡架構的 o1 無法解決 AlphaGeometry2 能夠解答的任何 IMO 問題。
參考鏈接:
https://arxiv.org/pdf/2502.03544
https://www.nature.com/articles/d41586-025-00406-7
DeepMind claims its AI performs better than International Mathematical Olympiad gold medalists
本文來自微信公眾號「學術頭條」(ID:SciTouTiao),作者:陳小宇,36氪經授權發佈。