剛剛,DeepMind通用科學智能體AlphaEvolve突破數學極限,陶哲軒合作參與

機器之心報導

編輯:+0、劉欣

今天,DeepMind 正式發佈了 AlphaEvolve —— 一個由 LLMs 驅動的革命性進化編碼智能體。

它不僅僅是一個代碼生成工具,更是一個能夠演化整個代碼庫,用於通用算法發現和優化的強大系統。 

  • 技術報告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf

  • 官方博客:https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

LLM 具有驚人的多功能性。它們能夠總結文件、生成代碼,甚至提出新想法。如今,DeepMind 將這些能力擴展到了數學和現代計算中的基礎性和高度複雜的問題。

Google DeepMind 的研究員 Matej Balog 在接受採訪時表示:「它可以發現極其複雜的算法 —— 跨越數百行代碼,具有複雜邏輯結構,遠超出簡單函數的範疇。」

陶哲軒也在 mathstodon 上表示,他一直在和 Google DeepMind 合作,探索 AlphaEvolve 的潛在數學應用。

大多數 AI 模型都會產生幻覺。由於他們的概率架構,他們有時會自信地編造東西。事實上,像 OpenAI 的 o3 這樣的較新 AI 模型比它們的前輩更容易產生幻覺

AlphaEvolve 引入了一種減少幻覺的巧妙機制:自動評估系統。該系統使用模型來生成、批評和得出問題的可能答案池,並自動評估和評分答案的準確性。

AlphaEvolve 還將 Gemini 模型的創造性問題解決能力與自動驗證答案的評估器相結合,並利用進化框架來持續優化最具潛力的解決方案。

AlphaEvolve 提升了Google數據中心、芯片設計和 AI 訓練流程的效率 —— 包括訓練支撐 AlphaEvolve 本身的大型語言模型。它還幫助設計了更快的矩陣乘法算法,並為開放性數學問題找到了新的解決方案,在許多領域的應用前景有著巨大潛力。

用大型語言模型設計更好的算法

AlphaEvolve 是一個可以超越單一函數發現,演化整個代碼庫並開發更複雜算法的智能體。 

與許多隻演化單一函數的系統不同,AlphaEvolve 的一大亮點在於能夠對整個代碼庫進行迭代優化和演化。

這建立在 DeepMind 2023 年的一項工作 ——FunSearch 基礎上, DeepMind首次證明大型語言模型能夠生成計算機代碼中的函數,以幫助發現開放性科學問題上的新知識並證明其正確性。

表 1 展示了 AlphaEvolve 與先前的 agent 的能力和典型行為上的對比。

核心機制:LLM 的創造力與自動化評估的結合

那麼,AlphaEvolve 是如何實現這種強大的代碼演化能力的呢?其核心在於將大型語言模型的創造力自動化評估的客觀反饋巧妙地融入到一個進化框架中。 

這個過程可以概括為一個持續的「生成 – 評估 – 進化」循環: 

圖示展示了整個系統的工作流程:提示采樣器首先構建輸入提示,驅動語言模型生成新程序;這些程序經過評估器評分後被存入程序數據庫。數據庫通過進化算法不斷優化程序選擇,推動系統持續進化。

生成

AlphaEvolve 結合了多款最先進的大型語言模型:Gemini Flash(DeepMind 最快速且高效的模型)拓展了創意探索的廣度,而 Gemini Pro(DeepMind 最強大的模型)則憑藉深刻洞見提供瞭解決方案所需的關鍵深度。

採用該集成策略的目的是在保持生成解法的質量的同時,提高計算吞吐率。這些模型協同生成實現算法解決方案的計算機程序。

1、提示語采樣(Prompt Sampling)

由於 AlphaEvolve 依託於當前最先進的 LLM,它支持多種形式的自定義操作,並能在其主進化提示語(primary evolution prompt)中提供較長的上下文信息。

該提示語通常包含從程序數據庫中采樣而來的多個既有解法,以及關於如何修改特定解法的系統指令。 用戶還可以通過顯式上下文、渲染的評估結果等方式進一步對提示語進行定製。 

2、創造性生成(Creative Generation)

為推動進化過程,AlphaEvolve 借助當前最先進的 LLM 的能力。其核心作用在於理解先前產生的解法信息,並提出多樣化的新改進途徑。

儘管 AlphaEvolve 本身並不依賴於特定模型(具備模型無關性),但在消融實驗中觀察到,AlphaEvolve 的表現會隨著底層 LLM 性能的提升而持續改善。

輸出格式(Output Format):當 AlphaEvolve 要求 LLM 對已有代碼進行修改,尤其是在較大的代碼庫中,它會要求以特定格式提供一組差異化(diff)片段。格式如下:

其中,位於 <<<<<<>>>>>> REPLACE 之間則是新的代碼片段,用於替換原片段。

通過這種方式,可以將修改精準應用於代碼的指定部分。如果被進化的代碼很短,或當從頭重寫比局部修改更合理時,AlphaEvolve 也可配置為要求 LLM 直接輸出完整代碼塊,而不使用差異化的格式。

評估

在這個循環中,自動化評估指標扮演了至關重要的角色。AlphaEvolve 使用這些指標來驗證、運行和評分所提出的程序。這些指標為每個解決方案的準確性和質量提供了客觀、可量化的評估。

1、任務規範 

評估:由於 AlphaEvolve 處理的是可由機器評級的(machine-gradeable)問題,用戶必須提供一種自動評估生成方案的機制。通常採用函數 h 的形式,將方案映射到一組標量評估指標(需最大化),通常實現為一個 Python 函數(evaluate)。 

API:為支持演化代碼庫中的多個組件,AlphaEvolve 開放了一個輸入 API,通過在代碼中添加特殊標記(如註釋中的 # EVOLVE-BLOCK-START 和 # EVOLVE-BLOCK-END)來指定哪些代碼塊可由系統進行演化。這些演化塊中用戶提供的代碼作為初始方案,其餘代碼則構成連接這些演化部分的骨架,使其可以被 evaluate 函數調用。

在選擇抽像層面方面具有靈活性:AlphaEvolve 可以用非常不同的方式應用於同一個問題,尤其當演化出的程序不是最終輸出,而是發現方案的手段時。例如,可以演化原始字符串表示的方案、演化一個定義明確的函數來從頭構造方案、演化一個定製的搜索算法在固定計算預算內尋找方案,甚至可以共同演化中間方案和搜索算法。

2、評估過程與優化機制

為了追蹤 AlphaEvolve 的進展並選擇在未來代際中傳播的想法,LLM 提出的每個新方案都會被自動評估。基本過程是執行用戶提供的評估函數 h。實際上,AlphaEvolve 支持多種機制,以使評估更靈活和高效:

  • 評估級聯(Evaluation Cascade): 利用難度遞增測試集快速篩選方案。

  • LLM 生成反饋(LLM-generated Feedback): 利用 LLM 對難以量化屬性進行評分。

  • 並行評估(Parallelized Evaluation): 分佈式執行評估任務以提高效率。

支持多評估指標優化(Multiple scores),同時優化多個目標,甚至能改善單一目標結果。

進化

在其進化過程中,AlphaEvolve 不斷生成帶有評估結果(得分和程序輸出)的方案。這些方案被存儲在一個進化數據庫(evolutionary database)中。該數據庫的首要目標是最優地在未來代際中重新利用先前探索過的想法。

設計此類數據庫的一個關鍵挑戰在於平衡探索(exploration)與利用(exploitation):即在持續改進當前最優方案的同時,保持方案的多樣性以鼓勵探索整個搜索空間。

在 AlphaEvolve 中,該進化數據庫實現了一種算法,其靈感來源於 MAP-elites 算法和基於島嶼的種群模型(island-based population models)的組合。

這使得 AlphaEvolve 在數學和計算機科學等可以清晰、系統地衡量進步的廣泛領域中特別有幫助。

優化 DeepMind 的計算生態系統

在過去的一年中,DeepMind 將由 AlphaEvolve 發現的算法部署到了Google的整個計算生態系統中,包括 DeepMind 的數據中心、硬件和軟件。

這些改進的影響在 DeepMind 的人工智能和計算基礎設施中被成倍放大,為 DeepMind 的所有用戶構建了一個更強大、更可持續的數字生態系統。

圖示說明了 AlphaEvolve 如何幫助Google提供一個更高效的數字生態系統,從數據中心調度和硬件設計到人工智能模型訓練。

改進數據中心調度

AlphaEvolve 發現了一個簡單但非常有效的啟髮式方法,幫助 Borg 更高效地協調Google龐大的數據中心。這個解決方案已經投入生產一年多,平均持續恢復了Google全球計算資源的 0.7%。這種持續的效率提升意味著在任何給定時刻,都可以在相同的計算資源上完成更多任務。

AlphaEvolve 的解決方案不僅實現了強大的性能,還提供了人類可讀代碼的重要操作優勢:可解釋性、可調試性、可預測性和易於部署。

協助硬件設計

AlphaEvolve 提出了一種 Verilog 重寫方案,移除了矩陣乘法關鍵、高度優化的算術電路中的多餘位。該提議通過強大的驗證,確認修改後的電路保持功能正確性,並被整合到了即將推出的張量處理單元(TPU)中。

通過在芯片設計者的標準語言(Verilog)中提出修改,AlphaEvolve 促進了 AI 和硬件工程師之間的協作,以加速未來專用芯片的設計。

提升人工智能訓練與推理效率

AlphaEvolve 正在顯著加速 AI 的性能表現與研究進程。

通過找到更聰明的方法分解大型矩陣乘法運算,它在 Gemini 架構中將這一關鍵內核的運行速度提升了 23%,進而使 Gemini 的訓練時間縮短了 1%

除了性能提升外,AlphaEvolve 顯著減少了內核優化所需的工程時間,從專家花費數週減少到自動化實驗僅需數天。

AlphaEvolve 還能夠優化低級 GPU 指令。在基於 Transformer 的 AI 模型中,為 FlashAttention 內核實現實現了高達 32.5% 的速度提升。這種優化幫助專家精準定位性能瓶頸,並輕鬆整合改進措施。

推進數學和算法發現的前沿

更快的矩陣乘法算法

AlphaEvolve 還可以為複雜的數學問題提出新方法,例如矩陣乘法 —— 計算機科學中的一個基礎性問題。通過基於梯度的優化程序,AlphaEvolve 設計併發現了一種使用 48 次標量乘法 乘以 4×4 複值矩陣的算法。 

這一發現改進了 Strassen 1969 算法,這是 56 年來在這一設置中首次已知的改進,也表明了對 DeepMind 先前工作 AlphaTensor 的重大超越。 

解決開放性問題

為了探索 AlphaEvolve 的廣度,DeepMind 將該系統應用於數學分析、幾何學、組合學和數論中的 50 多個開放性問題。該系統的靈活性使其能夠在幾小時內設置大多數實驗。

在大約 75% 的情況下,它重新發現了最先進的解決方案;在 20% 的情況下,AlphaEvolve 改進了之前已知的最佳解決方案,在相應的開放性問題上取得了進展。

例如,在吸引了數學家們超過 300 年興趣的親吻數問題(Kissing number problem)上, AlphaEvolve 發現了 593 個 外球的配置,並在 11 維中建立了新的下限。

更多詳細內容請參見原論文。

參考鏈接:

https://venturebeat.com/ai/meet-alphaevolve-the-google-ai-that-writes-its-own-code-and-just-saved-millions-in-computing-costs/

https://www.nature.com/articles/d41586-025-01523-z

https://techcrunch.com/2025/05/14/deepmind-claims-its-newest-ai-tool-is-a-whiz-at-math-and-science-problems/