推理模型規劃任務成功率從5%到95%,DeepMind遺傳算法新研究火了

一水 發自 凹非寺

量子位 | 公眾號 QbitAI

瞄準推理時擴展(Inference-time scaling),DeepMind新的進化搜索策略火了!

所提出的「Mind Evolution」(思維進化),能夠優化大語言模型(LLMs)在規劃和推理中的響應。

由於提升顯著,Reddit/𝕏一時間出現了大量討論:

由於結合了遺傳算法,使用Mind Evolution能讓Gemini 1.5 Flash任務成功率從原本的5%左右,一下提升90個百分點。

而且成本方面,和最接近這一性能的傳統方法Sequential-Revision+相比,所使用的tokens數量僅為後者的幾分之一。

響應更好,成本還降低了,還是無需微調的結果。

這令人熟悉的配方又直接「迷倒」了一大片網民:

與此同時,Mind Evolution還有一大優勢也令人津津樂道:

它可以直接處理自然語言問題,而無需像傳統一樣需要將任務問題進一步形式化(即將實際問題轉化為精確的、可被算法處理的數學或邏輯形式)

也就是說,僅需一個最終檢查解決方案是否正確的評估器,任務形式化也不需要了。

將問題形式化,需要大量領域專業知識和對問題的透徹理解,才能找出所有需用符號表示的關鍵元素及其關係,這大大限制了Inference-time scaling的適用範圍。

總之按網民形容,這項研究就像給大語言模型升級大腦而不刷爆信用卡,酷酷酷!!

下面來看具體是如何做到的。

結合了進化搜索原理和LLMs的自然語言能力

首先,OpenAI的o1系列模型率先引入了推理時擴展(inference-time scaling)的概念,通過增加思維鏈(Chain-of-Thought)推理過程的長度,在數學、編程、科學推理等任務上取得了顯著的性能提升。

換句話說,通過讓模型思考更多、更深,其響應也會越來越好

而為了更多利用推理時擴展,先前研究還提出了自一致性(self-consistency)、基於反饋的順序修正(如Sequential-Revision +),以及由輔助驗證器或評估器引導的搜索(如Best-of-N)

基於同樣目的,DeepMind提出了Mind Evolution這一針對LLMs的新進化搜索策略。

結合了進化搜索原理與LLMs的自然語言能力,既允許對可能的解決方案進行廣泛探索,也允許對有希望的候選方案進行深入細化。

具體而言,Mind Evolution依賴於兩個關鍵組件:搜索算法和遺傳算法

搜索算法比較常見,一般用來讓LLMs找到最佳推理路徑以獲得最優解;而遺傳算法結合大語言模型,在自然語言處理任務中,通過迭代優化候選解決方案,以更好地滿足任務目標。

舉個例子,假如面臨上圖中的任務:

請計劃從西雅圖到洛杉磯和南達科他州的5天旅行,預算為800美元。我們希望至少有一頓晚餐吃日本料理,並且偏好入住私人酒店客房。

Mind Evolution整體處理流程如下(類似遺傳算法)

  • 樣本解決方案生成(Sample solutions):使用LLMs生成多個初始旅行計劃;

  • 評估(Evaluate):對生成的解決方案給出反饋,指出問題,如成本超出預算限制、用餐偏好未滿足等;

  • 改進(Refine,包括選擇、交叉、變異):根據評估反饋,對解決方案進行改進;

  • 終止條件(Terminate):當滿足以下條件之一時終止,如找到有效或最佳解決方案,或達到最大計算預算(Gen N)。

這裏尤其需要提到改進過程,其中選擇是指依據評估反饋,選擇更有可能改進的解決方案;交叉指將不同解決方案的部分內容進行組合,實現類似生物基因重組的效果,生成新的候選解決方案;變異是指對解決方案進行隨機調整,增加種群多樣性,以探索更多可能的解決方案。

最終,評估、選擇和重組的循環將持續進行,直到算法達到最優解或耗盡預設的迭代次數。

另外值得一提的是,Mind Evolution具體是通過「The fitness function」(適應度函數)來消除任務形式化問題。

簡單說,適應度函數適配自然語言規劃任務,解決方案以自然語言呈現。

如此一來,在有程序性解決方案評估器時,系統可規避問題形式化,並且除給出數值評分外,還能提供文本反饋,幫助LLMs理解具體問題並開展針對性優化。

此外,Mind Evolution還採用「island」(島嶼)方法來確保多樣化探索。

在每一個階段,算法都會創建各自獨立進化的解決方案組。然後,它將最優解從一組「遷移」到另一組,以結合併創造新的解決方案。

那麼,Mind Evolution實際表現如何呢?

規劃表現均優於其他基線方法

實驗階段,研究人員將它和其他基線進行了對比。

  • 1-pass:使用o1-preview,模型只生成一個答案;

  • Best-of-N,模型生成多個答案並選擇最佳答案;

  • Sequential Revisions+:模型獨立提出10個候選解決方案,然後分別對80次迭代進行修訂。

可以看出,儘管缺少遺傳算法組件,Sequential Revisions+在旅行規劃上的成功率最為接近Mind Evolution。

不過隨著從左至右任務複雜性的增加,Mind Evolution與其他方法之間的差距越來越大,優勢愈發凸顯。

整體來看,在所有測試中,Mind Evolution的表現都遠遠超過了基線,尤其是在任務變得更加困難時

在TravelPlanner(評估旅行規劃)和Natural Plan(評估會議規劃)這兩項基準測試中,未採用Mind Evolution的Gemini 1.5 Flash任務成功率分別為5.6%和20.8%,而採用Mind Evolution之後,其任務成功率分別提升至95.6%和85.0%。

而且,如果繼續將Gemini 1.5 Flash未解決的問題丟給1.5Pro,其成功率更是上升至100%和98.4%

另外成本方面,和最接近上述性能的傳統方法Sequential-Revision+相比,所使用的tokens數量僅為後者的幾分之一。

除此之外,研究人員引入了一項新測試任務——StegPoet

需要在創意寫作中嵌入隱寫信息,屬於自然語言規劃任務範疇。

簡單說,它要求在創作富有創意的文本內容時,還要將特定的信息以隱寫的方式巧妙融入其中,這既需要邏輯推理能力,也對LLMs在創造性表達方面的能力提出了更高要求。

而從相關實驗來看,Mind Evolution也經受住了這一複雜任務的考驗。

總體來說,這項研究通過將廣泛搜索(隨機探索)與深度搜索(利用LLM進行解決方案細化)相結合,進一步提升了模型在規劃和推理上的響應。

更多細節歡迎查閱原論文。

論文:

https://arxiv.org/abs/2501.09891

參考鏈接:

[1]https://venturebeat.com/ai/deepmind-new-inference-time-scaling-technique-improves-planning-accuracy-in-llms/

[2]https://www.reddit.com/r/singularity/comments/1i5o6uo/google_deepmind_evolving_deeper_llm_thinking/

[3]https://x.com/_akhaliq/status/1881182840857178146