選擇/雜交/突變,DeepMind將自然選擇引入LLM思維,實現心智進化
機器之心報導
編輯:Panda
今天是個好日子,DeepSeek 與 Kimi 都更新了最新版的推理模型,吸引了廣泛關注。與此同時,Google DeepMind、加州大學聖地亞哥分校、阿爾伯塔大學的一篇新的研究論文也吸引了不少眼球,並直接衝上了 Hugging Face 每日論文榜第一(1 月 20 日)。

這篇論文題為《Evolving Deeper LLM Thinking》,可譯為「進化式更深度 LLM 思維」,其中提出了一種進化搜索策略,可用於 scaling LLM 的推理時計算(inference time compute)。該方法被命名為 Mind Evolution,即心智進化。實驗表明,在同等推理成本下,新方法的自然語言規劃任務表現會顯著優於 Best-of-N 和 Sequential Revision 等其它推理策略。

論文地址:https://arxiv.org/pdf/2501.09891
如何實現心智進化
Mind Evolution 採用了遺傳搜索策略,並結合了一個 LLM 和定製的提示集,從而可以有效地搜索自然語言規劃任務的解。為了理解 Mind Evolution,我們首先需要簡單瞭解基於語言的遺傳算法。
基於語言的遺傳算法
遺傳算法是一種受自然選擇啟發的元啟髮式算法。在遺傳算法中,候選解種群會朝著包含更多高質量個體的種群方向演化,這裏的質量是相對於目標優化目標而言的。這個目標通常也被稱為「適應度」函數。每個候選個體都有一個可以突變並與其他個體重組的遺傳表示。
演化搜索通常始於獨立生成的候選解種群。在每一代中,都會根據目標評估每個個體的適應度。然後基於適應度對候選個體進行隨機選擇(「選擇」)。在繁殖過程中,被選擇的父代的遺傳表示會進行組合(「雜交」)並可能發生改變(「突變」)以產生新的子代解。這個過程創造了下一代的子代,它們隨後進入種群。由於適應度更高的父代更有可能被選擇進行重組,種群適應度通常會隨著連續幾代而提高。
島嶼模型。為了維持演化種群的多樣性,還可引入島嶼模型。在該模型中,不同的子種群(「島嶼」)會獨立演化,直到按照特定頻率發生「遷移」和「島嶼重置」事件。對於遷移操作,一個島嶼上的解會基於適應度被隨機選擇遷移到相鄰島嶼。對於島嶼重置操作,整體適應度較低的島嶼上的種群會被全局種群中的強解替換,這也具有選擇效應。最近已經有一些研究成功採用了島嶼模型,如 FunSearch。
基於語言的遺傳表示。基於語言的遺傳算法中的個體候選解由自然語言表示。這允許通過提示詞來利用 LLM 強大的語言理解和生成能力來實現強大的重組(雜交和突變)和島嶼重置操作。
Mind Evolution
Mind Evolution 的設計見圖 1,其超參數則見表 1。


Mind Evolution 的核心組件包括:
-
選擇和遷移操作的具體選擇;
-
一個提示集,可使用 LLM 實現初始化、重組(雜交和突變)以及島嶼重置操作;
-
一個適應度函數,用於評估給定解的質量並可選擇性地反饋檢測到的問題。
整個演化過程會重覆進行,直到找到有效解,或者直到完成 N_gens 代演化,之後返回得分最高的候選解。
適應度評估。該團隊為每個問題域實現了一個適應度函數,其中候選解會被解析並以編程方式進行評估。原則上,任何可以評估解質量的函數都可以使用,包括 LLM 評估。
在 Mind Evolution 中,評估函數有三個關鍵作用:
-
通過衡量優化目標為解評分(如果有的話);
-
驗證解是否滿足給定約束;
-
提供相應的文本反饋。
需要注意的是,對於許多經典搜索問題(如 NP 完全問題),驗證解比解決問題要容易得多。同樣,該該團隊觀察到,對於所考慮的自然語言規劃任務,編寫評估函數是可能的。能夠檢查候選解的正確性並不意味著能在這個任務找到有效解。也就是說,實現評估函數並不等同於解決任務。
種群初始化。給定目標問題,通過向 LLM 提供問題描述、解決問題所需的任何信息以及相關指令,獨立采樣 N_convs 個初始解。如果 N_seq > 1,則每個初始解都會通過「通過批評性對話進行優化(Refinement through Critical Conversation)」過程的 N_seq – 1 個額外輪次進行評估和改進,該過程將在下文解釋。
這個初始化過程一共會生成 N_convs × N_seq 個候選解,它們構成了第一代第一個島嶼上的初始種群。
通過批評性對話進行優化(RCC)。給定一個候選解(或用於重組過程的一組候選解),該團隊利用 LLM 通過組織「批評者」角色和「作者」角色之間的批評性對話來生成改進的解,如圖 2 所示。

分離這兩個角色的目標是提高 LLM 的批判性思維能力。每輪對話都會被構建為一個由提示詞驅動的過程,其中解會根據批評性反饋進行改進,類似於 Reflexion。
具體來說,批評者首先會分析輸入的候選解,解讀文本評估反饋,並建議糾正反饋中提到的問題的方法。然後,作者基於輸入候選解、後續評估和批評者的分析提出一個改進的解。
選擇。為了產生島嶼的下一代,該團隊遵循玻爾茲曼錦標賽選擇(Boltzmann tournament selection)方法,其中根據從適應度分數的 softmax 變換得到的概率分佈,從種群中隨機采樣 0 到 N_parent 個父代。通過這種方式,表現更好的解更有可能被選擇用於繁殖,而其他候選解仍然可以偶爾被選擇以保持多樣性。
雜交和突變。該團隊將雜交和突變操作實現為單個重組步驟,即指示 LLM 使用上述 RCC 過程來改進給定的一組父代(圖 2)。具體來說,對於重組,采樣 1 到 N_parent 個父代,並修改圖 2 中的步驟(b)以首先納入父代的評估結果,然後對所有父代應用批評者並將修改後的解作為下一代的「初始解」提出。然後,如果 N_seq > 1,繼續遵循步驟(c)(d)(e)順序生成 N_seq – 1 個子代解,通過使用 RCC 過程改進每個先前的子代。
對於每個島嶼上的每一代,都會將 N_convs × N_seq 個子代解添加到島嶼種群中,並移除重覆的解。對於選擇,該團隊遵循玻爾茲曼錦標賽而不是顯式地淘汰候選解,除非執行如下的島嶼重置。
島嶼間遷移。在遷移事件之間,每個島嶼種群獨立演化。在遷移期間,在完成當前島嶼上的這一代後,頂部的 N_emigrate 個解從當前島嶼 i 複製到下一個島嶼 i + 1(該團隊按從 1 到 N_island 的順序順序更新島嶼上的種群)。遷移在島嶼之間循環進行,所以從島嶼 N_island 的移民會到達島嶼 1。該團隊發現這種形式的循環遷移可加速整體演化過程。
島嶼重置。島嶼重置每隔 N_reset 代就發生一次。在島嶼重置事件期間,首先從全局種群中選擇表現最好的個體,平均得分最低的 N_reset 個島嶼上的種群被淘汰,選定的表現最好的個體被複製到重置的島嶼上。為了選擇表現最好的個體,該團隊探索了兩種方法:
-
根據適應度直接選擇排名前 N_top 的候選解;
-
首先根據適應度選擇排名前 N_candidate 的候選解,然後提示 LLM 從這個池中選擇 N_top 個彼此有實質性差異的好候選解。消融研究表明,後一種策略的效果更好。
心智進化的實驗表現
任務。該團隊在三個基準自然語言規劃領域上評估了 Mind Evolution,其中包括來自 Natural Plan 的兩個任務(Trip Planning 和 Meeting Planning ),以及 TravelPlanner 基準。
模型。在實驗中,該團隊使用的預設 LLM 是 Gemini 1.5 Flash(gemini-1.5-flash001)。表 1 給出了將 Mind Evolution 應用於 Flash 時使用的超參數。除了評估使用 Flash 模型的 Mind Evolution 外,該團隊還研究了一種兩階段方法,其中對於在 N_gens 代限制內未解決的問題使用 Gemini 1.5 Pro 模型(gemini-1.5-pro-exp-0827)。這種兩階段方法比在每個問題實例上都使用 Pro 模型更具成本效益。
對比基線。對於每個任務,Mind Evolution 都與三種基線搜索策略進行了比較,這些策略使用了相同的解評估器和特定任務的提示詞:
-
1-Pass,其中使用 LLM 的單次前向傳遞得到解。
-
Best-of-N,獨立生成最多 800 個候選解,直到找到成功的解(與 Mind Evolution 上限相同)。
-
Sequential-Revision+,其中獨立提出 10 個候選解,然後使用 RCC 過程分別修改 80 輪。注意使用 10 個獨立的 80 輪改進線程而不是單個 800 輪改進,因為該團隊表示很少能觀察到 80 輪後的改進。這個基準方法類似於運行 10 次多輪 Reflexion。
此外,作為參考,該團隊還在對比中加入了使用 OpenAI o1-preview 的 1-Pass 基準。
TravelPlanner
TravelPlanner 是一個自然語言規劃基準,它模擬的問題是:根據用戶給出的偏好和約束條件,為用戶組織旅行計劃。
表 2 比較了 Mind Evolution 與基線策略的總體成功率和計算成本。

可以看到,在成功率方面,Mind Evolution 明顯優於基線策略,超過 95%。相比之下,Sequential-Revision+ 的表現也還行,接近 83%,而 Best-of-N 遜色多了,僅有 55.6%。總的來說,進化策略的優勢得到了明顯體現。
再來看看上面的兩階段方法,即使用 Gemini 1.5 Pro 處理未被解決的問題,該團隊發現幾乎整個數據集都可以被解決 —— 在驗證和測試問題上分別達到 100% 和 99.9% 的成功率。
該團隊表示,唯一接近這個成功率的研究成果是《Large language models can plan your travels rigorously with formal verification tools》(arXiv:2404.11891)—— 該方法使用 GPT-4 進行自動形式化,然後利用形式求解器分別在驗證和測試集上達到 98.9% 和 97.0% 的成功率。相較之下,Mind Evolution 完全無需形式求解器。
最後需要注意的是,TravelPlanner 數據集包含三個難度級別(簡單、中等、困難)和三個旅行時長(3 天、5 天、7 天),這就形成了 9 個不同的問題類別。圖 3 展示了在這些不同類別上的成功率的細分情況。

可以看到 1-Pass 和 Best-of-N 的成功率會在規劃更多旅行天數時下降,但對於 Mind Evolution 和 Sequential-Revision+ 這種迭代改進方法,這種趨勢不太明顯。
Natural Plan – Trip Planning
Trip Planning 任務的目標是找到一個行程安排,其中包含要訪問的城市序列以及在每個城市停留的天數,需要滿足航班連接性和日程安排約束。表 3 給出了一些問題實例。該團隊將基準數據集分為了 320 個驗證和 1280 個測試實例。

同樣,從表 2 可以看到,Mind Evolution 在這個任務上明顯優於基線方法,其成功率在驗證集上達到 96.2%,在測試實例上達到 94.1%。
值得注意的是,Best-of-N(77.2%)在這個任務上超過了 Sequential-Revision+(74.4%)。
該團隊發現,對於兩階段方法,Mind Evolution 在驗證集上的成功率達到了 100%,在測試集上也達到 99.6%。這些發現再次突出了進化搜索相對於簡單采樣和順序改進的優勢。
最後需要指出,這個任務的難度會隨要訪問的城市數量而變化,範圍從 3 到 10 個城市。圖 4 顯示了按城市數量劃分的成功率細分情況,看起來 Mind Evolution 的相對優勢隨著城市數量的增加而增加。

Natural Plan – Meeting Planning
Meeting Planning 的任務目標是安排一系列會議以最大化個人之間的會議數量,所涉及的限制條件包括可用性、位置和交通時間。這個任務與 TravelPlanner 和 Trip Planning 的不同之處在於,並非每個問題實例的每個會議都可安排,這意味著無法知道是否已達到最優解。因此,該團隊允許搜索繼續進行直到達到迭代次數的上限,最終得到了表 2 中的結果。對於這個任務,該團隊將實例集分為了 500 個驗證和 500 個測試實例。
從表 2 可以看到,Mind Evolution 在驗證集上達到 85.0% 的成功率,在測試集上達到 83.8%。值得注意的是,使用 Gemini 1.5 Pro 的兩階段方法在驗證和測試上的成功率分別為 98.4% 和 98.2%。
最後,圖 5 顯示了按需要安排會議的人數劃分的成功率細分情況。該團隊發現,隨著人數增加,Mind Evolution 可保持顯著的成功率優勢。

實驗結果分析
為了理解 Mind Evolution 的 scaling 性能,該團隊還進行了更多研究。
scaling 性能。圖 6 報告了 Mind Evolution 在規劃任務中隨著代數增加的成功率變化情況。這些結果清楚地表明, Mind Evolution 會隨著代數增加而穩步提升。

為了比較 Mind Evolution 與基線搜索方法的 scaling 性能,該團隊還做了每種策略生成的候選解數量與成功率和平均任務評估分數的關係圖(圖 7-9)。任務評估分數通過對未滿足的約束和目標值的次優性進行懲罰來計算,因此在任何問題實例中可以達到的最高分數是零。

圖 7-9 分別顯示了在 TravelPlanner、Trip Planning 和 Meeting Planning 任務上的結果。在每種情況下,都可以看到所有搜索方法的整體成功率和平均任務評估分數都會隨著提出的解數量的增加而單調改善。這些圖還表明,就達到指定成功率水平(或平均任務性能)所需的候選解數量而言,Mind Evolution 始終比基線策略更有效。

該團隊注意到 Best-of-N 在 TravelPlanner 上的表現明顯不佳。該團隊認為這是因為該任務涉及隱含的常識約束(例如,旅行計劃應該返回出發城市,不能兩次訪問同一餐廳等),這些約束不在問題實例中給出,而是從評估反饋中學習得到,而 Best-of-N 沒有利用這些反饋。
該團隊還進行了一系列消融研究,以研究 Mind Evolution 不同組件的效果,具體詳情請參閱原論文。
一個高難度新任務:StegPoet
最後,在這篇論文中,該團隊還提出了一個具有挑戰性的新任務 StegPoet,其中需要將隱藏消息通過隱寫術編碼到一篇創意寫作文章中。
即使這個問題難以形式化,它仍然適合程序化驗證,這使得本文考慮的方法可以處理它。
在這個任務中,由數字序列表示的隱藏消息(M)應該被編碼在關於特定主題的創意文本中,以散文、故事或詩歌的形式表達。目標是既提供一個數字到單詞的替換密碼,又生成使用該密碼編碼消息的文本。
圖 10 給出了一個例子。該團隊額外施加了一個約束,即在生成的文本中,連續密碼詞之間必須平均有 B 個單詞,這確保當 B > 0 時,簡單地將密碼詞作為文本部分列出不符合作為解的資格。

這個問題的難度在四個維度上變化:
-
隨著隱藏消息 M 的長度增加,難度增加。該團隊設定 10 ≤ |M| ≤ 30。
-
M 中數字的重覆性。重覆越多,約束越嚴格。
-
重覆數字彼此之間的「接近程度」。每種寫作形式都規定了同一個詞的重覆和出現接近程度的可接受性。LLM 必須在遵守形式和正確編碼消息的需求之間取得平衡。
-
根據經驗,隨著 B(密碼詞之間的平均距離)增加,問題變得更加困難。測試中,3 ≤ B ≤ 7。
該團隊將問題實例分為了 101 個驗證實例和 245 個測試實例。表 6 給出了 Mind Evolution 和基線策略的詳細性能結果,而圖 11 顯示了每個難度級別的性能。


可以看到,兩階段 Mind Evolution(+pro)在驗證集上達到 87.1% 的成功率,在測試集上達到 79.2%。相較之下,Best-of-N 僅能解決 1% 的驗證任務。