秒解複雜規劃難題,成功率85%!科學家用「AI+數學求解器」一句話生成最優解

先看一個案例。有一家咖啡公司正在優化自身的供應鏈,這家公司需要從三家供應商採購咖啡豆,在兩座烘焙廠加工成深度烘焙或淺度烘焙,然後再把烘焙好的咖啡配送到三個零售點。不同供應商的固定產能存在差異,而且烘焙成本和運輸成本也會因地點不同而有所變化。
面對即將到來的銷售旺季,公司需要在滿足預計 23% 需求增長的前提下,找到最慳錢的運營方案。
這時候直接問 ChatGPT 能解決問題嗎?雖然這樣的大語言模型在文本處理方面表現出色,但當遇到需要精確計算的複雜規劃問題時,它們往往力不從心,給出的方案可能漏洞百出。
推理模型或許可以解決這類供應鏈優化問題,但實際應用中也存在幾個不足之處,比如難以處理複雜約束條件、應對問題變化的適應性欠佳,計算效率低,難以找到最優解。
對此,麻省理工學院的科研團隊獨闢蹊徑,他們沒有選擇改造大語言模型本身,而是開發了一個「智能規劃助手」框架。
這個框架的工作原理非常巧妙,它先引導大語言模型像經驗豐富的「項目經理」那樣,把複雜問題拆解成原料採購、生產加工、物流配送等多個模塊;然後自動調用專業的數學優化求解器,精確計算出每個環節的最優解。
用戶只需要用日常語言描述問題即可,比如「用最慳錢的方式把咖啡從產地送到門店」,完全不需要學習複雜的建模語言或提供大量示例。
這套系統會將用戶的文本描述編碼成優化求解器可解析處理的格式,而這個求解器就是專門為高效解決棘手的規劃難題而設計的。
在整個問題轉化過程中,大語言模型會像「校對員」一樣進行複查。首先確認是否準確理解了用戶需求,然後驗證數學表達是否正確,最後評估解決方案是否可行。比如,發現烘焙廠的產能計算有誤,它會自動調整參數重新計算,而不是給出一個超產能的方案。
研究團隊用九類複雜場景測試該框架,比如優化倉庫機器人任務路徑,其成功率達到了 85%,而最佳基線的成功率僅為 39%。研究人員表示,這套系統(多功能框架)可廣泛應用於多步驟規劃場景,包括航空公司排班、工廠設備調度等。
「我們的框架就像是規劃問題的智能顧問,既懂行業術語又能做精密計算,即使面對複雜規則或特殊需求,也能找出滿足所有條件的最優方案。」 麻省理工學院信息與決策系統實驗室(LIDS)的研究生、該研究論文的主要作者 Yilun Hao 說道。
這項研究成果將在國際學習表徵會議上發表。研究論文的共同作者還有麻省理工學院 – IBM 沃森人工智能實驗室的研究科學家 Yang Zhang,以及麻省理工學院航空航天學副教授兼 LIDS 首席研究員範楚楚。另外,這項研究工作部分由海軍研究辦公室和麻省理工學院 – IBM 沃森人工智能實驗室資助。

優化算法「從入門到精通」
在現實世界中,許多關鍵決策都涉及海量變量的複雜組合。比如,航空公司如何安排上千架飛機的航線,物流公司怎樣規劃數萬件包裹的配送路線等等。這些問題的共同點是:每個選擇都可能會影響整體效率,而人工計算最優解幾乎不可能。
一直以來,範楚楚和團隊專注研究的組合優化算法,破解這類包含海量關聯變量的複雜決策問題。
想像一下,如果一個供應鏈問題可能涉及十餘個供應商、數個工廠、數十個倉庫,每個環節都有不同的成本、產能限制,那麼可能的組合方案會達到天文數字。
人類面對這類問題時,通常會先縮小範圍(比如排除明顯不划算的選項),再在賸餘方案中尋找最優解。
研究團隊開發的算法求解器也遵循這個思路,但能處理遠超人類計算能力的超複雜問題。比如在數秒內評估數百萬種可能性,並精準鎖定成本最低、效率最高的方案。
不過,這類專業求解器也存在一個明顯短板,即學習門檻較高,通常只有專家才能駕馭。
「我們的設想是,讓大語言模型化身普通用戶的‘翻譯官’,成為使用這類專業求解器的橋樑。在實驗室里,我們會把領域專家提出的問題轉化為求解器能處理的格式,那我們能不能教會大語言模型做同樣的事呢?」範楚楚說道。
於是,研究人員開發了這種「基於大語言模型的形式化編程(LLMFP)」框架,用戶只需提供問題的自然語言描述、任務背景信息以及目標查詢即可。
緊接著,LLMFP 會促使大語言模型對問題進行分析,確定構成最佳解決方案的決策變量和關鍵約束。
在將信息編碼為優化問題的數學公式之前,LLMFP 會要求大語言模型詳細說明每個變量的要求。它會編寫代碼對問題進行編碼,並調用額外的優化求解器,進而得出理想的解決方案。
範楚楚打了個比方:「這和我們在麻省理工學院給本科生講授優化問題的方式有些類似。所謂‘授人以魚不如授人以漁’,我們不只是傳授某一領域的知識,而是教他們方法。」
只要輸入正確,求解器就一定能給出正確答案;如果結果出錯,那麼問題肯定出在轉化環節。
為確保找到可行方案,LLMFP 會進行「自我檢查」:分析求解結果,修正轉化過程中的錯誤步驟。通過自檢的方案,最終會以通俗易懂的自然語言呈現給用戶。

完善方案
「這套自檢機制不僅能發現錯誤,還能讓大語言模型自動補全初次分析時遺漏的隱含約束條件。」Yilun Hao 表示。
這種能力就像是一個經驗豐富的顧問,能夠注意到新手容易忽略的關鍵細節。比如,在優化咖啡店供應鏈時,人類都知道咖啡店不可能運送「負數」的烘焙咖啡豆,但大語言模型在初次分析時可能會忽略這個常識性的約束。
此時,自檢環節就會及時標記出這個邏輯漏洞,並指導模型進行修正。這種自我完善的能力,使得系統可以不斷優化自己的分析框架。
「更智能的是,大語言模型還能根據用戶偏好進行調整。」範楚楚補充說,「比如,當模型瞭解到某位商務人士不願意更改既定的差旅時間和預算時,它就會像一位私人助理,優先調整其他參數來滿足需求。」這種靈活應變的能力,讓系統能夠真正理解並尊重用戶的個性化需求。
在一系列測試中,他們的框架在使用多個大語言模型處理 9 個不同規劃問題時,平均成功率達到 83% – 87%。雖然部分基線模型在某些問題上表現更優,但 LLMFP 的總體成功率大約是基線技術的兩倍。
與其他方法不同,LLMFP 無需特定領域的示例進行訓練,「開箱即用」也能快速找到規劃問題的最佳解決方案。除此之外,用戶可以通過調整輸入給大語言模型的提示,讓 LLMFP 適配不同的優化求解器。
「大語言模型為我們打開了一扇門,讓普通人也能跨領域使用專業工具,以全新視角解決問題。」 範楚楚總結道。
未來,研究人員希望讓 LLMFP 能夠支持圖像輸入輔助描述規劃問題,這將有助於框架解決那些難以用自然語言完整表述的任務。
參考鏈接:
1.https://news.mit.edu/2025/researchers-teach-llms-to-solve-complex-planning-challenges-0402
2.https://arxiv.org/pdf/2410.12112
