續命Scaling Law？世界模型GPT-4o讓智能體超級規劃，OSU華人一作

11月22日 12:54 新浪網 tech-auto-hilite

編輯：編輯部 HZh

【新智元導讀】Scaling Law撞牆，擴展語言智能體的推理時計算實在太難了！破局之道，竟是使用LLM作為世界模型？OSU華人團隊發現，使用GPT-4o作為世界模型來支持複雜環境中的規劃，潛力巨大。

Scaling Law又能續命了？

如何通過語言智能體的高級規劃來Scaling推理時計算？

答案就是——使用LLM作為世界模型。

也就是說，使用GPT-4o來預測網站上操作的結果，可以提供強大的性能，同時還能提高安全性和效率。

近日，來自俄亥俄州立大學等機構的研究人員提出了一種全新的WebDreamer框架，它可以利用LLM作為世界模型，來預測網站上的交互結果。

論文地址：https://arxiv.org/abs/2411.06559

論文地址：https://arxiv.org/abs/2411.06559

幾天前，微軟Ignite大會上，納迪拉維杜華曾表示，AI發展並沒觸及天花板，我們正見證推理時計算Scaling law的崛起。

沒錯，這項新研究便是朝著這個方向前進的一步。

語言智能體和數學推理的關鍵區別，就是交互

一作Yu Gu表示，自從o1發佈以來，這個問題就一直困擾著自己——

為什麼擴展語言智能體的推理時計算，會如此困難呢？語言智能體，到底有何特別之處？

為此，他將這個問題進行了分解。

與數學推理等任務不同，語言智能體的一個關鍵區別在於交互：它們採取的每個動作，都會觸發對環境的新觀察，從而為自己的下一個決策提供信息。

而交互使得搜索空間探索變得複雜，原因在於——

1. 與環境的交換是昂貴的

2. 許多操作是狀態改變且不可逆轉的（比如在購物網站上確認購買），這就使得樹搜索中的回溯，在現實世界的網站中不可行。

那麼，是否可以使用LLM作為世界模型，來預測網站上交互的結果呢？（比如「如果單擊此按鈕，會發生什麼」）

這樣，就可以實現有效的搜索空間探索，減少實際交互的開銷。

答案是肯定的！

Yu Gu等人發現，GPT-4o有效地編碼了關於網站的廣泛知識，並且充當了基於模型的規劃框架WebDreamer的基礎。

因為配備了LLMs模擬的世界模型，WebDreamer展示了良好的有效性和效率。

首先，它有著強大的性能：在VisualWebArena和Mind2Web-live上遠遠優於反應性基線。

在效率上，跟樹搜索相比，它只需要一半的交互次數。

此外，由於基於LLM的世界模型模擬，它還具有兩個額外的優勢。

一個是更好的安全性，因為能通過最大限度地減少現實世界的互動，來降低安全風險。

另一個就是多功能集成：它可以作為各種智能體的插件無縫工作，並且對樹搜索智能體有所補充。

WebDreamer的核心，就是「做夢」

智能體也需要做夢嗎？

與數學推理等任務不同，語言智能體（language agents）的一個關鍵區別在於交互：他們採取的每一個行動都會觸發環境的新變動，而這又為它進行進一步的決策帶來了挑戰。

不斷地交互使得解空間搜索變得異常艱難，因為與環境交互的計算成本很高；許多改變狀態的操作是不可逆的；而且利用智能體來為自己與網站進行實際交互有一定的安全風險,例如信息泄露與個人財產在意外交易中損失。

如何有效的進行解空間搜索，同時減少實際交互的開銷並保證智能體的安全可靠性成了一個亟待解決的問題。

簡要來講，WebDreamer的核心是「做夢」的概念：在承諾採取任何行動之前，智能體使用LLM去想像預測每個可能步驟的結果，並以自然語言描述狀態將如何變化。

然後，依據和實現目標任務的距離來對這些模擬結果進行評估。最後執行最有可能實現目標任務的模擬行動。這個過程會反復進行，直到LLM確定目標已經實現為止。

圖1為網頁智能體以搜索問題形式表現的不同策略示意圖，其中每個節點代表一個網頁。

為清晰起見，僅描述了一步模擬結果。褪色節點表示未瀏覽的網頁，綠色對號和紅色叉號分別表示成功和不成功的結果。

圖1（a）反應式：由於智能體總是選擇局部最優，沒有賽前分析性規劃，往往導致次優結果。

圖1（a）反應式：由於智能體總是選擇局部最優，沒有賽前分析性規劃，往往導致次優結果。

圖1（b）結合真實交互的樹搜索：智能體通過主動網站導航探索多條路徑，並允許回溯（用虛線箭頭表示）。然而，在現實世界的網站中，由於不可逆操作的普遍存在，回溯往往不可行。

圖1（c）基於模型的規劃：在實際執行之前，智能體會模擬潛在的結果（如雲狀節點所示），以確定最佳行動，從而在保持有效性的同時儘量減少實際的網站交互。

總結來說，在LLM模擬的世界模型加持下，WebDreamer展現出了卓越的性能與效率，以及強大的擴展能力：

性能：在 VisualWebArena 和 Mind2Web-live 上表現遠超反應式基線模型。
效率：與樹搜索相比，僅需一半的交互次數。
安全：通過減少現實世界的交互，有效降低安全風險。
集成：可無縫作為多種智能體的插件運行，並補充樹搜索智能體的功能。

準備

任務製定

對於在網站上進行實時自動化交互這一目標任務來講，網頁智能體面臨著龐大且複雜的搜索解空間。

形式上，每個帶有任務指令I的任務可以被視為一個部分可觀測的馬爾可夫決策過程（POMDP）：(S, A, O, T, R, Ω)。

其中，S代表環境中所有可能狀態的集合，A代表智能體可以採取的所有可能動作，O代表環境中所有可能的觀測值組成的集合，T : S × A → S代表狀態轉移函數，R是一個二值reward，表示任務I是否已完成，Ω : S → O是一個可將狀態投射到觀測值的確定性函數。

任務的目標是執行一系列動作以獲得1的獎勵。

在實際場景中，由於網絡環境的複雜性，其包括服務器端變量、動態加載的內容、隱藏的UI元素，並受網絡條件和瀏覽器限制的影響，智能體只能通過有限的視角（即o ∈ O）來感知網絡環境。

這種受限的觀測視角也形成了相應的動作空間A，其包括可在o中可執行的交互操作，如點擊、文本輸入和URL跳轉。

表1 在VisualWebArena中定義的網絡導航動作空間

表1 在VisualWebArena中定義的網絡導航動作空間

通過模擬進行規劃

通過使用由狀態轉移函數「T」控制的真實交互進行樹搜索來規劃最優動作序列代價高昂，並且存在不可逆風險。基於模型的規劃通過使用環境的計算表徵來模擬交互結果，從而解決這些挑戰。

一種顯著的方法是模型預測控制（Model Predictive Control，MPC），它通過迭代模擬未來軌跡來選擇動作。

對於每個狀態s，MPC使用模擬器函數sim(s, a)在有限的預測範圍H內模擬每個可能動作a ∈ A的軌跡，並使用評分函數score(τ)進行評估。然後執行最有前景的軌跡相應的動作：

此過程在觀察到新狀態後重覆進行，從而使智能體能夠根據實際結果調整其計劃，同時避免代價高昂的真實世界探索。實際上，由於部分可觀察性，我們無法訪問真實狀態，因此我們使用o = Ω(s)進行sim(o, a)的計算。

基於模型規劃的網絡智能體

作者利用LLM作為世界模型，提出了一種開創性方法：WebDreamer，以實現複雜網絡環境中的高效規劃。

該方法受到這樣一個現象的啟發：儘管網絡界面複雜，但其設計對於人類用戶來說是可預測的。

當瀏覽網站時，人類可以根據視覺提示和常見設計模式有效地預測動作結果——點擊「提交」按鈕即可提交表單，選擇產品圖片會導航到其詳情頁面。

鑒於LLMs是在大量Web相關數據上訓練的，作者假設它們已經獲得了足夠的知識來模擬用戶行為的後果，足以作為世界模型勝任有效規劃。

核心設計

WebDreamer的核心，是利用LLM來實現模擬函數sim和評分函數score。

下圖為WebDreamer使用LLM模擬三個候選動作的結果圖示，其中WebDreamer模擬每個動作的兩步軌跡，選擇得分最高的軌跡，並執行相應的初始動作。

圖中說明了LLM模擬自然語言描述中三個候選操作的軌跡：

（1）單擊「Office Products」

（2）單擊「Electronics」

（3）在文本框中鍵入「Disk」

通過這些模擬，對每個結果軌跡進行評分，以確定最有可能成功的動作。

在這種情況下，LLM選擇單擊「Electronics」作為最佳步驟並執行它。每個虛線框表示每個模擬操作後LLM生成的狀態描述。

sim的實現

模擬函數sim的實現由兩個模塊組成：一個模塊預測動作執行後的狀態變化，近似狀態轉移函數「T」；而另一個根據預測的狀態想像可能的動作。

這兩個模塊共同生成長度為H的軌跡，其中H是一個可配置的模擬深度參數。

具體來說，為了表示狀態變化，研究者會提示LLM生成一個簡明的自然語言描述，僅關注動作的效果。

例如，在圖2中，當提示預測執行動作單擊「Electronics」的效果時，LLM將輸出如下簡短描述：

基於這個預測的狀態，LLM會隨後想像下一個動作（例如，點擊「電腦及配件」），這將導致另一個狀態改變進一步的預測。

這個過程生成了一個模擬深度為H=2的軌跡。

score的實現

在使用sim從每個候選動作ai模擬出一個軌跡τi後，研究者進一步使用LLM作為每個模擬軌跡的評分函數。

他們提示LLM以三種評分標準，來評估每個模擬軌跡——完成（1.0）、進行中（0.5）或不正確（0），以指示其任務完成的進度。

最終得分通過對這些評估的多次采樣進行平均計算。除了sim和score，規劃的一個前提是候選動作生成。

研究者採用了兩階段方法：首先采樣出前k個動作，然後使用LLM自我優化，去除不必要的動作以進行模擬。

這個自我優化步驟的動機，是研究者觀察到在不同步驟中，相同的k可以引入不同程度的不相關動作——某些步驟本身就比其他步驟可以用更少的有效動作進行實現。

在算法1中，他們展示了WebDreamer整體設計的偽代碼。termination check用於驗證模型是否輸出停止動作，其規則為當算法達到最大步驟或連續3次重覆一個動作時，則停止繼續執行算法。

完整system prompts如下：

左右滑動查看

實驗結果

有效性

如表2所示，WebDreamer在VWA和Mind2Web-live數據集上相較於反應式智能體表現出顯著的改進：

在VWA數據集上，實現了33.3%的相對性能提升
在Mind2Web-live數據集上，相較於Reactive範式提升了2.9%（相對增益為13.1%）

雖然在總體成功率方面，還是基於樹搜索的方案更高，但它實際上並不適用於真實的網絡場景。而WebDreamer則可以提供一種更靈活且適應性更強的替代方案。

表2：VisualWebArena和Mind2Web-live的結果

表2：VisualWebArena和Mind2Web-live的結果

更進一步，研究人員將WebDreamer與Reactive範式在VWA數據集上的多維度表現進行了比較。

表3顯示，基於模型的規劃方法在所有網站和任務難度級別上都始終優於基於Reactive範式的方法。

在根據VWA官方標註的中等難度任務中，基於模型的規劃甚至超過了樹搜索方案的表現（24.1% VS 22.2%）。

指標

用於衡量基於模型的規劃與樹搜索方案的相對性能表現。

表3：不同維度對應的成功率

效率

基於模型的規劃的另一個關鍵優勢是其相對於樹搜索，執行任務時效率很高。

如表4所示，樹搜索在所有環境中所需的步驟大約是baseline的三倍，而WebDreamer的相應動作步驟數與baseline則相仿。

值得注意的是，由於額外的動作和回溯，樹搜索會引入大約十倍的實際時間延遲，而WebDreamer的模擬開銷很小，並且可以通過增強並行化進一步減少。

表4：VWA上的動作步驟和總耗時

表4：VWA上的動作步驟和總耗時

案例研究

為了闡明模擬在規劃中的作用，研究者提出了包含正面和反面例子的案例研究，說明了模擬如何幫助智能體探索環境，以及模擬的不準確性會如何導致錯誤的預測。

由建構不充分的世界模型進行模擬引起的錯誤如下：

研究者給智能體的指令是：給我找一台與圖片中產品相同品牌的打印機。它必須是白色的，並且至少有11條評論，平均評分大於4分。

受益於世界模型模擬的正面案例如下：

在這個案例中，智能體正確找到了兩種前面有鳥的襯衫。

作者介紹

Yu Gu（穀雨）

Yu Gu是俄亥俄州立大學的博士生，此前在南京大學獲得了計算機科學學士和碩士學位。

Boyuan Zheng

Boyuan Zheng目前是俄亥俄州立大學的一年級博士生，由Yu Su教授指導。

在此之前，他獲得了東北大學的軟件工程學士學位，以及約翰霍普金斯大學的計算機科學碩士學位，在那裡他與Benjamin Van Durme教授合作。

他的主要研究方向是開發能夠解放人類從繁瑣任務中並輔助決策的語言智能體，尤其是在網絡環境中。其他還有多模態，基礎、規劃與推理，合成數據和智能體安全。

參考資料：

https://arxiv.org/pdf/2411.06559