浙大&通義全面評測智能體複雜任務規劃能力,18主流大模型全不及格|ICLR2025
WorfBench團隊 投稿
量子位 | 公眾號 QbitAI
大模型智能體正在迅速發展,能力已不再局限於 API 調用。
諸如OpenAI的Operator和Anthropic的Computer Use等,能夠像人類一樣直接與界面交互,執行複雜操作。
在處理這類複雜任務的過程中,大模型智能體將問題分解為可執行的工作流(Workflow)是關鍵的一步。然而,這一核心能力目前缺乏完善的評測基準。
現有的數據集和評估框架存在明顯局限性:要麼僅關注規劃任務的端到端性能,要麼在場景覆蓋範圍、工作流結構的複雜性以及評估標準的全面性上存在不足。完善的工作流評測基準對於推動大模型智能體在真實場景中的應用和性能提升至關重要。
為解決上述問題,浙大通義聯合發佈WorfBench——一個涵蓋多場景和複雜圖結構工作流的統一基準,以及WorfEval——一套系統性評估協議,通過子序列和子圖匹配算法精準量化大模型生成工作流的能力。這一研究不僅填補了現有評估體系的空白,還為未來大模型智能體在複雜任務中的應用提供了重要的參考。

該工作已被人工智能頂級會議ICLR 2025錄用。

WorfBench構建與評估
WorfBench利用GPT自動化構建多場景任務,包括problem solving、function calling、embodied planning和open-ended planning等,生成了包含18k訓練樣本、2146測試樣本和723個OOD的評測數據集。作者將工作流建模為有向無環圖(DAG),以更精確地表示現實世界中的複雜串行或並行智能體工作流。
為了確保數據質量,作者引入了節點鏈作為中間結構,並採用拓撲排序(Topological Sorting)算法對圖結構進行質量過濾,並在測試集上進行人工驗證。

WorfEval則通過子序列和子圖匹配算法,分別從鏈結構和圖結構兩個維度對大模型生成的工作流進行量化評估,從而精準衡量模型的線性規劃和圖規劃能力。
基準評測結果
作者在WorfBench上對18種不同規模的主流大模型進行了全面評估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。實驗結果顯示,與線性結構相比,模型在圖結構工作流預測上的能力遠未達到現實需求,即使是性能卓越的GPT-4,其圖結構工作流的平均性能也僅為52.47%。
此外,作者還對兩個開源模型進行了訓練,並在OOD任務上評估其泛化能力。結果表明,儘管在訓練集上表現出色,但在未見過的任務上,模型的泛化能力仍有待提高。這表明,僅通過數據擬合目前仍難以實現結構化工作流規劃能力的有效學習。

工作流生成分析
通過對實驗結果的深入分析,作者發現大模型在工作流生成中存在顯著的線性規劃與圖規劃能力差距,且圖規劃能力與模型規模並非完全正相關。例如,部分7B模型在某些任務上超越了13B模型,這可能與模型訓練數據的規模和質量有關。
此外,作者還發現,即使提供標籤節點鏈以簡化圖結構預測任務,模型的圖規劃性能仍不理想,這表明圖規劃的複雜性在於對任務依賴關係的理解。

進一步的錯誤分析顯示,大模型在工作流生成中的典型錯誤主要集中在任務分解的粒度、任務描述的明確性、圖結構的正確性以及輸出格式的規範性四個方面。這些錯誤大多源於模型對環境知識的缺乏。
因此,未來的研究方向可能包括優化提示策略、採用多智能體架構,以及將世界知識或世界模型更深入地融入大模型中,以提升其對現實世界的理解能力。
工作流知識增強智能體
作者探討了工作流在智能體規劃中的重要作用。研究發現,工作流不僅可以作為一種流程先驗知識直接指導智能體的規劃過程,幫助其在複雜任務中更高效地執行,還可以作為鏈式思考(Chain-of-Thought, CoT)的增強手段,通過為智能體提供更相關的API選擇,減輕其在多步任務中的負擔。

此外,工作流的圖結構特性能夠實現並行任務執行,顯著減少推理時間,同時減少智能體在規劃過程中的步驟數,提升任務完成效率。這些結果表明,工作流不僅是連接任務與具體執行動作的橋樑,還能顯著提升智能體在複雜任務中的表現和效率。

論文鏈接: https://arxiv.org/abs/2410.07869
代碼鏈接: https://github.com/zjunlp/WorfBench