NeurIPS 2024 | 真實世界複雜任務，全新基準GTA助力大模型工具調用能力評測

11月04日 12:32 新浪網 news-china-auto-hilite

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯繫報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本篇論文已被 NeurIPS 2024 Dataset & Benchmark Track 接收，作者來自上海交通大學 IWIN 計算智能團隊和上海人工智能實驗室。其中，第一作者王驥澤是上海交通大學自動化系一年級博士生，研究方向涉及大模型智能體、自然語言處理。

利用語言模型調用工具，是實現通用目標智能體（general-purpose agents）的重要途徑，對語言模型的工具調用能力提出了挑戰。然而，現有的工具評測和真實世界場景存在很大差距，局限性主要體現在以下幾個方面：

評估問題通常是 AI 生成的，形式固定；
邏輯鏈簡單，不涉及複雜多步推理；
輸入是純文本形式，模態單一；
沒有部署真實可執行的工具，無法端到端評測。

為了突破這些局限，來自上海交通大學與上海人工智能實驗室的研究團隊提出了 GTA（a benchmark for General Tool Agents），一個用於評估通用工具智能體的全新基準，主要特性包括：

真實的用戶問題
真實部署的工具
多模態輸入輸出

GTA 通過設計真實世界場景的用戶問題、真實部署的工具和多模態輸入，建立了一個全面、細粒度的評估框架，能夠有效評估大語言模型在複雜真實場景下的工具使用能力。

論文標題：GTA: A Benchmark for General Tool Agents
論文鏈接：https://arxiv.org/abs/2407.08713
代碼和數據集鏈接: https://github.com/open-compass/GTA
項目主頁: https://open-compass.github.io/GTA
Hugging Face：https://huggingface.co/datasets/Jize1/GTA

GTA 中的用戶問題與現有工具評測的用戶問題對比如下表所示。ToolBench 和 m&m’s 中的問題明顯地包含了需要調用的工具（藍色字）以及步驟（紅色字）。APIBench 中的問題較為簡單，僅包含單個步驟。相較而言，GTA 的問題既是步驟隱含的，也是工具隱含的，並且是基於現實世界場景的、對人類有幫助的任務。

GTA 的評估結果表明，GPT-4 在面對真實世界問題時僅完成不到 50% 的任務，而大多數模型完成率低於 25%。揭示了現有模型在處理真實世界問題時面臨的工具使用瓶頸，為未來的通用工具智能體提供了改進方向。

設計準則

GTA 主要有三個核心特性，來評估大語言模型在真實世界場景下的工具使用能力：

真實用戶查詢：包含 229 個人類撰寫的問題，問題具有簡單的真實世界目標，但解決步驟是隱含的，工具也是隱含的，要求模型通過推理來選擇合適的工具並規劃操作步驟。
真實部署的工具：GTA 提供了工具部署平台，涵蓋感知、操作、邏輯和創作四大類共 14 種工具，能夠真實反映智能體實際的任務執行性能。
多模態輸入輸出：除了文本，GTA 還引入了空間場景、網頁截圖、表格、代碼片段、手寫 / 打印材料等多模態輸入，要求模型處理這些豐富的上下文信息，並給出文本或圖像輸出。這使得任務更加接近實際應用場景，進一步提升了評估的真實性和複雜性。

數據集構建

數據集構建流程包含兩個步驟：

1. 問題構建。專家設計問題樣例和標註文檔，標註人員按照標註文檔中的指示，進行頭腦風暴，基於問題樣例設計更多的問題，最終得到問題集。

2. 答案構建。標註人員手動調用部署好的工具，確保每個問題都可以用提供的工具解決。然後，標註人員根據工具調用過程和工具返回結果，對每個問題的工具調用鏈進行標註。

為了讓評測集更全面地覆蓋真實場景，研究團隊採用了多樣化的擴展策略，包括場景多樣化、工具組合多樣化等。最終得到的評測集包含多圖推理、圖表分析、編程、視覺交互、網頁瀏覽、數學、創意藝術等多種場景，確保了評估任務的全面性和多樣性。

問題示例

最終共得到 229 個真實場景下的任務，所有問題都隱含工具和步驟，並且包含多模態上下文輸入。這些任務基於現實世界場景，目標明確且易於理解，完成任務對人類有幫助，但對於 AI 助手來說較為複雜。JSON 格式的數據示例可以在 Hugging Face 上找到。

模型評測

GTA 在兩種模式下評估語言模型：

逐步模式 (step-by-step mode)。該模式旨在細粒度地評估模型的工具使用能力。在該模式下，ground truth 工具鏈的前 n 步作為 prompt，模型預測第 n + 1 步的操作。在逐步模式下，設計四個指標：InstAcc（指令遵循準確率）、ToolAcc（工具選擇準確率）、ArgAcc（參數預測準確率）和 SummAcc（答案總結準確率）。
端到端模式 (end-to-end mode)。該模式旨在反映智能體實際執行任務時的表現。在這種模式下，模型會自主調用工具並解決問題，而無外部引導。使用 AnsAcc（最終答案準確率）來衡量執行結果的準確性。此外，還計算了工具選擇方面的四個 F1 score：P、L、O、C，分別衡量感知 (Perception)、操作 (Operation)、邏輯 (Logic) 和創作 (Creativity) 類別的工具選擇能力。

評測結果表明，目前的大語言模型在複雜真實場景任務的工具調用上仍存在明顯的局限性。GPT-4 在 GTA 上僅能完成 46.59% 的任務，而大多數模型僅能完成不到 25% 的任務。

研究團隊發現，目前語言模型在完成 GTA 任務的關鍵瓶頸是參數傳遞準確率。研究人員計算了各指標與最終結果準確率 AnsAcc 之間的皮爾森相關係數，發現 ArgAcc 的相關係數最高，說明參數傳遞是目前大多數模型的瓶頸。例如，Llama-3-70B-Chat 的 InstAcc，ToolAcc，SummAcc 都比 Qwen1.5-14B-Chat 高，但 ArgAcc 比 Qwen1.5-14B-Chat 低，導致最終結果準確率更低。

錯因分析

為了進一步理解模型在參數傳遞上的失誤原因，研究團隊選擇兩個典型模型 GPT-4-1106-Preview 和 Llama-3-8B-Instruct，對它們進行了深入的錯誤原因分析，如下表所示。

分析顯示，GPT-4 與 Llama-3 的錯誤分佈存在顯著差異。GPT-4 模型傾向於生成「無動作」（No Action）的響應，在 38.7% 的錯誤中，GPT-4 嘗試與用戶互動，錯誤地認為問題表述不夠明確，要求提供額外信息。而在 50% 的錯誤中，模型僅生成內部思考過程，而未採取實際行動。

而 Llama-3 的大部分錯誤來自於格式錯誤，特別是調用工具或生成最終答案時。45.4% 的錯誤是由於參數未能遵循合法的 JSON 格式。此外，在 16.5% 的情況下，Llama-3 試圖同時調用多個工具，這並不被智能體系統支持。19.6% 的錯誤則源於生成冗餘信息，導致參數解析不正確。

總結

本文構建了面向複雜真實場景的通用工具智能體（General Tool Agents）評測基準：

構建了通用工具智能體的評測數據集。問題由人類設計，是步驟隱含、工具隱含的，且立足於真實世界場景，並提供了多模態語境輸入。每個問題都標註了可執行的工具鏈，以支持細粒度的工具使用能力評測。
提供了包含感知、操作、邏輯、創作類別工具的評測平台。針對工具調用設計了細粒度的評測指標，揭示工具增強的語言模型在真實世界場景中的推理和規劃能力。
評測和分析了主流大語言模型。從多個維度評測了 16 個大語言模型，反映了目前的語言模型在真實世界場景下的工具調用能力瓶頸，為通用目標智能體的發展路徑提供建議。

你可能喜歡