哪個模型擅長調用工具？這個7B模型躋身工具調用綜合榜單第一

10月24日 13:03 新浪網 news-china-auto-hilite

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯繫報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.co

工具調用是 AI 智能體的關鍵功能之一，AI 智能體根據場景變化動態地選擇和調用合適的工具，從而實現對複雜任務的自動化處理。例如，在智能辦公場景中，模型可同時調用文檔編輯工具、數據處理工具和通信工具，完成文檔撰寫、數據統計和信息溝通等多項任務。

業界已發佈的工具調用模型，在特定評測基準上有接近甚至超越閉源 SOTA 模型（比如 GPT-4）的表現，但在其他評測基準上下降明顯，難以泛化到新工具和新場景。為應對這一挑戰，來自 OPPO 研究院和上海交通大學的研究團隊提出函數掩碼（Function Masking）方法，構建了具備強大泛化能力的輕量化工具調用系列模型：Hammer，並開源了完整的技術棧，旨在幫助開發者構建個性化的終端智能應用。

在工具調用典型評測基準上，包括 Berkeley Function-Calling Leaderboard（BFCL）、API-Bank、Seal-Tools 等，Hammer 系列模型展現了出色的總體性能，特別是 Hammer-7B 模型，綜合效果僅次於 GPT-4 等閉源大模型，在工具調用模型中綜合排名第一，具備強大的新場景和新工具泛化能力。

模型地址：https://huggingface.co/MadeAgents
論文地址：https://arxiv.org/abs/2410.04587
代碼地址：https://github.com/MadeAgents/Hammer

工具調用任務說明

工具調用作為 AI 智能體執行複雜任務所必備的核心能力，要求模型不僅能夠識別正確的函數，還要準確填寫函數的輸入參數；如果給定函數列表無法滿足用戶的意圖，模型也應具備拒絕任務的能力。下圖是工具調用模型輸入輸出的一個樣例：

Hammer 訓練方法

研究團隊在 Hammer 的訓練過程中引入了一項關鍵技術：函數掩碼（Function Masking）和一個增強數據集：不相關性檢測增強數據集（Irrelevance-Augmented Dataset）。

函數掩碼旨在減少模型對函數名稱和參數名稱的依賴，核心是通過哈希化函數名稱和參數名稱，使模型在執行工具調用任務時不得不依賴更完備且可靠的功能描述信息，而不是對名稱的記憶或匹配。這種方式有助於減少因命名差異導致的誤判問題，提升模型在多樣化命名風格和應用場景中的穩定性和適應性。
不相關性檢測增強數據集旨在幫助模型在給定用戶意圖而當前無適用函數的情況下，能夠正確判斷並給出「不相關」信號。該數據集包含了 7,500 個增強樣本，設計時平衡了工具調用任務和不相關性檢測任務的比例，以達到最佳的綜合效果。（已開源至：https://huggingface.co/datasets/MadeAgents/xlam-irrelevance-7.5k）

Hammer 總體表現

Hammer 系列模型在工具調用典型評測基準上均展現了出色的性能，具體表現如下面的兩張表格所示。可以看到，在 BFCL 榜單上，Hammer-7B 模型的總體準確率達到 83.92%，接近閉源 SOTA 模型 GPT-4 的 95.79%，優於其他工具調用模型。同時，在其他評測基準上，Hammer-7B 模型的平均 F1 達到 76.21%，接近閉源模型 GPT-4 的 78.79%，大幅領先其他工具調用模型。Hammer-7B 能夠在參數規模較小的情況下，在不同評測基準上與閉源 SOTA 大模型競爭，充分展示了 Hammer 模型在各種工具調用任務中的準確性和穩定性。

函數掩碼技術的通用性

研究團隊還將函數掩碼和數據增強技術應用於不同的基礎模型，以驗證其通用性。實驗選擇了 Qwen 系列和 Deepseek-Coder 系列模型作為基準，並在相同的訓練和測試條件下進行比較。下表中的結果顯示，經過函數掩碼技術調優後的 Hammer 版本顯著提升了基礎模型的工具調用準確性，遠高於未調優版本，證明了函數掩碼和不相關性數據增強對不同模型架構均有顯著的優化效果。同時，在使用相同的基座模型和基礎數據的情況下，與 xLAM（同樣基於 Deepseek 微調而來的工具調用模型）的對比，也體現了函數掩碼及不相關性數據增強的作用。

不相關性數據增強比例的權衡

在設計不相關性數據增強時，研究團隊測試了不同比例的不相關性數據樣本對模型表現的影響。下圖實驗結果表明，合理比例的不相關性增強數據（約佔總數據的 10%）能夠在提升工具調用準確性的同時，顯著增強模型在不相關檢測場景中的識別能力，降低錯誤調用的風險。實驗結果還顯示，進一步增加不相關性數據會略微降低功能調用的準確性，因此找到適當的平衡點至關重要。