模型調優無需標註數據!將Llama 3.3 70B直接提升到GPT-4o水平
機器之心報導
編輯:陳萍
現階段,微調大型語言模型(LLMs)的難點在於,人們通常沒有高質量的標註數據。
最近,AI 公司 Databricks 推出了一種新的調優方法 TAO,只需要輸入數據,無需標註數據即可完成。更令人驚喜的是,TAO 在性能上甚至超過了基於標註數據的監督微調。

眾所周知,LLM 很難適應新的企業級任務。提示(prompting)的方式容易出錯,且質量提升有限,而微調(fine-tuning)則需要大量的標註數據,而這些數據在大多數企業任務中是不可用的。
Databricks 提出的模型調優方法,只需要未標註數據,企業就可以利用現有的數據來提升 AI 的質量並降低成本。
TAO(全稱 Test-time Adaptive Optimization)利用測試時計算(由 o1 和 R1 推廣)和強化學習(RL)算法,僅基於過去的輸入示例來教導模型更好地完成任務。
至關重要的是,儘管 TAO 使用了測試時計算,但它將其作為訓練模型過程的一部分;然後,該模型以較低的推理成本(即在推理時不需要額外的計算)直接執行任務。
更令人驚訝的是,即使沒有標註數據,TAO 也能實現比傳統調優模型更好的質量,並且它可以將像 Llama 這樣的開源模型提升到與專有模型(如 GPT-4o 和 o3-mini)相當的質量水平。
借助 TAO,Databricks 已經取得了三項突破性成果:
-
在文檔問答和 SQL 生成等專業企業任務中,TAO 的表現優於需要數千標註樣本的傳統微調方法。它讓 Llama 8B/70B 等高效開源模型達到了 GPT-4o/o3-mini1 等商業模型的同等水平,且無需任何標註數據;
-
在零標註數據條件下,TAO 將 Llama 3.3 70B 模型在企業綜合基準測試中的表現提升了 2.4%;
-
增加 TAO 訓練階段的算力投入,可以在相同數據條件下獲得更優模型質量,且不會增加推理階段的成本消耗。
圖 1 展示了 TAO 在三個企業級任務中對 Llama 模型的提升效果:儘管僅使用原始輸入數據,TAO 不僅超越了需要數千標註樣本的傳統微調 (FT) 方法,更讓 Llama 系列模型達到了商業模型的性能水準。


圖 1:Llama 3.1 8B 與 Llama 3.3 70B 在三大企業級基準測試中應用 TAO 的效果對比。TAO 帶來顯著的性能提升,不僅超越傳統微調方法,更直指高價商業大語言模型的性能水平。
TAO 工作原理
基於測試時計算與強化學習的模型調優
TAO 的核心創新在於摒棄了人工標註數據,轉而利用測試時計算引導模型探索任務的可能響應,再通過強化學習根據響應評估結果更新模型參數。
該流程通過可擴展的測試時計算(而非昂貴的人工標註)實現質量提升,並能靈活融入領域知識(如定製規則)。令人驚訝的是,在高質量開源模型上應用該方法時,其效果往往優於依賴人工標註的傳統方案。

TAO 包含四個核心階段:
-
響應生成:該階段首先收集任務相關的輸入提示或查詢樣本。在 Databricks 平台上,這些提示可通過 AI Gateway 自動採集;
-
響應評分:系統化評估生成響應的階段。評分方法包含多種策略,例如基於獎勵模型、偏好評分,或利用 LLM 評判器及定製規則進行任務特異性驗證,確保每個響應都做到最優;
-
強化學習(RL)訓練:最終階段採用基於強化學習的方法更新大語言模型,引導模型生成與高分響應高度契合的輸出。通過這一自適應學習過程,模型持續優化預測能力以提升質量;
-
持續改進:TAO 僅需 LLM 輸入樣本作為數據源。用戶與 LLM 的日常交互自然形成該數據 —— 一旦模型部署使用,即可自動生成下一輪 TAO 訓練數據。在 Databricks 平台上,借助 TAO 機制,模型會隨著使用頻次增加而持續進化。
雖然 TAO 在訓練階段使用了測試時計算,但最終產出的模型在執行任務時仍保持低推理成本。這意味著經過 TAO 調優的模型在推理階段 —— 與原版模型相比 —— 具有完全相同的計算開銷和響應速度,顯著優於 o1、o3 和 R1 等依賴測試時計算的模型。實驗表明:採用 TAO 訓練的高效開源模型,在質量上足以比肩頂尖的商業閉源模型。
TAO 為 AI 模型調優提供了一種突破性方法:
-
不同於耗時且易出錯的提示工程;
-
也區別於需要昂貴人工標註數據的傳統微調;
-
TAO 僅需工程師提供任務相關的典型輸入樣本,即可實現卓越性能。

實驗及結果
接下來,文章深入探討了如何使用 TAO 針對專門的企業任務調優 LLM。本文選擇了三個具有代表性的基準。

如表 3 所示,在所有三個基準測試和兩種 Llama 模型中,TAO 顯著提升了基礎 Llama 的性能,甚至超過了微調的效果。

表 3:在三個企業級基準測試中使用 TAO 的 Llama 3.1 8B 和 Llama 3.3 70B 實驗結果。
與經典的測試時計算類似,當 TAO 能夠使用更多的計算資源時,它會產生更高質量的結果(見圖 3 中的示例)。然而,與測試時計算不同的是,這種額外的計算資源僅在調優階段使用;最終的語言模型的推理成本與原始語言模型相同。例如,o3-mini 生成的輸出 token 數量比其他模型多 5-10 倍,因此其推理成本也相應更高,而 TAO 的推理成本與原始 Llama 模型相同。

利用 TAO 提高模型多任務性能
到目前為止,該研究已經使用 TAO 來提升語言模型在單一任務(例如 SQL 生成)上的表現。接下來,該研究展示了 TAO 如何廣泛提升模型在一系列企業任務中的性能。
結果如下,TAO 顯著提升了兩個模型的性能,將 Llama 3.3 70B 和 Llama 3.1 70B 分別提升了 2.4 和 4.0 個百分點。TAO 使 Llama 3.3 70B 在企業級任務上的表現顯著接近 GPT-4o,所有這些改進都沒有產生人工標註成本。

原文鏈接:https://www.databricks.com/blog/tao-using-test-time-compute-train-efficient-llms-without-labeled-data