蘋果也在蒸餾大模型,給出了蒸餾Scaling Laws
機器之心報導
機器之心編輯部
蒸餾模型的性能可以量化估算了。
眾所周知,知識蒸餾技術當前正被大模型領域廣泛使用,它可以在大幅壓縮模型體量的同時保持一定的性能、降低模型時延、提升模型精度,與此同時還能對知識域進行集成和遷移。
近日,蘋果研究人員提出了一種蒸餾擴展定律(Distillation Scaling Laws),基於計算預算及其在學生和教師之間的分配,我們現在開始可以估算蒸餾模型的性能了。

圖 1. 蒸餾擴展定律的外推。蒸餾擴展定律適用於一系列損失為 LT 的教師的弱學生模型(L_S > 2.3)。實線表示給定學生配置(插值)下未見過的教師的預測模型行為,虛線表示見過的教師之外和強學生區域(L_S ≤ 2.3)的預測模型行為。如圖所示,學生的表現可以勝過老師(詳情見圖 2、3 和 41)。
蘋果研究者認為,該發現降低了大規模使用蒸餾的風險,現在我們可以基於此優化教師和學生模型的計算分配,以最大化學生模型的性能。該工作提供的計算最優的蒸餾方案適用於兩種情況:1)已有教師模型,或 2)需要訓練教師模型。
如果要蒸餾多個學生模型,或者已有教師模型,蒸餾在計算水平上優於監督預訓練,直到計算水平隨著學生模型規模的增加而可預測地增長。如果要蒸餾一個學生模型且還需要訓練教師模型,則應採用監督學習。此外,作者在大規模蒸餾研究中提供了深入的見解,這些見解增加了我們對蒸餾的理解,並為實驗設計提供了信息。

-
論文標題:Distillation Scaling Laws
-
論文鏈接:https://arxiv.org/pdf/2502.08606
大模型的擴展定律(Scaling Laws)表明,如果先前訓練的語言模型(LM)遵循計算最優訓練範式,就可以隨著計算力提升而提升。由於推理成本的持續增長,目前這種定律難以持續,人們嘗試使用過度訓練(其中訓練數據量遠大於計算最優情況)來實現小型、功能強大的模型。這些模型的構建既昂貴又耗時。
我們正在尋求與訓練算力投入相匹配,但訓練成本更低的模型,蒸餾是一種流行的方法。但長期以來,學界對蒸餾缺乏共識,並不瞭解如何分配計算資源,以產生最強大的模型。為了彌補這一知識差距,研究人員對蒸餾進行了廣泛研究,學生和老師的參數範圍從 1.43 億到 126 億,使用訓練數據最多達 5120 億 token。
研究發現:

1. 一個大小為 N_S 的學生模型,通過從大小為 N_T 的教師模型中蒸餾 D_S 個 token 所得到的交叉熵,可以通過蒸餾擴展定律(公式 8)進行預測。
2. 老師大小 N_T 和老師訓練 token 數量 D_T 僅通過確定老師的交叉熵 L_T = L_T (N_T , D_T) 來確定學生交叉熵;
3. 老師交叉熵對學生損失的影響遵循冪律,該冪律根據學生和老師的相對學習能力在兩種行為之間轉換,反映了蒸餾中稱為能力差距的現象,即較強的老師會產生較差的學生。該工作的參數化解決了有關能力差距懸而未決的問題,表明這是老師和學生之間學習能力(假設空間和優化能力)的差距,而不僅僅是他們的相對大小,後者其實是一種特殊情況。
該結果表明,當兩個學習過程都有足夠的數據或計算時,蒸餾不能產生比監督學習更低的模型交叉熵。但是,如果以下兩個條件都成立,則蒸餾比監督學習更有效:
1. 用於學生的總計算或 token 不大於新擴展定律給出的學生大小相關閾值;
2. 老師已經存在,或者要訓練的老師有超出單次蒸餾的用途。
新的定律和分析有望指導 AI 社區構建更強大的模型,實現更低的推理成本和總計算成本。
蒸餾擴展率
文章概述了他們如何得出蒸餾擴展率所採取的步驟。
首先是實驗設置。本文的目標是理解教師模型在蒸餾過程中的作用,因此,該研究在純蒸餾情況下(λ = 1,公式 7)進行蒸餾,以避免數據帶來的混淆。本文驗證了 λ = 1 的選擇能夠產生與最優 λ∗ 統計相似的結果。同樣,所有實驗均使用蒸餾溫度(τ = 1),因為該研究發現這能產生性能最佳的學生模型。


表 1 是文中出現的符號代表內容:


對應中文版本
此外,對於實驗數據的選擇,本文結合了三種方案:
固定 M 的教師 / 學生 IsoFLOP 實驗:
本文預測在固定教師模型的情況下,學生模型的參數(N_S)和訓練 token 數量(D_S)之間會呈現出冪律行為。
為了在給定的計算預算內生成儘可能多樣的教師模型,本文訓練了六個 Chinchilla 最優教師模型,其參數範圍從 1.98 億到 77.5 億。對於每一個教師模型,本文按照標準訓練成本,將其蒸餾到具有四種 IsoFLOP 配置的學生模型中。最終得到的學生模型交叉熵如圖 2 所示。作者還注意到,在某些情況下,學生模型能夠超越教師模型的表現,即展現出弱到強的泛化能力。

註:為實現擴展係數的可靠識別,此前有研究使用了兩種策略:
-
(固定模型,變化數據) 對於一個固定的模型族,變化訓練 token 的數量。
-
(IsoFLOP 配置) 在總計算約束下,同時變化模型大小和訓練 token 的數量。
為了確保實驗能夠檢測到這種影響,本文設定學生(N_S,D_S)是固定的,而 N_T 和 D_T 在計算約束下變化。本文進行了蒸餾實驗,將四個 Chinchilla 最優(M_S = D_S/N_S ≈ 20)的學生(其參數範圍從 1.98 億到 18.2 億),從根據四種 IsoFLOP 配置訓練的教師中蒸餾出來。最終得到的學生交叉熵如圖 3 所示。

最後,本文訓練了固定 M 的教師模型與固定 M 的學生模型的組合,其中包含十個教師模型(M_T ≈ 20)和五種規模的學生模型,每個學生模型至少對應四種 M_S 選擇。其中兩個學生模型的交叉熵結果如圖 4 所示。

此外,本文還需要確定蒸餾擴展定律的函數形式。首先,本文觀察到教師模型的大小 N_T 和預訓練 token 數量 D_T 的貢獻可以通過教師模型的交叉熵 L_T 來總結。這可以從圖 1 和圖 3b 中看出:

總之,本文提出,學生交叉熵在 L_T 中遵循 broken 冪律,在 N_S 和 D_S 中遵循冪律:

在此之後,論文分析了在不同計算預算下如何最優地分配教師和學生模型的資源,包括教師模型的訓練成本和學生模型的蒸餾成本,並比較了蒸餾和監督學習在不同計算預算下的性能,發現當教師模型的訓練成本被考慮時,監督學習通常更有效。
這項工作代表了已知最大規模的蒸餾受控實證研究,系統消融了常見的蒸餾技術。正如監督擴展減輕了監督預訓練中的風險一樣,新工作為生產更小、更強大的模型提供了路線圖,並增強了測試時擴展的可行性。