原來,這些頂級大模型都是蒸餾的
機器之心報導
編輯:張倩
「除了 Claude、豆包和 Gemini 之外,知名的閉源和開源 LLM 通常表現出很高的蒸餾度。」這是中國科學院深圳先進技術研究院、北大、零一萬物等機構的研究者在一篇新論文中得出的結論。
前段時間,一位海外技術分析師在一篇博客中提出了一個猜想:一些頂級的 AI 科技公司可能已經構建出了非常智能的模型,比如 OpenAI 可能構建出了 GPT-5,Claude 構建出了 Opus 3.5。但由於運營成本太高等原因,他們將其應用在了內部,通過蒸餾等方法來改進小模型的能力,然後依靠這些小模型來盈利。
當然,這隻是他的個人猜測。不過,從新論文的結論來看,「蒸餾」在頂級模型中的應用範圍確實比我們想像中要廣。
具體來說,研究者測試了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多個模型,發現這些模型大多存在很高程度的蒸餾(Claude、豆包和 Gemini 除外)。比較明顯的證據是:很多模型會在聲明自己身份等問題時出現矛盾,比如 llama 3.1 會說自己是 OpenAI 開發的,Qwen-Max 說自己由 Anthropic 創造。
![](http://n.sinaimg.cn/spider20250129/574/w1080h1094/20250129/de19-d120c58c3959117bda4106e3fc9b6e79.png)
蒸餾固然是一種提升模型能力的有效方法,但作者也指出,過度蒸餾會導致模型同質化,減少模型之間的多樣性,並損害它們穩健處理複雜或新穎任務的能力。所以他們希望通過自己提出的方法系統地量化蒸餾過程及其影響,從而提供一個系統性方法來提高 LLM 數據蒸餾的透明度。
![](http://n.sinaimg.cn/spider20250129/674/w1080h394/20250129/0dd7-b5619906d4d9cb75ed4da90d0aa35743.png)
-
論文標題:Distillation Quantification for Large Language Models
-
論文鏈接:https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf
-
項目鏈接:https://github.com/Aegis1863/LLMs-Distillation-Quantification
為什麼要測試 LLM 的蒸餾情況?
最近,模型蒸餾作為一種更有效利用先進大語言模型能力的方法,引起了越來越多的關注。通過將知識從更大更強的 LLM 遷移到更小的模型中,數據蒸餾成為了一個顯著的後發優勢,能夠以更少的人工標註和更少的計算資源與探索來實現 SOTA 性能。
然而,這種後發優勢也是一把雙刃劍,它阻止了學術機構的研究人員和欠發達的 LLM 團隊自主探索新技術,並促使他們直接從最先進的 LLM 中蒸餾數據。此外,現有的研究工作已經揭示了數據蒸餾導致的魯棒性下降。
量化 LLM 的蒸餾面臨幾個關鍵挑戰:
1. 蒸餾過程的不透明性使得難以量化學生模型和原始模型之間的差異;
2. 基準數據的缺乏使得需要採用間接方法(如與原始 LLM 輸出的比較)來確定蒸餾的存在;
3. LLM 的表徵可能包含大量冗餘或抽像信息,這使得蒸餾的知識難以直接反映為可解釋的輸出。
最重要的是,數據蒸餾在學術界的廣泛使用和高收益導致許多研究人員避免批判性地檢查與其使用相關的問題,導致該領域缺乏明確的定義。
研究者使用了什麼方法?
作者在論文中提出了兩種方法來量化 LLM 的蒸餾程度,分別是響應相似度評估(RSE)和身份一致性評估(ICE)。
![](http://n.sinaimg.cn/spider20250129/722/w1080h442/20250129/334a-d512c4838fdc1bc40093cca78c55500e.png)
RSE 採用原始 LLM 的輸出與學生大語言模型的輸出之間的比較,從而衡量模型的同質化程度。ICE 則採用一個知名的開源越獄框架 GPTFuzz,通過迭代構造提示來繞過 LLM 的自我認知,評估模型在感知和表示身份相關信息方面的差異 。
他們將待評估的特定大語言模型集合定義為 LLM_test = {LLM_t1,LLM_t2,…,LLM_tk},其中 k 表示待評估的 LLM 集合的大小。
響應相似度評估(RSE)
RSE 從 LLM_test 和參考 LLM(在本文中即 GPT,記為 LLM_ref)獲取響應。作者隨後從三個方面評估 LLM_test 和 LLM_ref 的響應之間的相似度:響應風格、邏輯結構和內容細節。評估者為每個測試 LLM 生成一個它與參考模型的整體相似度分數。
作者將 RSE 作為對 LLM 蒸餾程度的細粒度分析。在本文中,他們手動選擇 ArenaHard、Numina 和 ShareGPT 作為提示集,以獲取響應並評估 LLM_test 在通用推理、數學和指令遵循領域的相關蒸餾程度。如圖 3 所示,LLM-as-a-judge 的評分分為五個等級,每個等級代表不同程度的相似度。
![](http://n.sinaimg.cn/spider20250129/737/w1080h1257/20250129/7e0e-ed59dec09fe03841511d456384c10f75.png)
身份一致性評估(ICE)
ICE 通過迭代構造提示來繞過 LLM 的自我認知,旨在揭示嵌入其訓練數據中的信息,如與蒸餾數據源 LLM 相關的名稱、國家、位置或團隊。在本文中,源 LLM 指的是 GPT4o-0806。
作者在 ICE 中採用 GPTFuzz 進行身份不一致性檢測。首先,他們將源 LLM 的身份信息定義為事實集 F,F 中的每個 f_i 都清楚地說明了 LLM_ti 的身份相關事實,例如「我是 Claude,一個由 Anthropic 開發的 AI 助手。Anthropic 是一家總部位於美國的公司。」
![](http://n.sinaimg.cn/spider20250129/657/w546h111/20250129/7151-ca71f7b2bcdc6121200a806e5f004501.png)
同時,他們使用帶有身份相關提示的 P_id 來準備 GPTFuzz 的
![](http://n.sinaimg.cn/spider20250129/718/w599h119/20250129/34a1-a62f18f639e40bea35331ea64834f54b.png)
,用於查詢 LLM_test 中的 LLM 關於其身份的信息,詳見附錄 B。作者使用 LLM-as-a-judge 初始化 GPTFuzz 的 F^G,以比較提示的響應與事實集 F。具有邏輯衝突的響應會被識別出來,並相應地合併到 F^G 的下一次迭代中。
作者基於 GPTFuzz 分數定義兩個指標:
-
寬鬆分數:將任何身份矛盾的錯誤示例視為成功攻擊;
-
嚴格分數:僅將錯誤識別為 Claude 或 GPT 的示例視為成功攻擊。
實驗結果如何?
ICE 的實驗結果如圖 4 所示,寬鬆分數和嚴格分數都表明 GLM-4-Plus、Qwen-Max 和 Deepseek-V3 是可疑響應數量最多的三個 LLM,這表明它們具有更高的蒸餾程度。相比之下,Claude-3.5-Sonnet 和 Doubao-Pro-32k 幾乎沒有顯示可疑響應,表明這些 LLM 的蒸餾可能性較低。寬鬆分數指標包含一些假陽性實例,而嚴格分數提供了更準確的衡量。
![](http://n.sinaimg.cn/spider20250129/490/w1080h1010/20250129/1bd0-790c6a8fba8a817e32147dcd4238c843.png)
作者將所有越獄攻擊提示分為五類,包括團隊、合作、行業、技術和地理。圖 5 統計了每種類型問題的成功越獄次數。這個結果證明 LLM 在團隊、行業、技術方面的感知更容易受到攻擊,可能是因為這些方面存在更多未經清理的蒸餾數據。
![](http://n.sinaimg.cn/spider20250129/222/w1080h742/20250129/9d96-0553d0ed03942fa6600919ab1a789042.png)
如表 1 所示,作者發現相比於監督微調(SFT)的 LLM,基礎 LLM 通常表現出更高程度的蒸餾。這表明基礎 LLM 更容易表現出可識別的蒸餾模式,可能是由於它們缺乏特定任務的微調,使它們更容易受到評估中利用的漏洞類型的影響。
![](http://n.sinaimg.cn/spider20250129/20/w1080h540/20250129/d36c-3fad4d646af6065a0cceaa56f1353d80.png)
另一個有趣的發現是,實驗結果顯示閉源的 Qwen-Max-0919 比開源的 Qwen 2.5 系列具有更高的蒸餾程度。作者發現了大量與 Claude 3.5-Sonnet 相關的答案,而 2.5 系列 LLM 的可疑答案僅與 GPT 有關。這些示例在附錄 D 中有所展示。
RSE 結果在表 3 中展示,以 GPT4o-0806 作為參考 LLM,結果表明 GPT 系列的 LLM(如 GPT4o-0513)表現出最高的響應相似度(平均相似度為 4.240)。相比之下,像 Llama3.1-70B-Instruct(3.628)和 Doubao-Pro-32k(3.720)顯示出較低的相似度,表明蒸餾程度較低。而 DeepSeek-V3(4.102)和 Qwen-Max-0919(4.174)則表現出更高的蒸餾程度,與 GPT4o-0806 相近。
![](http://n.sinaimg.cn/spider20250129/542/w1080h1062/20250129/dd3e-31763d8a99dd6e761373ac3381fc56ae.png)
為了進一步驗證觀察結果,作者進行了額外的實驗。在這個設置中,他們選擇各種模型同時作為參考模型和測試模型。對於每種配置,從三個數據集中選擇 100 個樣本進行評估。附錄 F 中的結果表明,當作為測試模型時,Claude3.5-Sonnet、Doubao-Pro-32k 和 Llama3.1-70B-Instruct 始終表現出較低的蒸餾程度。相比之下,Qwen 系列和 DeepSeek-V3 模型傾向於顯示更高程度的蒸餾。這些發現進一步支持了本文所提框架在檢測蒸餾程度方面的穩健性。
更多細節請參考原論文。