20K合成數據就能讓大模型能力飆升!還能實現模型自我迭代,上海AI Lab數據合成新範式

Maosong 投稿

量子位 | 公眾號 QbitAI

僅使用20K合成數據,就能讓Qwen模型能力飆升——

模型主觀對話能力顯著提升,還能實現模型自我迭代。

合成數據大法好!

最近,來自上海AI Lab的研究團隊針對合成數據技術展開研究,提出了SFT數據合成引擎Condor,通過世界知識樹(World Knowledge Tree)和自我反思(Self-Reflection)機制,探索合成海量高質量SFT數據的方案。

結果,他們還意外發現,在增大合成數據量的情況下,模型性能持續提升。

從5K數據量開始,模型主觀對話性能隨著數據量增加而提升,但數據量達到20K後,性能增長變緩——

LLM數據合成新範式:基於世界知識樹打造高質量對話數據

隨著大模型能力的快速發展,模型訓練對高質量SFT數據的需求日益迫切。數據合成技術作為一種新穎高效的數據生成策略,逐漸成為研究熱點,並在模型迭代過程中扮演著關鍵角色。

上海AI Lab研究團隊的Condor數據合成主要包含兩個階段:Condor Void和Condor Refine。

整個過程中,研究團隊僅使用一個LLM作為運行模型,同時承擔問題合成、回覆合成、回覆評價和回覆改進的多重角色。

使用世界知識樹進行多樣化指令合成

具體來說,Condor首先利用模型生成一系列世界知識樹,給定模型一些關鍵詞,讓其自身遞歸生成更多的子關鍵詞,從而形成完整的知識樹。每個節點作為一個Tag,用於後續數據生成。

例如,給定「人工智能」這個關鍵詞,生成一條由粗到細的知識鏈路:

人工智能——深度學習——計算機視覺——自動駕駛——單目目標檢測

Condor以這條知識鏈路作為背景知識,要求模型生成相關問題。為進一步提升合成指令的多樣性,研究團隊引入了任務多樣性和問題難度多樣性的增廣要求。

針對不同類型的主觀任務(如日常聊天、角色扮演、創意創作等),研究人員精心設計了不同的問題模板來引導模型生成對應任務下的問題。在生成問題時,Condor要求模型在一次生成中同時生成三種不同難度的問題。

自我反思提升回覆質量

對於每一條知識鏈路,基於Condor可以收集到不同任務類型、不同難度的多個問題。研究人員將這些問題輸入模型,生成初始回覆,得到初版的SFT合成數據。

Condor Refine Pipeline引入自我反思策略,使用模型對初版回覆進行評價並生成修改意見,引導模型進一步改進回覆,從而獲得最終的高質量SFT數據。

使用合成數據提高模型通用對話能力

研究人員使用開源模型Qwen2.5-72B-Instruct進行數據合成,得到Condor Void和Condor Refine兩個版本的合成數據,並基於Qwen2.5-7B進行SFT訓練,測試其主觀對話能力和客觀綜合能力。

從實驗結果可以看出,使用Condor合成數據訓練的模型在主觀對話能力上與Qwen2.5-7B-Instruct具有競爭力。

同時,基於Condor合成數據訓練的模型在主流客觀評測基準上保持了性能。Condor相比其他基線方法具有顯著的性能優勢。

數據規模影響與模型自我迭代

研究團隊進一步探索在增大合成數據量的情況下,模型性能能否持續提升。

從5K數據量開始,逐步增加到200K,觀察不同數據量下訓練出的模型性能。

結果顯示,模型主觀對話性能隨著數據量增加而提升,但數據量達到20K後,性能增長變緩。

利用合成數據能否實現模型的自我迭代呢?

研究團隊利用Qwen2.5-7B-Instruct和Qwen2.5-72B-Instruct模型經過Condor Pipeline生成兩版數據,並分別訓練7B和72B的Base模型,觀察自我迭代效果。

從結果可以看出,經過Condor合成數據訓練,模型在7B和72B上均實現了自我迭代,相比基線性能進一步提升。

合成數據為什麼有效?

Condor的合成數據如何對模型產生增益作用?研究團隊進行了一系列分析。研究人員將主觀評測集按各個能力維度拆解,統計在各個維度上的增益,發現在所有維度上都產生了增益,在Creation、QA和Chat上的增益尤為明顯。

進一步的,研究人員對Condor Pipeline合成的問題指令進行分析。使用T-SNE投影與Magpie方法合成的問題進行對比,發現Condor合成的數據和Magpie均能實現廣泛的知識覆蓋。

再來看看模型在對話回覆中的表現,通過和原始模型進行對比我們可以發現,Condor合成的數據訓練後的模型即使和官方模型相比,在回覆風格(如幽默,創意)的主觀感受上也要更勝一籌,能更加擬人化並考慮到回答細節的改善。

合成數據是大模型迭代的重要方案,仍有許多值得探索的研究問題,如高質量推理數據和多輪對話數據的有效合成策略、真實數據和合成數據的協作配比機制、以及如何突破合成數據的Scaling Law等。目前,Condor的合成數據和訓練後的模型均已開源,歡迎社區用戶體驗和探索。

Github: https://github.com/InternLM/Condor

數據集:https://hf.co/datasets/internlm/Condor-SFT-20K

論文:https://arxiv.org/abs/2501.12273