李飛飛團隊50美元訓練出DeepSeek R1?

本文來自微信公眾號:傅里葉的貓,作者:張海軍,題圖來自:AI生成

今天下午簡直被這條新聞刷屏了,「震驚」「李飛飛」「50美元」「Deep Seek R1」,這幾個詞連到一起,簡直是掀了 OpenAI 和英偉達的桌子,即便是蒸餾出來的模型,那這麼低的成本,OpenAI 花了幾十、幾百億美元做出來的模型,被輕鬆複製,那 OpenAI 的估值不得打個骨折?

我就趕緊看了下論文:

https://arxiv.org/html/2501.19393v1

Github:https://github.com/simplescaling/s1

結果發現並不是那麼回事。

首先這個 50 美元咋來的?因為論文中提到用了 16 塊 H100 GPU,而且只花了 26min,如果是租服務器的話,確實也就是幾十美元。

但問題是,論文中並不是訓練出了 DeepSeek R1!

論文的核心內容是基於開源的 Qwen2.5 – 32B 模型,該模型是蒸餾出來的模型,32B 只能算是中等參數模型,作為本次實驗對比的 R1 和 o1 都是大幾千億參數的模型。用小數據集進行監督微調,而且微調後的參數數量跟之前基本保持一致,然後在特定任務上把性能優化了,而這些任務的性能表現可以媲美 DeepSeek R1 和 OpenAI o1。

怎麼經過中文博主翻譯過來後,就成了 50 美元蒸餾出了 DeepSeek R1?

以下是論文解讀(使用豆包解讀)

  1. 研究背景與目標:語言模型性能提升多依賴訓練時計算資源擴展,測試時縮放是新範式,OpenAI 的 o1 模型展示了其潛力,但方法未公開。本文旨在探尋實現測試時縮放和強推理性能的最簡方法。

  2. s1K 數據集構建

  3. 初始數據收集:依據質量、難度和多樣性原則,從 16 個來源收集 59029 個問題,涵蓋現有數據集整理和新的定量推理數據集創建,用 Google Gemini Flash Thinking API 生成推理軌跡和解決方案,並進行去重和去汙染處理。

    最終樣本選擇:經質量、難度和多樣性三步篩選得到 1000 個樣本的 s1K 數據集。質量篩選去除 API 錯誤和低質量樣本;難度篩選依據兩個模型的性能和推理軌跡長度排除過易問題;多樣性篩選按數學學科分類,從不同領域采樣,且傾向選擇推理軌跡長的樣本。

  4. 測試時縮放方法

  5. 方法分類與提出:將測試時縮放方法分為順序和並行兩類,重點研究順序縮放。提出預算強製(Budget forcing)方法,通過強製設定思考令牌的最大或最小數量,控制模型思考時間,引導模型檢查答案、修正推理步驟。

    基準對比:將預算強製與條件長度控制方法(令牌條件控制、步驟條件控制、類別條件控制)和拒絕采樣進行對比。使用控制(Control)、縮放(Scaling)和性能(Performance)三個指標評估,結果表明預算強製在控制、縮放和最終性能上表現最佳。

  6. 實驗結果

  7. 實驗設置:用 s1K 對 Qwen2.5-32B-Instruct 進行監督微調得到 s1-32B 模型,在 AIME24、MATH500 和 GPQA Diamond 三個推理基準上評估,並與 OpenAI o1 系列、DeepSeek r1 系列等模型對比。

    性能表現:s1-32B 在測試時縮放中,性能隨測試時計算資源增加而提升,在 AIME24 上超過 o1-preview 達 27%,且是最具樣本效率的開源數據推理模型,接近 Gemini 2.0 在 AIME24 上的性能,驗證了蒸餾過程的有效性。

  8. 消融實驗

  9. 數據相關:測試數據質量、多樣性和難度組合的重要性。隨機選擇(僅質量)、僅多樣性選擇、僅難度選擇(選最長推理軌跡樣本)的數據集性能均不如 s1K,訓練 59K 全量樣本雖性能強但資源消耗大,證明 s1K 構建方法的有效性。

    測試時縮放方法:預算強製在 AIME24 測試中控制完美、縮放良好、得分最高,「Wait」作為擴展性能的字符串效果最佳。令牌條件控制在無預算強製時失敗,步驟條件控制下模型可繞過計算約束,類別條件控制雖能提升性能但綜合表現不如預算強製,拒絕采樣呈現反向縮放趨勢。

  10. 討論與展望

  11. 樣本高效推理:眾多研究致力於複製 o1 性能,本文通過 1000 樣本監督微調結合預算強製,構建出有競爭力的模型,推測預訓練使模型具備推理能力,微調激活該能力。同時,介紹了相關基準和方法的發展情況。

    測試時縮放:對比了並行和順序測試時縮放方法,分析了預算強製的局限性,提出改進方向,如改進預算強製策略或結合強化學習探索新的測試時縮放方式 ,並指出並行縮放可作為突破順序縮放限制的解決方案。

國內的網絡環境真的是太浮躁了,這種信息,完全不確認一下就發出來誤導大眾,希望大家以後看到這種信息要多思考一下。

本文來自微信公眾號:傅里葉的貓,作者:張海軍