李飛飛團隊50美元複刻DeepSeek?其實是基於通義監督微調,我們研究了論文
繼DeepSeek掀起軒然大波之後,AI圈這兩天再次被「震驚」。
近日有媒體報導稱,李飛飛等史丹福大學和華盛頓大學的研究人員以不到50美元的雲計算費用,成功訓練出了一個名為s1的人工智能推理模型。
該模型在數學和編碼能力測試中的表現,據稱與OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。
50美元複刻一個DeepSeek,這簡直是逆了三十三重天。
不過,也有觀點指出,s1是通過蒸餾法由Google的Gemini2.0 Flash Thinking Experimental提煉出的。
那麼事實到底是怎樣的?s1模型的原理是什麼?怎樣得出50美元成本的?
s1模型站在巨人肩膀上
三言查看了s1論文,發現這可能又是被「震驚體」們給誇大了。

論文摘要中寫道:測試時間縮放是一種很有前景的語言建模新方法,它利用額外的測試時計算資源來提高性能。
最近,OpenAI的o1模型展示了這種能力,但未公開其方法,引發了許多複現嘗試。我們尋求實現測試時間縮放和強大推理性能的最簡單方法。
首先,我們精心整理了一個包含1000個問題的小數據集s1K,這些問題都配有推理過程,篩選時依據三個經過消融實驗驗證的標準:難度、多樣性和質量。
其次,我們開發了 「預算強製」 方法,通過在模型嘗試結束時強製終止其思考過程,或多次向模型的生成內容中追加 「等待」 來延長思考時間,從而控制測試時的計算量。
這能讓模型對答案進行二次檢查,常常能修正錯誤的推理步驟。在使用s1K對Qwen2.5-32B-Instruct語言模型進行有監督微調,並為其配備 「預算強製」 功能後,我們的模型s1-32B在競賽數學問題(MATH 和 AIME24)上的表現比o1-preview高出27%。
此外,對s1-32B使用 「預算強製」 方法進行擴展,能夠在無測試時干預的情況下提升性能:在AIME24上的準確率從50%提高到57%。
在論文的摘要中,已經說明了是使用s1K對Qwen2.5-32B-Instruct語言模型(阿里雲通義千問)進行有監督微調,並為其配備 「預算強製」 功能。
也就是說s1模型的訓練並非從零開始,而是建立在已具備強大能力的開源基礎模型之上。
引言中寫道:儘管有大量對o1模型的複現嘗試,但沒有一個公開清晰地複現出測試時縮放行為。因此,我們提出疑問:實現測試時縮放和強大推理性能的最簡單方法是什麼?
我們展示了,僅使用1000個樣本進行下一個標記預測訓練,並通過一種簡單的測試時技術 「預算強製」 來控制思考時長,就能得到一個強大的推理模型,其性能會隨著測試時計算量的增加而提升。
具體來說,我們構建了s1K數據集,它由1000個經過精心篩選的問題組成,這些問題都配有從Gemini Thinking Experimental(Google,2024)提煉出的推理過程和答案。我們在這個小數據集上對一個現成的預訓練模型進行有監督微調(SFT),在16個H100 GPU上僅需訓練26分鐘。訓練完成後,我們使用 「預算強製」 方法來控制模型在測試時花費的計算量。
這部分又提到,s1K數據集的1000個問題都配有從Gemini Thinking Experimental提煉出的推理過程和答案。並在s1K這個小數據集上對一個現成的預訓練模型進行有監督微調。
這也再次說明,s1模型是借助了其他強大模型的能力。
實驗方法:數據集策劃、預算強製、測試時間擴展方法
從整篇論文來看,其主要的實驗方法包括數據集策劃、預算強製,以及測試時間擴展方法。
首先是策劃一個包含1000個問題的小型數據集s1K。

該團隊基於質量、難度和多樣性三個標準,從16個來源收集59029個問題,經API錯誤篩選、格式問題過濾等,最終確定1000個高質量樣本,涵蓋數學、科學等50個不同領域。
其次是預算強製。
預算強製原理是通過控制測試時的計算量(如思考標記數)來優化模型性能。
具體方法是在模型生成過程中,強製結束思考過程或延長思考時間,促使模型重新檢查答案,修正錯誤推理步驟。
再就是測試時間擴展方法,分為順序擴展和並行擴展。
順序擴展是基於模型的中間結果逐步優化推理過程。
而並行擴展是通過多次獨立生成解決方案並選擇最佳結果來提升性能。
實驗中的具體訓練,是使用s1K對Qwen2.5-32B-Instruct進行有監督微調,16個H100 GPU上訓練26分鐘。
然後採用AIME24、MATH500和GPQA Diamond三個推理基準測試,將s1-32B 與多種模型對比。
最後得出結論,僅在1000個樣本上進行監督微調並結合預算強製技術,即可構建出具有強大推理能力和測試時擴展能力的模型。

由此可見,s1模型的確有不俗的表現,但它是站在了巨人肩膀上的。
「不到50美元」僅為雲計算服務費用
在通篇論文中,並未提到過50美元的成本。
而論文中有一句「訓練在16個NVIDIA H100 GPU上只需26分鐘」,這或許就是「50美元成本」的由來。

據財聯社報導,「不到50美元」僅為雲計算服務費用,不包括服務器、顯卡等硬件投入費用,因這部分已經由雲廠商承擔。
DeepSeek怎麼看?
「50美元複刻DeepSeek」這樣的標題屬實震撼,DeepSeek會如何看待這事呢?
筆者就此事向DeepSeek提了兩個問題。
問題一:近日有媒體報導稱,史丹福李飛飛團隊以不到50美元的成本訓練出與OpenAI的O1,以及DeepSeek的R1等尖端推理模型不相上下s1模型,分析一下為什麼會成本這麼低?
史丹福李飛飛團隊以極低成本訓練出與OpenAI、DeepSeek等頂尖模型性能接近的S1模型,這一突破可能由以下技術和管理因素驅動:
1.模型架構創新
參數高效設計:採用稀疏激活架構(如MoE)或動態計算機制(如自適應深度/寬度),在保持性能的同時減少計算量。
注意力機制優化:使用FlashAttention、分組查詢注意力(GQA)等技術,降低內存佔用和計算複雜度。
知識蒸餾:通過大模型指導小模型訓練(如logit蒸餾、中間層特徵對齊),提升小模型性能。
2.訓練策略突破
數據高效利用:
基於主動學習的核心樣本篩選(如使用不確定性采樣)
合成數據生成(LLM生成高質量訓練樣本)
數據增強的對抗訓練(如Diffusion模型生成變體)
優化算法改進:
二階優化器(如Sophia)實現更快的收斂速度
動態批處理(根據梯度方差調整batch size)
課程學習與漸進式訓練策略
混合精度3.0:結合FP8/FP16混合精度與梯度量化,內存效率提升4-8倍。
3.硬件利用革新
異構計算架構:
使用TPU/GPU混合集群,優化任務分配
利用消費級顯卡(如RTX4090)的稀疏計算能力
彈性訓練系統:
基於Kubernetes的動態資源調度
搶佔式實例的容錯訓練(Checkpointing頻率優化)
模型切片技術:通過ZeRO-Infinity實現超大規模模型參數卸載,單卡可訓練參數量提升10倍。
此外,DeepSeek還列舉了軟件棧深度優化、理論突破支持、成本控制策略等原因。
潛在挑戰與限制
這一突破標誌著AI研發正在從”暴力計算”向”智能計算”轉型,未來可能出現更多基於算法創新的低成本模型。不過實際產業落地仍需考慮推理成本、部署複雜度等綜合因素,建議持續關注後續技術細節披露和第三方複現結果。
問題二:你怎麼看通過蒸餾監督微調進行模型訓練?
不過,在問這一問題的時候DeepSeek出現了「宕機」現象,筆者多次嘗試提問,而得到的回覆一直是「服務器繁忙,請稍後再試。」
於是筆者通過納米AI搜索App使用DeepSeek-R1-360高速專線提問這一問題。
DeepSeek回覆稱, 通過蒸餾(Distillation)進行監督微調(Supervised Fine-tuning)是一種有效的模型訓練方法,尤其在模型壓縮、遷移學習和提升模型性能方面具有顯著優勢。
DeepSeek還從技術背景與核心概念、優勢與適用場景、潛在挑戰與解決方案、典型應用領域、未來發展方向等 多個角度,對蒸餾以及監督微調進行了詳細分析。
最後,DeepSeek還作出了以下總結:
通過蒸餾進行監督微調是一種高效且靈活的模型訓練方法,能夠在模型壓縮、遷移學習和性能優化等多個方面帶來顯著收益。儘管該方法面臨一些挑戰,但隨著技術的不斷髮展和創新,其應用前景將更加廣闊。在實際應用中,需要根據具體任務需求和技術條件,合理設計蒸餾策略,並權衡計算成本與性能提升之間的關係。
該如何看待蒸餾監督微調?
關於s1模型成本低的原因,DeepSeek的分析中也提到了蒸餾。 DeepSeek還詳細的分析了蒸餾的優勢和存在的挑戰。
蒸餾和監督微調的結合,DeepSeek也給予肯定。
事實上,很多主流大模型也都用過數據蒸餾的方法。比如,DeepSeek-R1模型使用了強化學習和大規模數據蒸餾,Kimi k1.5也使用了強化學習和大規模數據蒸餾。
這也證明,蒸餾在模型訓練中是一種經常被用到的方式。
據報導,阿里雲證實,李飛飛團隊以阿裡通義千問Qwen2.5-32B-Instruct開源模型為底座,在16塊H100GPU上監督微調26分鐘,訓練出新模型s1-32B,取得了與OpenAI的o1和DeepSeek的R1等尖端推理模型數學及編碼能力相當的效果,甚至在競賽數學問題上的表現比o1-preview高出27%。
s1模型這一案例,或許會給未來的研究提供一定的方向。
不過,蒸餾畢竟是建立在強大開源模型的基礎之上,並非小模型的自身能力。
「50美元複刻DeepSeek」這樣的標題,屬實有些「震驚體」了。
本文來自微信公眾號「三言財經」(ID:sycaijing),作者:大鵬,36氪經授權發佈。