「李飛飛團隊50美元煉出DeepSeek R1」,如何被曲解了?

近日,「李飛飛等史丹福大學和華盛頓大學的研究人員以不到 50 美元的雲計算費用,成功訓練出了一個名為 s1 的人工智能推理模型」的消息引起了很多人關注。該模型名為 s1,該模型在數學和編碼能力測試中的表現,據傳與 OpenAI O1 和 DeepSeek R1 等頂尖推理模型不相上下。

這種零花錢消費水平就能精確複製價值數百萬美元大模型的消息給了大家非常廣闊的想像空間。但現在我們真的可以達到這種水平嗎?

我們先看看該模型都做了些什麼。根據論文,s1 能夠達到不錯效果的核心有兩點:s1K 數據集和預算強製法(budget forcing)

s1 團隊構建的 s1K 數據集包含 1000 個精心挑選的問題,包括數學競賽問題、博士級別的科學問題、奧林匹克競賽問題等,配有推理軌跡和答案,並通過三個標準進行驗證:難度、多樣性和質量。這些數據主要來自 NuminaMATH、OlympicArena、OmniMath 等數據集,作為補充,團隊還自己創建了兩個原始數據集 s1-prob 和 s1-teasers。團隊使用Google的 Gemini Flash Thinking 模型生成每個問題的推理軌跡(reasoning traces)和答案。

對於測試時擴展方法,s1 團隊分成了兩類:並行(後續計算獨立運行,如多數投票任務)和順序(後續計算基於早期計算,如長推理軌跡)

s1 團隊更為關注後者並自己研發的預算強製方法,控制模型在測試時的計算量:如果模型生成的思考標記超過預期限制,就強製結束思考過程,添加「end-of-thinking token 分隔符」和「最終答案」,使模型過渡到生成答案步驟;如果希望模型在問題上花費更多的測試時計算量,則抑制「end-of-thinking token 分隔符」,並在模型當前的推理軌跡中追加「等待」,以鼓勵更多的探索。

最後,s1 團隊對阿里的 Qwen2.5-32B-Instruct 進行 s1K 的監督微調並應用預算強製後,得到模型 s1-32B。微調使用 PyTorch FSDP,在 16 個 NVIDIA H100 GPU 上花費了 26 分鐘。

產生了哪些誤解?

對於該論文的成果,不少人提煉出了這樣幾個關鍵信息:李飛飛團隊用不到 50 美元訓練出媲美 DeepSeek R1、OpenAI o1 的 AI 推理模型;該模型通過蒸餾法由 Gemini Thinking Experimental 模型提煉出來的 1000 個樣本小型數據集;對 Qwen2.5-32B-Instruct 模型進行監督微調;使用 16 個英偉達 H100 GPU 進行了 26 分鐘的訓練。

有人為此感到驚喜,也有人表示持懷疑。總的來看,這裡面的信息有真有假。畢業於西安電子科技大學的知乎大模型優秀答主段小草,針對討論比較多的幾個問題進行了剖析。

問題一:都說是李飛飛團隊,跟她有關係嗎?

答:有關係,但不好說多不多。論文標 * 的共同一作有 4 位,主要工作也應該是這幾位做的。李飛飛應該是指導 / 掛名(論文致謝中說了 GPU 和經濟贊助是史丹福大學,但全文沒有提及李飛飛更多的具體論文貢獻)

其中,Niklas Muennighoff 目前在史丹福大學攻讀博士研究大型語言模型,與 Contextual AI & Ai2 有合作,學士學位是在北京大學獲得。

Zitong Yang 是史丹福大學自然語言處理組(Stanford NLP Group)的統計學博士,曾分別在Google、蘋果任職。此前在伯克利加州分校就讀,並在 2020 年獲得該校最高學術榮譽。他開發了 Bellman Conformal Inference 方法用於時間序列預測的置信區間校準,提出了 ResMem 提高模型泛化能力。

Xiang Lisa Li 也是史丹福大學博士,開發了 HALIE 框架,用於評估人類與語言模型的交互。Weijia Shi 則是華盛頓大學博士,開發了檢索增強的語言模型框架 REPLUG 、提出了 INSTRUCTOR 模型和旨在減少幻覺的 Context-aware Decoding 方法,目前在 Ai2 工作。

問題二:真的只用花50美元嗎?

答:如果只考慮最後一輪成功微調訓練出 s1 模型所消耗的 GPU 卡時,是的,甚至更少。論文中提到的 s1 模型的訓練卡時只需要 7 H100 卡,作者對媒體說的原話是「可以用 20 美元在雲平台上租到這些算力」。

關於這裏的成本,有三點需要說明:

  • s1 模型是基於 Qwen2.5-32B-Instruct 模型使用 1000 條數據進行的 SFT 微調,而非從頭開始的模型訓練(想想也不可能)

  • 正如 DeepSeek V3 557.6 萬美元的訓練成本一樣,這裏的成本只包括訓練時的 GPU 算力費用,而不包括人力、數據等一切其他成本;

  • s1 模型並非只訓了一輪,研究人員還做了很多其他的實驗和測試。

微調一個模型的目的和成本,與從零開始訓練一個模型天差地別,所以如果你真的相信 50 美元可以訓練出超過 o1/R1 的模型,那至少也要把 Qwen2.5-32B 的訓練成本加上。

問題三:真的能超過o1/R1嗎?

答:不能。只能通過精心挑選的訓練數據,在特定的測試集上超過 o1-preview,遠遠沒有超過 o1 正式版或者 DeepSeek R1。

看論文中給出的數據,最後一行就是論文的主要成果:

由此看出,在 AIME 2024 和 MATH 500 兩個測試集中,s1 可以超過 o1-preview,但無論在哪個測試集,s1 都沒有超過 o1 正式版和 R1,而且可以說差距還很大。

為什麼說還需要精心挑選數據呢?可以看另一組分數,這是用不同數據集微調的分數差異:

問題四:訓練數據真的是「蒸餾」Gemini嗎?

答:s1 團隊先收集了 59k 問題,然後從中篩選出了最終的 1k 問題。將這 1k 問題提交到 Gemini 2.0 Flash Thinking 中生成思維鏈和答案,以此構建數據集去微調開源的 Qwen 模型。

「儘管我認為,這種做法嚴格來說不叫蒸餾,而是拿 Gemini 生成數據並對 Qwen 做 SFT(有監督微調),但作者們自己在論文里寫了這就是‘蒸餾’。那我只能說,現在‘蒸餾’的概念顯然已經被擴大化了。這種行為是否屬於‘蒸餾’,取決於你對‘蒸餾’的定義,我沒辦法給出標準答案。」

問題五:雖然沒超過o1/R1,但確實能超過o1-preview,同時微調後也的確比Qwen2.5-32B-Instruct進步顯著,怎麼做到的?

答:一是微調用的訓練數據起到了一定作用;二是強製讓模型延長思考時間(test time scaling),具體做法叫做「Budget Forcing」預算強製,也就是強製限制模型使用最大或最小 tokens 進行推理,以此控制模型的思考長度。

為了儘可能延長模型的思考,他們將模型的思考放在標籤內,當結束後,以 final answer 給出答案,同時,當 LLM 即將停止思考時,會強製輸出 Wait 來迫使模型繼續思考,通過這樣的方式,模型會進入反思,並可能會發現自己的錯誤。

推理時插入的「Wait」,也許會像當初的 Step by Step 一樣,成為一個魔法 token。「這或許就是古人‘三思而後行’的哲學吧!」

問題六:我可以體驗s1模型嗎?

答:s1 模型的論文、數據、模型完全開源,但並沒有託管線上服務以供直接體驗。不過,有人對 s1-32B 模型進行了量化,你可以使用 ollama run hf.co/brittlewis12/s1-32B-GGUF:Q4_0 拉取到本地運行。

最後總結一下就是:李飛飛的學生,精心選了 1000 條高質量的數據,通過讓 Gemini 補充完善思維鏈之後作為數據集,以開源的 Qwen2.5-32B 為基座微調出 s1;然後在 s1 輸出時,用「預算強製」方法強行拉長模型的思考時長和輸出 token,然後發現其結果在特定測試集上可以媲美 o1-preview,但比不過 o1 和 DeepSeek R1(差距還比較大)

「該論文的工作確實有一定價值,但遠遠不必誇大到顛覆 o1/R1 甚至 NVIDIA 算力需求的級別。順便一提,近期有另一篇論文《LIMO: Less is More for Reasoning》,同樣是基於 Qwen2.5-32B 探討測試時計算擴展,可以一併學習。」段小草說道。

其中,《LIMO: Less is More for Reasoning》發現,通過極少數數據示例即可有效激發模型的複雜數學推理能力。這一發現不僅挑戰了模型對大規模數據需求的假設,還挑戰了監督微調(SFT)主要導致記憶而非泛化的常見觀點。

根據論文,LIMO 團隊僅使用了 817 個精選訓練樣本,通過構建更高質量推理鏈,結合推理時計算擴展和針對性微調,就在極具挑戰性的 AIME 基準測試中達到了 57.1% 的準確率,其中 MATH 基準測試中達到了 94.8% 的準確率,數據量是之前基於 SFT 大模型的 1%,但 AIME 準確率從 6.5% 提升至 57.1%,MATH 從 59.2% 提升至 94.8%。

值得注意的是,該論文一作 Yixin Ye 是上海交大的本科生,也是 GAIR 實驗室成員,未來計劃讀博。

如何被曲解了?

「李飛飛團隊」的這篇論文 1 月 31 日提交並於 2 月 3 日修訂後,作者 Niklas Muennighoff 發了一篇推文,可以看作這篇論文宣傳的冷啟動。值得注意的是,這裏論文作者自己說明了複現的是 o1-preview 的成績,而不是 o1,也不是 R1。

之後,AI 工程師 Tim Kellogg 於 2 月 3 日發了一篇博客,標題簡單直接地寫道「S1:6 美元的 R1 競爭對手」。「這篇文章比較標題黨,因為你不可能用 6 美元租到 16 卡的 H100 算力,不知道作者是如何估算出這個價格的。但是不重要,總之這個時候所謂的成本就是 16 x H100 x 26 分鐘。」段小草評價道。

香港時間 2 月 6 日上午,外媒 TechCrunch 發了一篇報導《研究人員用不到 50 美元為 OpenAI o1 推理模型製造了一個開源的競爭對手》,這篇報導除了用 50 美元作噱頭外,關於論文技術部分的內容還是比較可靠的。而「50 美元」的來源是 Niklas Muennighoff 在採訪中告訴 TechCrunch,他可以用大概 20 美元的價格從雲平台租到一次訓練所需的算力。TechCrunch 還是「保守」了一點,幫他把 20 美元改成了不到 50 美元。

消息傳到國內,李飛飛、50 美元、R1、o1 等都成了關鍵詞,也被很多人誤讀。不過也有人對此不是很在意,「真假暫且不說,我個人認為意義還是非凡的,標誌著高等級大模型這種王謝堂前燕,開始飛入尋常百姓家。

https://arxiv.org/pdf/2501.19393

https://www.zhihu.com/question/11467407313/answer/94584520134

https://arxiv.org/pdf/2502.03387

本文來自微信公眾號:AI前線,整理:褚杏娟