當AI成本降低30倍:DeepSeek-R1如何重塑AI行業
自 DeepSeek-R1 發佈以來,其出色的推理能力和相對低廉的訓練成本在業界引發強烈反響。它讓人們意識到,高性能 AI 模型的開發,也許不必依賴於昂貴的算力和海量的數據。R1 不僅在性能上接近 OpenAI 的 o1,更重要的是,它詳細公開了自己的訓練方法,而這個方法比預期的要簡單得多。這一發現迅速在全球 AI 社區引發反響,諸多研究團隊開始驗證和複現這一突破。
目前,已經有三個重要的開源項目在不同層面證實了 DeepSeek-R1 的發現。
港科大團隊的 SimpleRL 項目展示了 R1 的方法在小模型上的數學推理潛力(項目地址:https://github.com/hkust-nlp/simpleRL-reason?tab=readme-ov-file)。該項目由助理教授何俊賢帶領,他們選擇了 Qwen2.5-Math-7B 作為基礎模型,僅使用了 8000 個來自 MATH 數據集的示例進行訓練。項目採用了兩種訓練策略:SimpleRL-Zero 和 SimpleRL。SimpleRL-Zero 直接在基礎模型上使用 PPO 強化學習算法,而 SimpleRL 則先進行長鏈思維監督微調作為冷啟動,再進行強化學習訓練。兩種方法都採用了簡單而有效的規則獎勵機制:正確答案獎勵 +1,錯誤答案懲罰 -0.5,未給出答案懲罰 -1。
這種簡單的訓練方法取得了出人意料的好成績。在 AIME 基準測試中達到 33.3% 的準確率,AMC 達到 62.5%,MATH 達到 77.2%。這些成績不僅超越了 Qwen2.5-Math-7B-Instruct,甚至可以與使用了 50 倍以上數據量的 PRIME 和 rStar-MATH 項目相媲美。值得注意的是,研究團隊觀察到了模型在訓練過程中一個有趣的變化:在訓練初期,模型會生成大量代碼,隨著訓練進行,它逐漸學會使用自然語言進行推理。在第 40 步左右,模型開始展現出自我反思能力,這正是 DeepSeek-R1 論文中提到的「頓悟時刻」(aha moment)。
而來自 UC 伯克利博士生 Jiayi Pan 和另兩位研究人員,也在 CountDown 遊戲中用不到 30 美元的成本複現了 DeepSeek R1-Zero(項目地址:https://github.com/Jiayi-Pan/TinyZero)。團隊使用了從 0.5B 到 7B 不同參數規模的模型進行實驗。他們的發現十分具有啟發性:雖然 0.5B 的模型只能簡單猜測答案,但從 1.5B 參數開始,模型就能夠展現出搜索、自我驗證和解決方案修正的能力。
項目還證實了幾個重要結論:額外的指令微調並非必要,基礎模型和指令模型最終能達到相似的性能水平;不同的強化學習算法(PPO、GRPO、PRIME)都能實現長思維鏈的湧現;模型的推理行為會根據任務特點呈現不同特徵,比如在倒計時任務中傾向於搜索和自我驗證,而在數字乘法任務中則更傾向於問題分解。
此外,全球最大的開源平台 Hugging Face 團隊也宣佈加入到了複現的隊伍之中,他們推出了一個名為 Open-R1 項目,對 DeepSeek- R1 採取了最全面的複現策略(項目地址:https://huggingface.co/blog/open-r1)。這個項目計劃完整重建 DeepSeek-R1 的訓練流程,分為三個關鍵階段:首先是通過從 DeepSeek-R1 蒸餾高質量推理數據集來複現 R1-Distill 模型;其次是重建用於創建 R1-Zero 的純強化學習流程,驗證 GRPO 算法(Group Relative Policy Optimization)的有效性,這需要為數學、推理和代碼任務構建新的大規模數據集;最後是展示從基礎模型到監督微調再到強化學習的完整多階段訓練過程。
圖丨具體流程(來源:Hugging Face)
與前述項目不同,Open-R1 的目標更為宏大。團隊計劃將框架遷移至代碼生成領域,探索模型如何通過強化學習自主優化代碼結構和調試邏輯;在醫學診斷方向,則試圖建立症狀推理與檢查建議的關聯鏈條。這種跨領域泛化的嘗試,源於一個核心理念:推理能力本質上是可遷移的元技能。項目負責人 Leandro von Werra 表示:「我們的目標不僅是複現結果,更是建立一套透明的技術標準。開源不僅是代碼共享,更是協作方式的革新。」
這三個項目雖然規模和側重點不同,但都證實了 DeepSeek R1 的核心發現:通過精心設計的強化學習方法,即使是較小的模型也能實現強大的推理能力,而且這個過程可以比傳統方法更簡單、更經濟。這些發現正在從根本上改變人們對 AI 模型訓練的認知,為整個行業開闢了新的可能性。
DeepSeek-R1 的發佈及其引發的全球複現熱潮,正在從根本上改變 AI 產業的格局。這種改變首先體現在開發成本上。R1 將每百萬 token 的價格從 o1 的 60 美元降至 2.19 美元,這種近 30 倍的價格差異足以改變企業的 AI 應用策略。如此巨大的成本優勢讓企業可以更自由地進行 AI 應用實驗和創新,而不必過分擔憂預算問題。
R1 證明了,突破性的 AI 進展不一定依賴於更大的計算集群和更龐大的數據集。港科大團隊用 7B 參數的模型和 8000 個數學示例就達到了與大型模型相當的性能,UC 伯克利的研究則表明 1.5B 參數的小模型就能展現出自我驗證和推理能力。這些發現正在顛覆「更大即更好」的傳統認知,為那些計算資源有限的機構和企業帶來了新的可能。
而它對於 AI 生態系統的影響已經開始顯現。儘管 R1 並非完全開源(僅開放了模型權重),但在 Hugging Face 平台上已經催生了 500 多個衍生項目,下載量達到數百萬次。通過提供從 1.5B 到 70B 參數不等的多個版本,R1 讓企業和開發者們可以根據自身條件靈活選擇,這種包容性策略正在重新定義 AI 的可及性。
更深遠的影響體現在整個 AI 市場的連鎖反應上。OpenAI 在 R1 走紅後迅速宣佈將向免費用戶開放 o3-mini 的訪問權限,CEO Sam Altman 也回應稱,R1 是一個「令人印象深刻的模型」,特別是在其性價比方面。同時宣佈「OpenAI 將推出更好的模型」,這種競爭是「令人振奮的」。
儘管 Altman 表示「比以往任何時候都更需要更多的算力」,但資本市場的情緒暫時還與之相悖。2025 年 1 月 27 日,DeepSeek 和它的新模型在美國股市引發了強烈震動。市場認為 R1 的出現動搖了美國科技行業在 AI 領域的主導地位,導致科技板塊出現大幅調整。英偉達股價暴跌約 17%,博通下跌 17%,AMD 下跌 6%,就連科技巨頭微軟的股價也下跌 2%。這種影響甚至蔓延到了 AI 產業鏈的配套領域,電力供應商也遭受重創,美國聯合能源公司和 Vistra 的股價分別下跌 21% 和 29%。
這場股市震盪反映出市場對 AI 行業格局可能發生根本性轉變的擔憂。但知名 AI 學者、史丹福大學教授吳恩達(Andrew Ng)認為,基礎模型層面的這種良性競爭實際上將極大推動應用層的創新。當 AI 技術變得更加平價,整個市場的需求反而會在中長期顯著增加。
可以說,R1 正在推動 AI 行業經歷一次範式轉變。傳統上,AI 領域的創新主要由少數技術巨頭主導,他們通過壟斷先進的計算資源和海量數據來保持優勢。但 R1 展示了另一種可能:通過創新的算法和訓練方法,以更低的成本實現相似的效果。三個主要的複現項目都證實了這一點,它們分別從不同角度驗證了 R1 的核心發現,證明高質量的 AI 推理能力可以通過更簡單、更經濟的方式實現。
這種變革的最終意義在於 AI 技術的民主化。當創新不再被計算資源所限制,當開發成本大幅降低,當訓練方法變得更加簡單高效,更多的開發者和企業就能參與到 AI 技術的創新中來。正如 Yann LeCun 所說,這是開源對閉源的勝利。雖然目前仍有一些技術細節有待澄清,但 R1 無疑為整個行業指明了一個更加開放、更具創新活力的發展方向。
參考資料:
1.https://github.com/hkust-nlp/simpleRL-reason?tab=readme-ov-file
2.https://x.com/jiayi_pirate/status/1882839370505621655
3.https://huggingface.co/blog/open-r1
4.https://venturebeat.com/ai/deepseek-r1-is-a-boon-for-enterprises-making-ai-apps-cheaper-easier-to-build-and-more-innovative/
排版:希幔