矽谷不眠夜:DeepSeek為何震動美國科技界?
DeepSeek 給矽谷帶來的震撼還在持續,並不見降溫的跡象。如果和幾個月前的《黑神話·悟空》在歐美受到的追捧相比,DeepSeek 的出現可謂是「石破天驚」,充滿了各種不可能、不合理。它講述了一個如何在層層封鎖、勁敵環伺的背景下鐵樹生花的故事,讓美國精心設置的人工智能技術小院高牆展現出了坍塌的風險。
「我們正生活在一個特殊的時代:一家非美國公司在真正踐行著 OpenAI 最初的使命——開展真正開放的前沿研究,為所有人賦能。這看似不合常理,但最富戲劇性的往往最可能發生。」這是英偉達高級研究科學家 Jim Fan 在社交媒體上發出的感慨。
就在最近,這家一年多前還名不見經傳的中國 AI 公司,以其新發佈的推理大模型 R1 在全球 AI 界掀起了一場風暴。這個模型不僅在性能上比肩甚至超越了 OpenAI 的 o1,並完全開源,且以極低的成本實現了這一突破。這一事件迅速觸動了美國科技界的神經。

微軟 CEO Satya Nadella 在達沃斯世界經濟論壇上直言:「DeepSeek 新模型的表現令人印象深刻,尤其是在模型推理效率方面。我們必須認真對待來自中國的這些發展。」Scale AI 的 CEO Alexandr Wang 甚至將其稱為一款「震撼世界的模型(earth-shattering model)」。「我們發現 DeepSeek…… 的性能與美國最好的模型不相上下。」

事實上,DeepSeek-R1 的出現確實引發了矽谷的一場小型地震。禾頓商學院教授 Ethan Mollick 對 R1 的內部思考過程讚歎不已:「DeepSeek 的原始思維鏈非常迷人。它真的讀起來就像一個人在大聲思考。既迷人又奇特」。著名風險投資人、Mosaic 瀏覽器聯合發明人馬克·安達臣也表示:「DeepSeek R1 是我見過的最令人驚歎和印象深刻的突破之一,作為開源項目,這是給世界的一份重要禮物。」這種開源精神甚至讓一位軟件工程師將「OGOpenAI.com」域名重定向到了 DeepSeek,以此暗示 DeepSeek 更像早期的 OpenAI,踐行著開源 AI 的理念。

最直接的衝擊體現在同樣倡導開源的 Meta 上。據美國匿名職場社區 teamblind 爆料,DeepSeek 的一系列動作已經讓 Meta 的生成式 AI 團隊陷入恐慌。一位 Meta 員工在帖子中寫道:「工程師們正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。這一點都不誇張。」更令他們擔憂的是,「當生成式 AI 組織中的每個‘領導’的薪資都比訓練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的‘領導’時,他們要如何面對高層?」
儘管 Meta 的首席 AI 科學家 Yann LeCun 強調,這不應被解讀為「中國在 AI 領域超越美國」,而是「開源模型正在超越專有模型」。然而,朱克伯格隨後的舉措還是暴露了 Meta 的焦慮:宣佈加速研發 Llama 4,計劃投資 650 億美元擴建數據中心,並部署 130 萬枚 GPU 以「確保 2025 年 Meta AI 成為全球領先模型」。

艾倫人工智能研究所的研究科學家 Nathan Lambert 稱,「在這一點上,Meta 絕非個例」他認為,R1 的發佈標誌著推理模型研究的一個重要轉折點。在此之前,推理模型一直是工業研究的重要領域,但缺乏一篇開創性的論文。就像 GPT-2 對預訓練的重要性,或者 InstructGPT 對後訓練的影響一樣,我們一直在等待一個推理模型研究的里程碑。Lambert 指出:「推理研究和進展現在已經鎖定——預計 2025 年將有巨大的進展,而且更多將是公開的。」
那麼,是什麼讓 DeepSeek-R1 如此特別?R1-zero 採用的訓練策略證明了僅通過強化學習(RL,Reinforcement Learning),無監督式微調(SFT,Supervised Fine-Tun-ing),大模型也可以有強大的推理能力。Hyperbolic 聯合創始人兼 CTO Yuchen Jin 將這一突破與 AlphaGo 進行類比:「就像 AlphaGo 使用純 RL 下了無數盤圍棋並優化其策略以獲勝一樣,DeepSeek 正在使用相同的方法來提升其能力。2025 年可能會成為 RL 的元年。」
不過,R1-Zero 在可用性方面存在的一些小問題表明,要訓練出一個出色的推理模型,需要的不僅僅是大規模的 RL。
在 R1-Zero 的基礎上,團隊針對 R1 採用了一個四階段的訓練方案:首先是對合成推理數據進行「冷啟動」監督微調;其次是對推理問題進行大規模強化學習訓練,直到收斂;第三是對 3/4 的推理問題和 1/4 的一般查詢進行拒絕采樣,開始向通用模型過渡;最後是混合推理問題和一般偏好調整的強化學習訓練。這個過程不僅實現了高效的訓練,還保持了模型的可讀性和最終性能。

圖丨 DeepSeek 採用的 GRPO(Group Relative Policy Optimization)算法框架(來源:arXiv)
更關鍵的是,DeepSeek 通過創新性的方法,在有限的計算資源下實現了這些突破。正如微軟 AI 前沿研究實驗室首席研究員 Dimitris Papailiopoulos 所說,R1 最令人驚訝的是其工程簡單性:「DeepSeek 追求準確的答案,而不是詳細說明每個邏輯步驟,這顯著減少了計算時間,同時保持了高效率。」
儘管 R1 備受關注,DeepSeek 仍然相對神秘。創立於 2023 年 7 月的 DeepSeek 一直是一家低調的公司。公司創始人梁文鋒畢業於浙江大學信息與電子工程專業,此前創立了管理約 80 億美元資產的對衝基金幻方量化(High-Flyer)。與 OpenAI 的 Sam Altman 類似,梁文鋒的目標也是構建通用人工智能(AGI)。
DeepSeek 的成功與其獨特的發展策略密不可分。在美國實施芯片出口管製之前,梁文鋒就收購了大量英偉達 A100 芯片。據有關媒體報導,公司庫存超過 1 萬塊,而 AI 研究諮詢公司 SemiAnalysis 創始人 Dylan Patel 預估這個數量至少是 5 萬塊。這種賽前分析性的佈局為該公司的技術突破奠定了基礎。
更重要的是,面對芯片限制,DeepSeek 將挑戰轉化為創新機遇。美國西北大學計算機科學博士生、前 DeepSeek 員工 Zihan Wang 告訴《麻省理工科技評論》:「整個團隊熱衷於將硬件挑戰轉化為創新機會。」他補充說,在 DeepSeek 工作期間,他能夠獲得充足的計算資源並有自由進行實驗,「這是大多數應屆畢業生在任何公司都不會得到的待遇。」
這種創新精神體現在效率的提升上。在 2024 年 7 月接受採訪時,梁文鋒承認中國公司在 AI 工程技術方面相對落後:「我們必須消耗兩倍的計算力才能達到相同的結果。再加上數據效率差距,這可能意味著需要四倍的計算力。我們的目標是不斷縮小這些差距。」梁文鋒本人也深度參與研究過程,與團隊一起進行實驗。
而 DeepSeek 最終找到了減少內存使用和加快計算速度的方法,同時沒有明顯犧牲準確性。
實際上,中國公司在這方面已經形成了某種共識,他們不僅追求效率,而且也在越來越多地擁抱開源原則。阿里雲已發佈了超過 100 個新的開源 AI 模型,支持 29 種語言,涵蓋編程和數學等各種應用。據中國信息通信研究院的白皮書顯示,全球 AI 大語言模型數量已達 1,328 個,其中 36% 來自中國,使中國成為僅次於美國的第二大 AI 技術貢獻國。
「這一代中國年輕研究者特別認同開源文化,因為他們從中獲益良多,」塔夫茨大學技術政策助理教授 Thomas Qitong Cao 說。
卡內基國際和平基金會的 AI 研究員 Matt Sheehan 則指出:「美國的出口管製反而逼得中國公司不得不想辦法提高效率,把有限的算力用到極致。考慮到算力短缺,我們可能會看到更多企業開始抱團取暖。」
「在 AI 行業出現一定的分工是很自然的事情,也更節省資源,」Cao 補充說,「AI 發展得太快了,中國企業必須保持靈活才能適應。」

隨著 DeepSeek 等中國公司在 AI 領域的崛起,全球 AI 競爭格局正在發生微妙變化。如果中國公司能夠以更低的成本實現同等或更好的性能,而且這些模型還大都開源,美國公司賴以維持的技術優勢和高估值可能會受到挑戰。這種擔憂已經反映在英偉達等 AI 概念公司的股價上,有分析師甚至指出:「事實上,中國量化基金的一群超級天才將導致諾斯達克崩盤,但目前還沒有人意識到這一點。」
不過,現在就高呼「中國 AI 已經超越美國」或「遙遙領先」還為時過早。如清華大學計算機系長聘副教授劉知遠所說:「DeepSeek 的突破確實證明了中國 AI 通過有限資源的極致高效利用,實現以少勝多的獨特優勢,中美 AI 差距正在縮小。」
但現在還遠未到「勝券在握」的時候。劉知遠認為:「AGI 新技術還在加速演進,未來發展路徑還不明確。中國仍在追趕階段,已經不是望塵莫及,但也只能說尚可望其項背。在別人已經探索出的路上跟隨快跑還是相對容易的,接下來如何在迷霧中開拓新路,才是更大的挑戰。」
從大疆到宇樹,再到當紅的 DeepSeek,越來越多的中國科技公司成為美國科技界繞不過去的熱門話題,一方面體現出中國公司在供應鏈優勢下對成本的極致敏感,這加速了技術民主化的趨勢;更體現出技術競爭的魅力,如果切換一下視角則會發現,矽谷這段時間感受到的震撼則是過去兩年中國同行的常態。
參考資料:
1.https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/
2.https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-deepseek/
3.https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1
4.https://techcrunch.com/2025/01/22/someone-bought-the-domain-ogopenai-and-redirected-it-to-a-chinese-ai-lab/
5.https://www.cnbc.com/2025/01/24/how-chinas-new-ai-model-deepseek-is-threatening-us-dominance.html
排版:嘉魚、初嘉實