DeepSeek狂飆13天:AI界開始真正嚴肅地思考未來

2025年1月中旬,英偉達CEO黃仁勳的中國之行備受矚目。從北京到深圳,再到台中和上海,這位AI時代的「賣鏟人」每到一處都掀起一陣熱潮。然而,就在距離英偉達上海辦公室僅200公里的杭州,一場足以撼動AI產業格局的風暴正在悄然醞釀。彼時,身家1200億美元的黃仁勳或許並未意識到,一家名為深度求索(DeepSeek)的低調中國公司,即將在7天后成為英偉達的「黑天鵝」。

從1月20日推理模型DeepSeek-R1開源至今13天來,DeepSeek引起全球的驚訝,英偉達市值一週蒸發5520億美元,矽谷巨頭恐慌,華爾街焦慮。

當所有人還在驚歎DeepSeek的驚人實力時,OpenAI終於坐不住了。當地時間1月31日,OpenAI正式推出了全新推理模型o3-mini,並首次向免費用戶開放推理模型。這是OpenAI推理系列中最新、成本效益最高的模型,現在已經在ChatGPT和API中上線。OpenAI可能考慮開源、公開完整思維鏈。在o3mini正式推出之時,OpenAI的首席執行官‌‌Sam Altman(奧特曼)攜一眾高管在reddit回答網民問題,其間罕見承認OpenAI過去在開源方面一直站在「歷史錯誤的一邊」。Altman表示:「需要想出一個不同的開源策略」。

DeepSeek 的「閃電戰」:性能、價格與開源三重衝擊

1月21日,特朗普在白宮宣佈啟動四年總投資5000億美元、名為「星際之門」(Stargate)的AI基礎設施計劃。

前一天(1月20日),DeepSeek悄然開源了推理模型DeepSeek-R1。

隨後,英偉達自己的科學家Jim Fan率先解讀出了它的顛覆性意義。他說:「我們生活在這樣一個時代:由非美國公司延續OpenAI最初的使命——做真正開放的前沿研究、為所有人賦能。」

然而,那一週全球的目光都聚焦在剛剛上任的特朗普身上。

但臨近週末,DeepSeek突然成為科技圈、投資圈和媒體圈討論的對象。摩根大通分析師Joshua Meyers說:「週五,我收到的問題95%都是圍繞Deepseek的。」

有市場評論員預言,DeepSeek是「美國股市最大的威脅」。

但為時已晚,英偉達的跌勢已經開始。1月24日(週五)英偉達股價跌去3.12%。1月27日(週一),英偉達遭遇17%的「歷史性」大跌,市值蒸發近6000億美元,黃仁勳的個人財富一夜之間縮水208億美元。本週,英偉達累跌15.8%,市值蒸發5520億美元。

DeepSeek-R1帶來的最直接衝擊來自三個方面:性能、價格和開源

性能比肩 o1

1月24日(週五)發佈的聊天機器人競技場(Chatbot Area)榜單上,DeepSeek-R1綜合排名第三,與OpenAI的ChatGPT o1並列。在高難度提示詞、代碼和數學等技術性極強的領域以及風格控制方面,DeepSeek-R1位列第一。

「白菜價」顛覆市場

DeepSeek-R1的價格低得驚人:API端口緩存命中1元/百萬Tokens,緩存未命中4元/百萬輸入 tokens,輸出16元/百萬Tokens。僅為o1的2%~3%。

DeepSeek移動應用和網頁端免費,而能力相當的 ChatGPT o1一個月200美元。

完全開源

DeepSeek-R1完全開源,任何人都可以自由地使用、修改、分發和商業化該模型,徹底打破了以往大型語言模型被少數公司壟斷的局面,將AI技術交到了廣大開發者和研究人員的手中。

1月24日,著名投資公司A16z的創始人馬克·安達臣發文稱,Deepseek-R1是他見過的最令人驚歎、最令人印象深刻的突破之一,而且還是開源的,它是給世界的一份禮物。

最具煽動性的評價來自Scale AI創始人亞歷山大·王(Alexandr Wang)。他說:過去十年來,美國可能一直在AI競賽中領先於中國,但DeepSeek的AI大模型發佈可能會「改變一切」。

華爾街的焦慮:DeepSeek動搖了英偉達的「算力信仰」嗎?

相比於技術,投資者更關心自己投資的公司將遭遇怎樣的挑戰。

他們開始思考,如果DeepSeek的低成本訓練有效,是否意味著巨頭們在算力上的投入不值得了。如果不需要瘋狂投入,市場對英偉達的業績預期還有支撐嗎?

正如投行Jeffreies股票分析師Edison Lee團隊1月27日在研報中所說,如今美國AI企業的管理層可能面臨更大的壓力。他們需要回答一個問題:進一步提高AI資本支出是否是合理的?

矽谷公司還面臨著投資者的拷問。1月27日上午,高盛分析師Keita Umetani和多名投資者進行了談話,不少投資者質疑:「如果沒有回報,還能證明資本支出的合理嗎?」

隨後,華爾街投行們紛紛發佈報告安撫市場。

摩根大通分析師Joshua Meyers說,DeepSeek的(低成本)並不意味著擴張的終結,也不意味著不再需要更多的算力。

花旗分析師Atif Malik團隊稱,儘管DeepSeek的成就可能是開創性的,但如果沒有使用先進的GPU對其進行微調和/或通過蒸餾技術構建最終模型所基於的底層大模型,DeepSeek的成就就不可能實現。

DeepSeek-R1的訓練成本尚未公佈。因此,一個月前(去年12月26日)發佈的開源模型DeepSeek-V3成為主要分析對象。

DeepSeek-V3僅使用2048塊英偉達H800 GPU,在短短兩個月內訓練完成。H800是英偉達特供中國市場的AI芯片,在性能上不及先進的H200、H100等。

官方聲稱的558萬美元只是訓練開銷,真實總支出尚無定論。《DeepSeek-V3技術報告》中明確指出:請注意,上述成本僅包括 DeepSeek-V3的正式訓練,不包括與架構、算法或數據相關的先前的研究或精簡實驗的成本。

「當部門裡一個高管的薪資就超過訓練整個DeepSeek-V3的成本,而且這樣的高管還有數十位,他們該如何向高層交代?」Meta員工如是說。

DeepSeek訓練成本低,一個重要原因是使用了數據蒸餾技術(Distillation)。數據蒸餾是將複雜模型的知識提煉到簡單模型。通過已有的高質量模型來合成少量高質量數據,並作為新模型的訓練數據。

根據技術報告,DeepSeek-V3利用DeepSeek-R1模型生成數據後,再使用專家模型來蒸餾生成最終的數據。

不過,數據蒸餾技術在行業內充滿爭議。南洋理工大學研究人員王漢卿向《每日經濟新聞》記者表示,蒸餾技術存在一個巨大缺陷,就是被訓練的模型(即「學生模型」)沒法真正超越「教師模型」。OpenAI也把DeepSeek的蒸餾當作靶子加以攻擊。

1月29日,OpenAI首席研究官Mark Chen發帖稱,「外界對(DeepSeek的)成本優勢的解讀有些過頭」。

不過,DeepSeek-V3的創新不僅於此。

資深業內人士向每經記者分析稱,DeepSeek-V3創新性地同時使用了FP8、MLA(多頭潛在注意力)和MoE(利用混合專家架構)三種技術。

相較於其他模型使用的MoE架構,DeepSeek-V3的更為精簡有效,每次只需要佔用很小比例的子集專家參數就可以完成計算。這一架構的更新是2024年1月DeepSeek團隊提出的。

圖片來源:arXiv圖片來源:arXiv

MLA機制則是完全由DeepSeek團隊自主提出、並最早作為核心機制引入了DeepSeek-V2模型上,極大地降低了緩存使用。

技術路線之爭:DeepSeek 的「原創」與 OpenAI 的「大力出奇蹟」

2024年12月,清華大學計算機系長聘副教授、博士生導師喻純在談及中國AI發展時向《每日經濟新聞》表示,中國在AI應用層有很大的優勢,擅長「從1到10」,但原始創新能力(從0到1)還有待提高。

現在,這一看法可能不再適用了。

DeepSeek帶來的最大「震撼」,是蹚出了一條與OpenAI截然不同的模型訓練路徑。

傳統上,監督微調 (Supervised Fine-Tuning,簡稱 SFT)作為大模型訓練的核心環節,需要先通過人工標註數據進行監督訓練,再結合強化學習進行優化,這一範式曾被認為是 ChatGPT成功的關鍵技術路徑。

但是,DeepSeek-R1-Zero是首個完全摒棄了SFT環節、而完全依賴強化學習(Reinforcement Learning,簡稱 RL)訓練的大語言模型。DeepSeek-R1正是在R1-Zero的基礎上進行了改進。

英偉達高級研究科學家Jim Fan用大白話解釋說:

SFT是人類生成數據,機器學習;

RL是機器生成數據,機器學習。

這一突破為AI的自主學習範式提供了重要的實踐範例。

DeepSeek為何不走捷徑,而是尋求一條與OpenAI完全不同技術路線?背後的理由可以從創始人梁文鋒的理想中探尋。

《每日經濟新聞》記者瞭解到,DeepSeek規定員工不能對外接受採訪。即便是DeepSeek用戶群裡的客服工作人員在解答群友疑問時也是小心翼翼,惜字如金。

尋找梁文鋒的人更是踏破鐵鞋。外界對他的瞭解大多來自於2023年5月和2024年7月《暗湧》對他的專訪。專訪文章將他稱為「一個更極致的中國技術理想主義者」。和OpenAI創始人山姆·阿爾特曼(Sam Altman)一樣,梁文鋒的「目的地」是通用人工智能(AGI)。然而,梁文鋒的理想不在於目的地,而是如何通往目的地。

DeepSeek選擇「不做垂類和應用,而是做研究,做探索」「做最難的事」「解決世界上最難的問題」。

梁文鋒口中的「難」,就是「原創」二字。

他說:「我們經常說中國AI和美國有一兩年差距,但真實的gap是原創和模仿之差。如果這個不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。」

對於選擇和OpenAI不一樣的路,梁文鋒的口氣中充滿樂觀:ChatGPT誕生在OpenAI「也有歷史的偶然性」「OpenAI也不是神,不可能一直衝在前面」。

當地時間週一(1月27日)晚間,OpenAI首席執行官山姆·阿爾特曼終於對DeepSeek給出了他的評價。他在社交平台X上連發三條值得玩味的帖子。

首先,他重申了自己的目標——AGI。甚至比梁文鋒更進一步,要「超越」AGI。

其次,他捍衛了自己的「路線」——算力不僅重要,而且前所未有地重要。

最後,他將DeepSeek-R1稱作「一位新對手」,並表示「我們當然會推出更好的模型」。

當地時間1月31日,在攜一眾高管在reddit上舉行AMA(問我任何問題)活動時,阿爾特曼正式承認DeepSeek是一個非常好的模型,OpenAI會製作出更好的模型,但領先優勢會比以前減弱。

這是否是山姆·阿爾特曼向DeepSeek下的「宣戰書」?他想較量的不僅關於誰是「更好的模型」,更是想用「大力出奇蹟」的技術與「聰明」的技術進行一場比拚。

產業生態的博弈:微軟、英偉達、AWS紛紛接入 

一邊是矽谷、華爾街都在激辯DeepSeek的影響;另一邊,科技巨頭已經下場無縫連接DeepSeek-R1模型服務。

先是微軟,當地時間1月29日,將DeepSeek-R1模型添加到其Azure AI Foundry,開發者可以用新模型進行測試和構建基於雲的應用程序和服務。

1月29日的第四季度業績電話會上,微軟首席CEO薩提亞·納迪拉維杜華(Satya Nadella)再次肯定了DeepSeek「確實有一些真正的創新」,並且宣佈DeepSeek-R1已可通過微軟的AI平台Azure AI Foundry和GitHub獲取,並將很快在微軟AI電腦Copilot+ PC上運行。

雖然微軟是OpenAI的深度投資者且有很多合作,但在產品商業化上它依然選擇多樣性的模型。目前Azure的平台上既有OpenAI的GPT系列、Meta的Llama系列、Mistral的模型,現在新增了DeepSeek。

緊接著,AWS(亞馬遜雲科技)也宣佈,用戶可以在Amazon Bedrock和Amazon SageMaker AI兩大AI服務平台上部署DeepSeek-R1模型。

再然後是英偉達於當地時間1月31日官宣,DeepSeek-R1模型已作為NVIDIA NIM微服務預覽版,在英偉達面向開發者的網站上發佈。

英偉達還在官網中表示,DeepSeek-R1是一個具有最先進推理能力的開放模型。DeepSeek-R1等推理模型不會提供直接響應,而是對查詢進行多次推理,採用思路鏈、共識和搜索方法來生成最佳答案。此前,1月28日,英偉達(中國)在對每經記者的回應中說到:「推理過程需要大量英偉達GPU和高性能網絡。」

想要在AI算力領域挑戰英偉達的AMD也毫不猶豫為DeepSeek「站台」。1月25日,AMD宣佈,DeepSeek-V3模型已集成至AMD InstinctGPU上,並借助SGLang進行了性能優化。此次集成將助力加速前沿AI應用與體驗的開發。

阿斯麥總裁兼CEO富凱1月29日表示:「任何降低成本的事情,對阿斯麥來說都是好消息」,因為更低的成本意味著更多的應用場景,更多應用意味著更多芯片

DeepSeek衝擊波的深遠影響:AI的未來,何去何從?

2020年1月,OpenAI發表論文《神經語言模型的規模法則》(Scaling Laws for Neural Language Models)。規模法則表明,通過增加模型規模、數據量和計算資源,可以顯著提升模型性能。在AI領域,規模法則被俗稱為「大力出奇蹟」,也是OpenAI的制勝法寶。

2024年底,AI界傳出大模型進化遭遇「數據牆」的消息。美國技術研究公司Epoch AI預測,互聯網上可用的高質量文本數據可能會在2028年耗盡。圖靈獎得主楊立昆(Yann LeCun)和OpenAI前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)等人直言,規模法則(Scaling Law)已觸及天花板。

「大力出奇蹟」的忠實擁躉——矽谷巨頭們開始將千億美元級的資本投入算力。

這場「算力競賽」的瘋狂程度從下面這些數據中可見一斑。

圖片來源:每經製圖圖片來源:每經製圖

但是,DeepLearning創始人吳恩達1月29日撰文提醒稱,擴大規模(Scaling up)並非是實現AI進步的唯一途徑。一直以來……人們過度關注擴大規模,而沒有以更細緻入微的視角,充分重視實現進步的多種不同方式。但算法創新正使訓練成本大幅下降。

DeepSeek-R1開源至今已經過去13天,關於它的討論還在繼續。

DeepSeek的出現讓人們開始重新審視開源的價值和風險,以及AI產業的競爭格局。這場由DeepSeek引發的「衝擊波」,將對全球AI產業產生深遠的影響。

未來的AI世界,是「大力出奇蹟」的繼續狂飆,還是「聰明」技術的異軍突起?是巨頭壟斷的固化,還是百花齊放的繁榮?

DeepSeek出現,讓AI界開始真正嚴肅地思考未來:是繼續燒錢豪賭,還是讓AI成果商業化、平民化和普惠化?

隨著訓練成本降低、技術成熟以及開源,大語言模型將愈發成為一種普通產品。

1月31日,Hugging Face聯合創始人兼CEO湯馬斯·禾夫(Thomas Wolf)說:「我認為人們正在從對模型的狂熱中冷靜下來,因為他們明白,得益於開源……很多這類模型將會免費且可自由獲取。」

巧合地是,同日,OpenAI正式推出了全新推理模型o3-mini,並首次向免費用戶開放推理模型。這是OpenAI推理系列中最新、成本效益最高的模型,現在已經在ChatGPT和API中上線。在o3mini正式推出之時,Sam Altman攜一眾高管在reddit回答網民問題時,罕見承認OpenAI過去在開源方面一直站在「歷史錯誤的一邊」。Altman表示:「需要想出一個不同的開源策略」。

本文來自微信公眾號:每經頭條,作者:王嘉琦,編輯:程鵬、蘭素英、蓋源源,校對:陳柯名