2024年,DeepSeek帶給矽谷「苦澀的教訓」
12月26日,聖誕節剛過,深度求索發佈了大模型DeepSeek V3,成為2024年AI界真正的壓軸事件。
發佈即開源,先看它有多酷:達到開源SOTA,超越Llama 3.1 405B;它的參數量約為GPT-4o的1/3,價格僅為Claude 3.5 Sonnet的9%,性能卻可以和這兩家頂級閉源大模型掰手腕。
整個訓練過程僅用了不到280萬個GPU小時,相比之下,Llama 3 405B的訓練時長是3080萬GPU小時(註:Llama用的是H100,DeepSeek用的是其縮水版的H800)。每秒生成60個token,是其上一個版本的3倍。算下來訓練671B的DeepSeek V3的成本僅為557.6萬美元,也就是說,任何一家初創公司都負擔得起。
矽谷新「苦澀的教訓」
DeepSeek V3推理和訓練成本僅為矽谷頂級大模型的十分之一,這讓矽谷有些懵圈兒了。OpenAI 12天連續線上產品發佈、中間又有Google不停地截胡,剛剛結束,大家正過聖誕新年假期呢。
他們還發現:深度求索總共有139名工程師和研究人員,包括創始人梁文鋒本人,參與了這個項目。OpenAI有1200名研究人員。Anthropic有500名研究人員。
獨角獸AI公司scale.ai創始人Alex王感歎道:中國科技帶來的苦澀教訓:當美國人休息時,他們在工作,而且以更便宜、更快、更強的產品追上我們。
還有AI大神卡帕西、Meta科學家田淵棟、QLora發明人Tim Dettmers、OpenAI科學家Sebastian Raschka等點讚好評。
除了矽谷在聖誕假期被炸出來的大佬們,還有各種評論充斥,如:
「這對中國來說,可能比第六代戰鬥機更具‘斯普特尼克時刻’意義:一款名為DeepSeek v3的中國AI模型在幾乎所有方面都與最新的ChatGPT和Claude模型媲美,甚至常常超越它們,而訓練成本卻只是極小的一部分(僅550萬美元),並且它是開源的(意味著任何人都可以使用、修改和改進它)。」
「訓練成本如此之低尤為重要,因為它徹底改變了誰能參與高級AI開發的遊戲規則。在此之前,人們普遍認為訓練這樣的模型需要數億甚至數十億美元,而DeepSeek僅用550萬美元就做到了,這筆錢幾乎任何地方的初創公司都能負擔得起。具體來說,這意味著DeepSeek剛剛證明了嚴肅的AI開發並不局限於科技巨頭。」
2024年收官之時,這對矽谷是一個強烈的提醒:美國對中國科技封鎖,包括最嚴厲的芯片和AI封鎖,結果,資源短缺激發了中國科技企業的創新力。
位於杭州的量化投資基金幻方,2023年4月11日宣佈做大模型,直到2023年5月,才把技術部門做大模型的團隊獨立出來,成立深度求索公司。2021年,幻方在亞太第一個拿到A100卡,成為全國少數幾家囤有上萬張A100 GPU的機構。自從ChatGPT時刻以來,業界瀰漫一股「唯GPU論」的情緒,上萬張卡加幾億美元,被認為是做大模型的門檻。
深度求索創立之初就宣佈做AGI,會專注在大模型上,先從語言大模型做起,然後再做視覺和多模態等。從2024年初推出首個大型語言模型DeepSeek LLM,只能對標GPT-3.5,直到2024年底推出硬碰GPT-4o的DeepSeek V3,並且進軍多模態、推理模型。
DeepSeek的2024
DeepSeek是中國及至全球少有的兼具強大的infra工程能力和模型研究能力的團隊。DeepSeek全部開源,從它在2024年按時間順序發佈的8篇研究論文,可以看出在短短的一年之內,一家中國全部依靠本土人才的AI公司,是如何學習和趕超矽谷AI巨頭的。
1. DeepSeekLLM:Scaling Open-Source Language Models with Longtermism(1月5日)
這是深度求索的第一個大模型。DeepSeek LLM包含670億參數,從零開始在一個包含2萬億token的數據集上進行了訓練,數據集涵蓋中英文。全部開源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat,供研究社區使用。DeepSeek LLM 67B Base在推理、編碼、數學和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在編碼和數學方面表現出色。它還展現了顯著的泛化能力,在匈牙利國家高中考試中取得了65分的成績。當然,它還精通中文:DeepSeek LLM 67B Chat在中文表現上超越了GPT-3.5。
2. DeepSeek-Coder:When the Large Language Model Meets Programming–The Rise of Code Intelligence(1月25日)
DeepSeek Coder由一系列代碼語言模型組成,每個模型均從零開始在2萬億token上訓練,數據集包含87%的代碼和13%的中英文自然語言。代碼模型尺寸從1B到33B版本不等。每個模型通過在項目級代碼語料庫上進行預訓練,採用16K的窗口大小和額外的填空任務,以支持項目級代碼補全和填充。DeepSeek Coder在多種編程語言和各種基準測試中達到了開源代碼模型的最先進性能。
3. DeepSeekMath:Pushing the Limits of Mathematical Reasoning in Open Language Models(2月5日)
DeepSeekMath以DeepSeek-Coder-v1.5 7B為基礎,繼續在從Common Crawl中提取的數學相關token以及自然語言和代碼數據上進行預訓練,訓練規模達5000億token。DeepSeekMath 7B在競賽級MATH基準測試中取得了51.7%的優異成績,且未依賴外部工具包和投票技術,接近Gemini-Ultra和GPT-4的性能水平。
4. DeepSeek-VL:Towards Real-World Vision-Language Understanding(3月11日)
DeepSeek-VL是一個開源的視覺-語言(VL)模型,採用了混合視覺編碼器,能夠在固定的token預算內高效處理高解像度圖像(1024 x 1024),同時保持相對較低的計算開銷。這一設計確保了模型在各種視覺任務中捕捉關鍵語義和細節信息的能力。DeepSeek-VL系列(包括1.3B和7B模型)在相同模型尺寸下,在廣泛的視覺-語言基準測試中達到了最先進或可競爭的性能。
5. DeepSeek-V2:A Strong,Economical,and Efficient Mixture-of-Experts Language Model(5月7日)
DeepSeek-V2是一個強大的混合專家(MoE)語言模型,以經濟高效的訓練和推理為特點。它包含2360億個總參數,其中每個token激活210億個參數。與DeepSeek 67B相比,DeepSeek-V2不僅實現了更強的性能,同時還節省了42.5%的訓練成本,將KV緩存減少了93.3%,並將最大生成吞吐量提升至5.76倍。在一個包含8.1萬億token的多樣化且高質量的語料庫上對DeepSeek-V2進行了預訓練。在完成全面的預訓練後,我們通過監督微調(SFT)和強化學習(RL)進一步釋放了模型的潛力。評估結果驗證了我們方法的有效性,DeepSeek-V2在標準基準測試和開放式生成評估中均取得了顯著的表現。
DeepSeek V2發佈,在中國百模大戰中掀起了一場價格戰,推理成本被降到每百萬token僅1塊錢,約等於Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。矽谷驚呆了。
美國知名半導體和AI諮詢公司semianalysis敏銳地感覺到,這家公司會是OpenAI的對手,也有可能碾壓其他開源大模型。
「更有趣的是DeepSeek推向市場的新穎架構。他們並沒有照搬西方公司的做法,而是在混合專家模型(MoE)、旋轉位置編碼(RoPE)和注意力機制(Attention)方面帶來了全新的創新。此外,DeepSeek還實現了一種新穎的多頭潛在注意力機制(Multi-Head Latent Attention),他們聲稱這種機制比其他形式的注意力機制具有更好的擴展性,同時準確性也更高。」
Semianalysis還為DeepSeek算了筆賬,發現其大模型服務的毛利率可達70%以上:「單個由8個H800 GPU組成的節點可以實現超過每秒50,000解碼令牌的峰值吞吐量(或在支持分離預填充的節點中達到100,000預填充令牌)。按照其API定價僅計算輸出令牌,每個節點每小時可產生50.4美元的收入。在中國,一個8xH800 GPU節點的成本約為每小時15美元,因此假設完全利用,DeepSeek每台服務器每小時可賺取高達35.4美元的利潤,毛利率可達70%以上。」
這一性價比,無疑具有顛覆性的威脅:「即使假設服務器的利用率從未達到完美,且批量處理規模低於峰值能力,DeepSeek仍然有足夠的空間在碾壓其他所有競爭對手的推理經濟性的同時實現盈利。Mixtral、Claude 3 Sonnet、Llama 3和DBRX已經在壓制OpenAI的GPT-3.5 Turbo,而DeepSeek的出現無疑是壓垮駱駝的最後一根稻草。」
在V2的基礎上,DeepSeek迅速推出了Coder-V2和VL2。
6. DeepSeek-Coder-V2:Breaking the Barrier of Closed-Source Models in Code Intelligence(6月17日)
DeepSeek-Coder-V2是一個開源的混合專家(MoE)代碼語言模型,在代碼特定任務中達到了與GPT4-Turbo相當的性能。DeepSeek-Coder-V2是從DeepSeek-V2的一個中間檢查點開始,進一步預訓練了額外的6萬億token,顯著增強了DeepSeek-V2的編碼和數學推理能力,同時在通用語言任務中保持了相當的性能。並在代碼相關任務、推理能力和通用能力等多個方面都取得了顯著進步。此外,DeepSeek-Coder-V2將支持的編程語言從86種擴展到338種,並將上下文長度從16K擴展到128K。在標準基準測試中,DeepSeek-Coder-V2在編碼和數學基準測試中表現優異,超越了GPT4-Turbo、Claude 3 Opus和Gemini 1.5 Pro等閉源模型。
7. DeepSeek-VL2:Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding(12月13日)
DeepSeek-VL2是一個先進的大型混合專家(MoE)視覺-語言模型系列,相較於其前身DeepSeek-VL有了顯著改進。DeepSeek-VL2在多種任務中展現了卓越的能力,包括但不限於視覺問答、光學字符識別、文檔/表格/圖表理解以及視覺定位。模型系列由三個變體組成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分別具有10億、28億和45億激活參數。與現有的開源密集模型和基於MoE的模型相比,DeepSeek-VL2在相似或更少的激活參數下實現了具有競爭力或最先進的性能。
8. DeepSeek-V3:A Breakthrough in Inference Speed and Performance(12月26日)
DeepSeek-V3是一個強大的混合專家(MoE)語言模型,總參數為6710億,每個token激活370億參數。為了實現高效的推理和經濟高效的訓練,DeepSeek-V3採用了多頭潛在注意力(MLA)和DeepSeek MoE架構,這些架構在DeepSeek-V2中得到了充分驗證。此外,DeepSeek-V3首創了一種無輔助損失的負載均衡策略,並設定了多token預測訓練目標以提升性能。團隊在14.8萬億個多樣化且高質量的token上對DeepSeek-V3進行了預訓練,隨後通過監督微調和強化學習階段充分釋放其潛力。綜合評估表明,DeepSeek-V3超越了其他開源模型,並達到了與領先閉源模型相當的性能。訓練過程非常穩定,在整個訓練過程中,沒有遇到任何不可恢復的損失峰值或進行任何回滾操作。
需要提一下的是,DeepSeek還於12月10日上線了搜索功能,早於SearchGPT正式上線一週。
DeepSeek的5萬張H100?
就在DeepSeek於11月20日發佈推理模型R1-Lite預覽版時,離OpenAI發佈推理模型o1預覽版剛過2個月,semianalysis創始人Dylan Patel忍不住了,沒有5萬張H100卡,這活誰幹得出來?!
「大家不要再以為他們只有那個1萬塊A100的集群了。他們在機器學習研究和基礎設施管理方面非常強大,但這並不是因為他們使用的GPU數量少得多。」
梁文鋒在接受科技媒體暗湧採訪時說:我們每個人對於卡和人的調動是不設上限的。如果有想法,每個人隨時可以調用訓練集群的卡無需審批。
至於R1-Lite是怎麼訓練出來的,用了多少張卡,什麼卡,目前還沒有相關論文,但深度求索表示不久將會公佈官方技術報告並且開放API。
就在兩年前,正在從口罩三年擺脫出來的中國,碰上ChatGPT時刻,以為被一波大的技術浪潮甩下了,但是,在2024年,OpenAI止步於ChatGPT-4這一代,它在當年的創新,從文生影片的sora到推理模型o1,都已經被中國AI企業基本追上或者逼近,而且價格是其十分之一。難道電動車、無人機的故事,在AI領域會重演嗎?
2025,你追我趕一定會更精彩。
本文來自微信公眾號:未盡研究 (ID:Weijin_Research),作者:未盡研究