DeepSeek的三場英偉達GTC秀
最早賞識DeepSeek的巨頭,可能就是英偉達了。在ChatGPT尚未誕生的2022年春天,幻方AI(High-Flyer AI,相當於DeepSeek的前身)就受邀在黃仁勳的GTC舞台上演講,一連請了三年。
被DeepSeek「傷」得最深的巨頭,恐怕也就是英偉達了。不說推理模型R1一夜砸掉了英偉達6000億美元市值,在DeepSeek的論文里,這家幾乎壟斷了全球AI算力供應的芯片巨頭,也是被「抱怨」和「建議」的對象。如果不從頭到尾改一遍,老黃家的算力還是太貴了,並非他吆喝的「買得越多,省得越多」。
去年底至今,DeepSeek的基礎模型V3與推理模型R1,以其高性價比優勢震驚了美國矽谷、華爾街與華盛頓,也激活了國內AI生態的國產替代。EpochAI連續寫了兩篇文章分析DeepSeek如何改進transformer及其訓練,稱從事後來看一切都如此「顯而易見」,但絕不意味著一開始想出這些點子是件容易的事。
在V3發佈前,DeepSeek的創新是如何開始的?回顧DeepSeek及其前身幻方AI從2022年至2024年的三場GTC演講,可以看到它跟隨、複現前沿技術,以及通過工程優化極致壓榨算力成本的痕跡,這是中國最擅長的創新;也看到逐步追逐硬核創新,並將其儘可能地開源出來,這又迥異於以往多數中國企業。DeepSeek創始人梁文鋒相信,只要有了一堆事實和過程,硬核創新會成為中國新的群體性想法。
極限壓榨A100算力
2022年3月,離OpenAI正式發佈ChatGPT還有大半年時間,離DeepSeek正式成立還有1年多。作為英偉達AI芯片的早期萬卡大客戶,第一批規模採購A100芯片的亞太公司,幻方AI的黃盼盼(時任幻方AI的CEO)與張毅超(時任幻方AI的CTO)受邀在英偉達GTC的「金融AI」論壇上,做了主題為「分時調度AI算力」的演講。
此前,幻方只是被視為在金融量化投資的垂直領域內部用到了AI工具。就在不到一年前的世界人工智能大會(WAIC)上,幻方還在台上講述「如何用深度學習為股票定價」。
但幻方AI這次的演講一點都不「金融範兒」。內容非常硬核,講的是如何構建(當時的)超大規模智算集群,及最大程度地從中搾取算力。
儘管「螢火二號」擁有萬張A100,但算力永遠都是稀缺資源。當時,螢火平檯面向50多個國內外高校實驗室及科研機構提供算力;幻方團隊自己還要時不時用它驗證與複現行業的前沿研究,包括但不限於transfomer注意力機制算法優化、Alphafold蛋白結構預測、BEVFormer自動駕駛感知等。「缺卡而搶卡」的確時常發生。別忘了,OpenAI對齊團隊就曾因為20%算力承諾無法兌現而紛紛出走。
如果按照當時業內的傳統模式,那麼幻方AI砸了10億元建成的「螢火二號」,總體使用率就到不了50%。大量算力資源因此閑置浪費。當時A100還未被禁,幻方AI第一時間想到的不是「暴力美學」——GPU Rich的一種路徑依賴,而是工程優化與「低成本創新」。團隊設想,將計算資源集中起來,在時間維度上進行切分,根據任務優先級彈性調度。這樣可以將集群使用率提升至95%以上,相當於多壓榨出1倍以上的算力。

但是,這就要重寫算力基礎設施的系統架構,存儲、網絡、計算都要底層優化。這裏的關鍵之一,就是通過減少內存與通信的開銷,來提升算力的利用率。
部分矽谷同行認為這是「錯誤的演示」。因為,研究人員的時間是有機會成本的,如果他們把時間花在微優化上,去充分釋放有限的性能,就意味著他們沒法做其他事情。但科技博客Stratechery則批評稱,在財富湧入的這二十年里,矽谷失去了優化基礎設施的原動力,習慣了資本密集型的生產模式。
資本密集體現為爭壓GPU的「軍備競賽」,以及對能源無節制的使用。全球數據中心最密集的北維珍尼亞,當地最大的公共事業公司道明尼能源(Dominion Energy)簽訂的合約,從去年年中的21吉瓦倍增至年底的40吉瓦,1吉瓦能為75萬戶美國家庭供電。過去兩年,美國用於電力系統的變壓器(transformer)的交貨期一直在延長,平均從約50周延至120周。
中國與美國不同,體量更大,任何技術在中國得以規模落地,都將面臨更龐大的系統性的成本,任何浪費都將在規模面前被放大數倍,所以,甚至連英偉達最先進的GPU被拿到中國來用,都有對其效率進行精益的空間。就連Mistral AI也認為DeepSeek與其「非常相似」,DeepSeek的成功可以為法國和歐洲提供一個超越的機會。
在2022年的GTC上,幻方AI演示了如圖所示的智算集群系統架構。在硬件之上,最底層的就是分佈式並行文件系統3FS(Fire-Flyer File System),可以用很少的CPU和內存資源獲得超高的讀取帶寬,從而無需在訓練過程中等待加載數據,更充分地利用GPU的計算性能。這就要對數據存儲服務與高速交換機等進行硬件設計與軟件實現層面的創新。

事實上,DeepSeek的軟硬件創新,至少可以追溯到2019年幻方AI成立之初。當時,幻方AI還自研了網絡拓撲通訊方案hfreduce,高性能訓練數據格式FFRecord,以及深度學習算子庫hfai.nn。其中,自研算子都是幻方招攬的一大批NOI/ACM(信息學與程序設計相關國際競賽)金牌選手攢起來的。幻方AI還研發了haiprof,這是一個能幫用戶分析模型性能瓶頸的工具。
在真正開始入局前沿大模型競爭前,幻方AI已經默默地把這些技術整合到一起,捏成了一個彈性、高效、低成本的智算基礎設施。
對H800下手
2023年,幻方AI第二次在GTC上介紹了這個基於A100的智算基礎設施及其技術進展。當時演講者為幻方AI首席架構師何鶯。那一年,黃仁勳在GTC上宣佈為中國市場研發了縮水版的H800。幾個月後,DeepSeek成立,開始用H800搭建下一代智算集群。
對於大型語言模型(LLM)訓練而言,A100集群似乎只是DeepSeek的早期練手之作。從去年8月DeepSeek發佈的「幻方AI-HPC」論文來看,「螢火二號」設計的出發點,可能並不是為了超大參數規模的大型語言模型設計的。
這篇論文集大成地回顧了螢火二號是如何基於PCIe A100,搭建出了第一個「軟硬件協同設計」「對性能、成本和能耗的精妙平衡」的智算集群。論文解釋自己為什麼選擇PCIe版本的A100,而非更強大的SXM版本,就是看中了前者在性價比上的優勢,差不多以50%成本獲得了超過80%的性能。

起初,該團隊因為成本因素與潛在缺陷,沒有採納英偉達NvLink的通信方案。但隨著大型語言模型訓練規模的不斷上升,團隊不得不加入了NvLink,但結果就是後者故障佔比達到了42.57%。不過,還是比其他研究者披露的52.42%要稍好一點。
或許就是為了填上這些坑,後來的V3模型的論文,特地強調了對於內存讀寫和網絡框架及驅動的工程優化,甚至動了PTX,一度被誤解為已經繞過了英偉達的CUDA壁壘。
無問芯穹聯合創始人戴國浩後來拿到DeepSeek的V3論文,驚異地發現,它花了最多的篇幅去介紹系統架構,比預訓練與後訓練還多。他認為DeepSeek的低成本優勢,一是瞭解硬件細節,實現極致的底層優化;二是打通軟件硬件,實現聯合協同優化。
DeepSeek取得的震驚外界的成績,基本上都是基於H800智算集群。H800是英偉達向美國政府芯片出口管製妥協的產物,計算能力與最先進的H100相當,但帶寬較低。DeepSeek恰好此前在A100上做了很多減少內存與帶寬開銷的嘗試。
DeepSeek-MOE論文中聲稱用到了A100與H800,V2論文明確提到其訓練基於H800智算集群。V2是V3與R1訓練與推理成本大幅下降的關鍵技術起點,推理成本被降到當時Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,這讓矽谷也驚呆了。美國知名半導體和AI諮詢公司semianalysis認為,DeepSeek能在碾壓其他所有競爭對手的推理經濟性的同時實現盈利。
然後事情就發生了變化。在短短半個月內,全世界至少1億用戶已經自己體驗過了:DeepSeek用十分之一到二十分之一的成本,對外提供媲美OpenAI-o1的推理服務;所有美國巨頭迅速把V3/R1的開源模型整合到自己的業務生態中,動作比中國同行還快。
DeepSeek對整個大模型行業的貢獻,不僅是最大程度地開源了模型本身。它還基於自己在訓練V3時所做的系統架構的優化——包括高效的跨節點的通信內核,以及在FP8精度下的訓練、存儲和通信等——針對性地向硬件廠商提出了具體而明確的建議。

DeepSeek發現,當前的通信實現依賴於昂貴的SM(流式多處理器),而且限制計算吞吐量,這會導致效率顯著低下;算力硬件也需要更高的FP8 GEMM(通用矩陣乘法)累積精度等。
英偉達要想證明擴展定律在預訓練、後訓練與測試時階段都能擴展,也許可以從DeepSeek的論文中找到一點靈感。中國的AI生態也正在抓緊DeepSeek創造的這次機會。國產芯片緊緊圍繞DeepSeek模型做適配,如果後續AI應用加速規模落地,「芯片-模型-應用」的國產替代生態將獲得更可持續的商業化空間。
不如再重溫一遍梁文鋒的「技術理想主義」。英偉達的領先,不只是一家公司努力的結果,而是整個歐美技術社區和產業共同努力的結果。「他們能看到下一代的技術趨勢,手裡有路線圖。」他在一次採訪中說,中國AI的發展同樣需要這樣的生態,「很多國產芯片發展不起來,也是因為缺乏配套的技術社區,只有第二手消息。」
所以,DeepSeek站出來了,站在了技術的前沿。
開源模型,誰用,誰對齊
2024年是DeepSeek真正參與大型語言模型訓練競賽的關鍵一年,這一年迅速實現了基礎模型從V1到V2再到V3的大版本更迭。在那一年的英偉達GTC上,團隊成員陳德里首次以幻方AI兼DeepSeek研究員的新身份首次亮相,開始聚焦於如何訓練一個價值觀對齊解耦化的大模型。開源具備更大的優勢。
以往的大模型,價值觀是固定於模型參數之中的,但社會人群是多樣化的。OpenAI、Anthropic與xAI也無法擺脫這種矛盾束縛。馬斯克指責競爭對手的大模型被設計成極端偏向某種政治正確,並認為讓它極力追求真相才是最關鍵的。「追求真相,就可能對人類的演化和發展也抱有興趣,而不是想要抹除我們」。但這也是一種刻印於大模型底層的價值灌輸。
歐美機構正在拿著放大鏡審查DeepSeek的開源模型,認為推理模型R1在故意誘導下,比GPT-4o、o1和Claude-3-Opus更容易生成有害、有偏見和不安全的內容,包括人口刻板印象與職場偏見。他們似乎沒有認真聽聽,DeepSeek在去年初是怎麼設計的。
為了克服大模型價值觀對齊中「沉默的大多數」問題,DeepSeek提出了「價值觀對齊解耦化」的方法,在演講中,團隊用了一個很中國的詞彙去翻譯這個專業術語,「和而不同」。即,DeepSeek將整體價值觀對齊,解耦拆分為不可變的核心價值觀對齊與可變的多元化價值觀定製。其中,核心價值觀會在訓練中被嚴格保證,而多元化價值觀則誰用誰對齊。就像開源模型,誰託管,誰運營,誰來負責用戶隱私與數據安全。
不過,DeepSeek也承認,「價值觀對齊解耦化」並不容易,交互邏輯、數據構建、模型訓練、服務部署,都對大模型研髮帶來了新的挑戰。
為此,DeepSeek構建了一個跨學科的專家團隊,對不同社會背景人群的價值觀的公約數進行了分類學研究。他們公開招聘歷史、文化等領域的數據人才,安排專門的數據採集工程師等協助,以拓展大模型的能力與價值觀邊界。
近期,DeepSeek剛與其他16家中國企業一道簽署了《人工智能安全承諾》,儘管這是一個中國國內的倡議,但卡內基國際和平基金會(CEIP)將其對比「首爾承諾」,認為兩者極為相似,對中國大模型安全持樂觀態度。
EpochAI認為DeepSeek的創新還將繼續。DeepSeek目前的創新,並非依靠蠻力去窮儘可能性,而是在基於對transformer與系統架構缺陷的真正理解之上的精心設計。該機構猜測,DeepSeek下一個最有可能的優化,在於讓模型在回答較難的問題時多花點算力,在較易時則少花一點。
從幻方AI到DeepSeek,差不多用了5年;從DeepSeek-LLM到V3,只用了不到一年。最近,Uber創始人卡藍尼克回憶十年前與滴滴一戰,震驚於中國科技公司複製的速度與效率。隨著跟隨距離越來越短,最終後來者無法繼續模仿,就轉向了創新。如今,Uber在全球很多服務,都是從中國複製來的。
現在,輪到OpenAI與Anthrpoic們了。它們並不開源。用梁文鋒的話說,「在顛覆性的技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。」
本文來自微信公眾號:未盡研究 (ID:Weijin_Research),作者:未盡研究