DeepSeek讓英偉達H20都被瘋搶,但AI推理爆發不只靠囤卡

明敏 發自 凹非寺

量子位 | 公眾號 QbitAI

什麼?H20都變搶手貨,漲價10萬那種?!

最近有市場消息稱,原本不受青睞的英偉達H20諮詢量暴漲幾十倍,8卡H20機器的價格也較年前漲價十萬(單價110萬左右),有從業者預測「價格不會下來了」。

要知道,H20是中國特供版,顯存帶寬等方面明顯受限,性能及性價比都遠不如H100。

如今市場風向有了變化,業內人士爆料某互聯網大廠已經下單10-20萬卡,整體市場H20的訂單量都大幅增加。

背後原因,直觀來看是DeepSeek熱潮。更深入則是——

AI推理需求爆了。

H20儘管性能只有H100的1/10,但是做推理綽綽有餘,顯存夠、適合跑大規模參數模型,價格還便宜更多。

AI Infra廠商PPIO派歐雲聯合創始人兼CEO姚欣向量子位透露,去年年底H20還沒有這麼搶手,但是到了春節後又是另一番景象,AI算力供需正在極速變化。

與之相對應,英偉達CEO黃仁勳在最新一季財報發佈後也表示,當前AI模型所需的算力是此前模型的100倍,帶動算力需求增加的關鍵是AI推理

見微知著,AI算力行業風向已經發生變化,新的機遇也已經在醞釀。

DeepSeek重構算力邏輯,推理需求面臨爆發

先一句話總結,DeepSeek以算法創新重構AI算力邏輯,推動AI計算從「訓練為主」向「推理為主」範式轉變,AI推理需求因此迎來全面爆發。

首先來看DeepSeek做了什麼?

它今年開源的兩款模型,在架構和算法上實現了訓練推理效率提升。

第一,DeepSeek-V3採用MoE(混合專家模型)架構,在AI Infra層面提出大規模跨節點專家並行(Expert Parallelism/EP)

EP使得batch size大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。專家模型分散在不同的GPU上,每個GPU只需要計算很少的專家(因此更少的訪存需求),從而降低延遲。

同時,DeepSeek-V3的專家模型數量從上一版的160個增加到256個。「大量小專家」模型架構能進一步降低單次推理時激活的參數量。

第二DeepSeek-R1-Zero邁出利用強化學習提升語言模型推理能力第一步。在沒有任何監督數據的情況下,通過純強化學習過程進行自我進化,從而獲得推理能力。DeepSeek-R1採用FP8混合精度訓練框架和動態學習率調度器等技術,將訓練成本降低到560萬美元,遠低於OpenAI。同時還能將模型能力蒸餾到更小的密集模型中。

這種低成本模式使得模型能夠更廣泛應用於AI推理場景。

其次,為什麼DeepSeek可以成為推動算力趨勢轉變的導火索?

從大模型整體發展進程來看,預訓練Scaling Law已經放緩,推理Scaling Law成為新方向。

推理Scaling Law的核心是通過增加推理時計算資源(如推理時間、算力)來提升模型性能。以o1為代表的推理模型都是通過在推理階段引入多步驟的思維鏈和強化學習,顯著提升了推理能力,這導致推理計算需求的大幅增加。

o1模型固然好用,但是卻不開源。DeepSeek正是為此而來,它們為全行業提供了一個性能優秀的開源可替代方案,瞬間改變整體局面。

憑藉低成本、高性能的特點,DeepSeek引發全社會範圍熱潮。不僅是普通人能夠免費用,大中小企業也能將DeepSeek系列模型與自身業務融合。

尤其是ToB領域,優質開源模型解決了企業在數據維度的顧慮——沒有人願意將自己或用戶的數據免費貢獻給閉源模型做訓練。同時DeepSeek暫時沒有將模型商業化的考慮,更接近真正意義上的開源。這也點燃了企業擁抱AI的熱情,更加速了AI落地進程,推理需求空前爆發。

由此,量變引髮質變,AI計算的需求以及底層邏輯發生變化。

相較於預訓練,推理計算在硬件門檻、集群建設等方面要求都更低。

超大規模集群不再是必需,小集群甚至單機,將是未來AI Infra的主要特性。

PPIO姚欣結合DeepSeek一系列動向以及行業現狀給出分析,DeepSeek提出的跨節點專家並行系統,已經一定程度上體現出了分佈式的思想,它把不常用的專家模型集中到一台機器上,常用的專家模型分配更多算力。由此形成調度上的平衡。

這進一步扭轉了算力行業的深層邏輯。原本大家都在期待英偉達如何從硬件層面帶來更好的推理性能,如今通過EP的方式,可以用H800跑出H100的性能。

也解釋了為何DeepSeek可以影響英偉達的股價。因為通過系統優化,底層硬件的護城河沒有那麼深了。

由此看到,H20這樣原本不被大廠推崇的推理計算卡開始搶手。甚至更進一步,英偉達本身的地位也會受到影響。

姚欣判斷,未來,英偉達一家獨大的情況也會有所改變,理時代,推理芯片將百花齊放。比如根據DeepSeek研究人員的測試結果,推理任務中昇騰910C性能可達H100的60%。

這進一步影響算力供給側的結構和邏輯。再具體一點,就是AI Infra架構的轉變。

該朝著哪個方向做?即將爆發的AI應用落地浪潮已經給出指引——優化與降本

AI Infra扛起推理時代成本優化重任

相較於預訓練時代,推理時代對雲計算、AI Infra有著全新需求。

預訓練時代,雲廠商提供的服務更傾向於一個裸金屬的訓練環境。因為是集中式集群,每一台機器幾乎都是跑滿的,雲廠商能優化的空間有限。推理時代,每個企業更傾向於選擇公有雲服務部署模型

這意味著雲廠商接下來的競爭點應該是從不同卡型到模型層的全棧優化。

不過為什麼由AI Infra/雲廠商來做?

從技術底層到實際成本優化上,AI Infra/雲廠商有自己的生態位優勢。

從技術角度出發,並不是所有AI廠商都具備處理高併發、高流量、高彈性的互聯網服務經驗。

比如前不久DeepSeek突然公佈成本利潤率理論值可達545%,引發諸多業內爭議。

PPIO姚欣表示:

作為作為一個真正服務過4.5億用戶的創始人來說,在真實情況下,所有互聯網用戶請求都一定有波峰、波穀,一天的用戶請求變化應該是一條曲線。如果在最高峰的時候,突然變成一條直線了,這意味著,在那個時間段用戶請求進不來。

所以總結來說,春節期間DeepSeek的服務崩潰,滿足不了用戶、企業服務。

換言之,DeepSeek的服務和技術架構更進一步需要「彈性」算力,才可能解決這樣的問題。PPIO派歐雲在春節期間第一時間接入DeepSeek,利用分佈式推理和大規模算力調度,從而實現了更大彈性的負載均衡,保證客戶的服務質量、穩定性。

另外,在基礎設施建設上,AI Infra廠商更有先天優勢。

其中一部分玩家通過自建IDC提供多種算力服務,代表玩家有阿里雲等;還有一部分玩家選擇通過分佈式網絡提供算力服務,它們不自建IDC、不購入GPU,而是通過獨特的算力共享調度的方式,代表玩家有PPIO派歐雲。

二者比較,前者能提供的綜合性服務更多,後者在性價比和資源調度上更有優勢。

如PPIO的分佈式架構,打破了傳統集中式架構的瓶頸,不僅為企業大幅降低了運維壓力,還將系統的處理效率提升到了一個全新的高度。通過PPIO提供的AI推理平台,企業可以免去自行部署後台服務的繁冗過程,直接調用API服務即可,不再需要自行運維,成本直接減少了40%

速度方面,得益於PPIO遍佈全球的分佈式雲服務網絡,無論用戶身處何地,都能找到近距離的算力節點,獲得20毫秒級的低延遲體驗。PPIO通過獨特方式調用全國範圍的算力節點,能為企業用戶帶來更彈性、更穩定、更划算的AI推理服務。

據瞭解,PPIO在整個春節期間ToB方向的DeepSeek服務可用性做到了99.9%,無TPM限制。其中關鍵就在於底層足夠彈性。現階段,PPIO平台的日均tokens消耗量已經突破了1300億,與「六小龍」日均tokens消耗量不相上下。

此外,在算法層面,PPIO還提出KV Cache稀疏化壓縮算法、Hydra Sampling投機采樣技術以及端到端FP8推理三大核心技術,進一步突破顯存、算力和帶寬對大模型推理性能的限制。由此,PPIO能夠迅速適配和優化各種開源大模型。比如,PPIO算力雲產品已為百川智能提供大規模AI推理服務

「只有當AI Infra公司能提供足夠高性能和低成本的基礎建設,讓大量AI 應用的收入足以覆蓋所有的推理成本,才會迎來AI應用落地的大爆發,用戶也會迎來AI 應用的免費時代。」姚欣表示。

DeepSeek振臂一揮之後,還需要全產業上下遊通力合作,才能進一步加速大規模應用落地。

如今,值得關注的玩家紛紛站出來,承接流量的同時,更進一步推進新浪潮發生。AI Infra玩家們的動作,還只是表現之一。

而隨著越來越多產業夥伴加入,更龐大的需求和市場還在醞釀之中。

趨勢轉變之後,又是一個新開始。

一鍵三連「點讚」「轉發」「小心心」

歡迎在評論區留下你的想法!