萬字長文總結:DeepSeek 引發的 AI Infra 變革正在「加速」丨GAIR Live

AI Infra 洗牌進行時,追趕 DeepSeek 才能留在「牌桌」上。
作者丨朱可軒
編輯丨陳彩嫻
DeepSeek 在進一步點燃 AI Infra 可能性的同時,也帶來了新的競爭格局,在 DeepSeek 的範式上,其他廠商能否追趕甚至實現超越尤為關鍵,這決定了他們能否繼續留在牌桌上,當前,AI Infra 已然進入新的洗牌期。
2025 年 3 月 22 日,雷峰網、AI 科技評論 GAIR Live 品牌舉辦了一場主題為「AI Infra 變革進行時」的線上圓桌沙龍。
圓桌主持人為 3C AGI Partners 創始人兼 CEO 王康曼,她一直專注於投資 AI Infra 賽道,其創立基金成立後僅一年多就已經成為英偉達全球 VC 聯盟成員,也投資了海外發展形勢最猛的兩家 AI 芯片創業公司 Cerebras Systems 和 Groq。
同時,圓桌還邀請了魔形智能創始人CEO徐淩傑、探微芯聯 CEO 劉學和清程極智聯合創始人師天麾共同開啟了一場深度對話。

交談過程中,嘉賓們圍繞成本進一步壓縮下,MaaS、一體機等 AI Infra 商業模式的前景、DeepSeek 為國產芯片帶來的啟示、構建開源生態對於 Infra 的重要意義等多個方面發表了獨到見解。
當前,國內 AI Infra 初創的商業模式無非雲上和線下兩種,而 DeepSeek 之後有關雲上 MaaS 能否盈利的討論甚囂塵上。
對此,師天麾表示,「這塊的盈利空間要看算力規模、優化程度、客戶付費能力等多個因素,算力成本也會隨著更優的硬件架構和更好的硬件工藝進一步降低,模型價格未來也會持續變化,現在沒法一概而論能否盈利。」
線下私有化部署方面受到 DeepSeek 的影響,客戶需求也逐日走高,不過雖然 DeepSeek 確實提升了大眾對於 AI 的認知,但許多企業還是會擔憂對實際業務是否有幫助。
針對於此,師天麾建議,「小企業沒有太多數據安全顧慮可以租機器,如果對數據安全要求比較高,也可以先花幾十萬買個性能沒有那麼強的機器,也不是非要跑 DeepSeek 滿血版,先試一試對企業業務場景有沒有幫助,有幫助再花錢買更好的機器,用更好的大模型更好地支撐業務。」
線下這塊給創業公司帶來的機會很多,比如相較於偏愛提供標準化產品的大廠而言,初創提供的服務更為深入和定製化,而從上到下較短的決策鏈也帶來了更加快速的適配跟進速度……
而在國產芯片方面,大家一致認為 DeepSeek 所帶來的機遇和提振作用多過挑戰。
不過,挑戰也是客觀存在的。徐淩傑提到,「不止兩三家企業在春節後定下了目標做 352 卡、 384 卡大集群的部署。千卡集群分成兩部分,一個做 R1 的部署,另一個做 V3 的部署,這些都在他們的規劃中,但因為大規模分佈式難度高,看起來還需要一段時間調試。」
除前述問題外,DeepSeek 也使開源的呼聲持續走高。近期,英偉達也開源了其模塊化推理框架 Dynamo,用於在分佈式環境中服務 AI 模型,嘉賓們對此也各抒己見。值得一提的是,和 Dynamo 同時在 GTC 上引起關注的還有 Silicon Photonic。
有關 CPO 的未來,劉學認為英偉達對此起到了推動作用,「現在大家統一認為 26 年、27 年矽光會有小批量交付,28 年到 30 年是大規模落地的時間節點。」他還表示,「現在 CPO 很重要,而且工藝廠家越早佈局越好,尤其是要全面思考從做光模塊轉到 CPO 和之前是否有差異。」
以下是此次圓桌討論的精彩分享,AI 科技評論進行了不改原意的編輯整理:
1
DeepSeek 的影響初探
王康曼:我們討論的話題是 DeepSeek 之後 AI Infra 的變革,我是 3 Cap 基金的創始人兼 CEO 王康曼,我們基金在過去一年半里投了許多 AI Infra 相關的項目,今天也非常榮幸請到三位老師來共同探討,他們分別是魔形智能創始人徐淩傑、清程極智聯合創始人師天麾和探微芯聯 CEO 劉學,請各位老師先介紹一下各自的背景。
徐淩傑:我在 AI 領域深耕多年,和 GPU 有著不解之緣,十多年前我就是第一批學 CUDA 的學生,然後一直在 GPU 行業里從事芯片研發、管理等工作,在芯片公司和互聯網公司雲計算平台都幹過,去年創立了魔形智能(Magik Compute)這家軟硬件結合的 AI 基礎設施公司。
我們看到的機會是在未來相當一段時間里,因為摩亞定律的限制,芯片里能做的空間相對比較少了,隨著模型越來越大、上下文越來越長,更多關於 AI Infra 的創新是在集群、數據中心層面,所以我們既會有自己的硬件集群設計,也會有能夠調出優秀性能的軟件能力。
師天麾:清程極智是 2023 年底創立的 AI Infra 公司,我們主要聚焦於 AI 系統軟件部分,通過尋找軟硬件結合優化來賦能國產 AI 的發展,從底層編譯器到上層並行計算,我們擁有全棧優化經驗。然後我們的首席科學家,也是我的博導,是清華計算機系高性能計算研究所所長翟季冬教授,我們在系統和高性能計算領域有十幾年積累,從小規模到萬卡、十萬卡英偉達、國產顯卡的集群都有經驗。
劉學:我之前在產業界,後來在學校從事 AI Infra 相關研發,我負責過一個過億級的類腦計算集群的國家級研發。這十年間我們團隊做了個千卡類腦集群,同時實現了 GPU 和 GPU 之間在通信領域正選優勢的迭代。
現在主要解決國內GPU廠商卡脖子技術,讓國內的GPU廠商具備與英偉達競爭的網絡通信、並行能力,研發的 ACCLink 和 ACCSwitch 類似於英偉達的 NVLink 加 NVSwitch,是一個全自、多點、多 GPU 緩存和低延時的無損通信協議,加上自己的 Switch,再借助上層通信庫,能創建無縫、高帶寬、多節點集群,類似英偉達多芯片、超節點的能力。
王康曼:DeepSeek 發佈 R1 後對國內 AI Infra 行業帶來的衝擊挺大的,從技術路線、成本結構和合作模式上看,對大家有什麼具體影響嗎?
徐淩傑:去年 DeepSeek 就打響了 token 價格的第一槍,從 V2、V3 到 R1 都給了我們很大啟示,他們這幾個模型在結構上也有很大的延續性,對 AI Infra 是有挺大沖擊的,之前都會說美國的就是最好的,大家投資OpenAI,OpenAI 買微軟的雲,微軟雲買 Nvidia 的 GPU,這是非常正向的循環。
DeepSeek 帶來了全面衝擊,從 Infra 角度最大的啟示在於,他們在訓練階段就想好了怎麼實現低成本的推理,他們手上只有 2000 張卡的 H800 集群,之前也有一部分 A100 但沒有 NVLink 這種強互聯的 Scale up 集群的卡,基於手上有的算力資源他們做出了一套模型。
之前互聯網公司做搜索推薦時,往往會分兩個團隊,算法團隊負責提升召回率、準確率和效果,工程團隊則負責降本。DeepSeek 充分考慮了算法、工程及落地效應,把整條鏈路打通了。這對於 AI Infra 公司人才培養提出了更高要求,現在算法工程師也要考慮到工程的落地,工程落地的人要考慮到在集群方面有什麼樣的限制。
對於一個年青人來說,未來不能只是一個寫算子的工程師,要瞭解集群互聯、文件系統,以及到底要做什麼樣的分佈式,是把所有 expert 放在一台機器上,還是每個 expert 分散放在每張卡上面達到最好的效果,側重於系統的吞吐和優化每個用戶 TPS 的體驗優化策略是不一樣的。
我認為 DeepSeek 點燃了 AI Infra 的可能性,前幾天 GTC 上黃仁勳畫了個圖,橫軸是單個用戶的 TPS,縱軸是整個系統的吞吐,根據不同的要求能夠找到不同的體驗點。這對於我們不同的業務來講也是一樣的,我們通過系統的組合、軟件的優化有非常多的可能性,DeepSeek 已經做出了一個範式,其他廠商能否跟上且達到他們的效果,大方向上來講既打開了可能性,也打開了競爭格局,大家都在追隨甚至超越他們的範式,這是非常激動人心的時刻。
師天麾:今年感覺 DeepSeek 帶來最大的影響是讓大家明白了 AI 真的很強,企業內部有機會用上,所以我們今年業務突然多了,企業要用上的話,首先他們會有買機器或租機器的算力需求,但他們更想知道 AI 有什麼用,如果沒用的話,他們不想付出太多成本,所以我們今年也增加了私有化部署的相關業務。
第二點感受是大家更重視 AI Infra 了,之前可能一些大模型廠商和投資人對 AI Infra 會更重視一些,DeepSeek 開源那一週持續不斷給大家帶來震撼,大家對 Infra 的重視程度更高了,現在也有很多幾百上千卡的集群找過來問能不能也給我們弄個專家並行的方式,然後 PD 分離把成本打下來。
然後 DeepSeek 是對 H 系列的顯卡做了很好優化,但其他比如國產顯卡或者一些老的卡,他們並沒有很好地支持 FP8,所以也有很多客戶反饋說用 BF16 跑滿血版使他們不得不用兩倍的硬件成本。我們上週開源的赤兔推理引擎一大特色是計算還是用 BF16 來算,但是用 FP8 進行存儲,這樣可以讓國產卡和英偉達老卡舊卡跑滿血版的最低硬件成本直接砍半。
我們在 A800 上進行了一個實驗,原來六台才能跑 BF16 滿血版,現在三台就能跑,性能還提升了三倍多,所以非 H 的顯卡還是有很多機會的,存量顯卡非常多,用的人非常多,這件事還是蠻有意義的,開源之後關注的人很多,後續我們也會持續不斷去做更好的適配。
劉學:我的感受第一是 Deepseek 帶來的驚喜是在 2048 個 GPU 組成集群的情況下突破了硬件的約束;第二是他們提出通信的重要性,把GPU與GPU間的通信做到了極致,首次提出將通信環節從GPU的SM核卸載出來的概念,整體從軟硬件層有一個體驗點,找到這個體驗點進行更高層級的優化;第三是 DeepSeek 的 MLA 和 MoE 的方案使得 KVCache 在 GPU 和 GPU 之間的搬移要求更高,包括 PTX 層的計算實際上對數據傳輸和計算提出了很多要求。在高能效的計算和通信之下,包括通信和計算的堆疊並行化,是值得我們對 AI Infra 下一代硬件設計有更好思考的。
王康曼:整個行業的成本因為 DeepSeek 也壓縮得比較厲害,大家怎麼看雲廠商的價格戰?會影響初創公司嗎?
徐淩傑:講成本要面對特定市場,就以中國來講有兩個不同市場,一個是雲上大規模、大並行,需要大集群做到極致 token per second 性價比,另一個是線下本地化部署,在預算有限的情況下,把 DeepSeek 滿血、蒸餾版用起來。
這對於我們 AI Infra 公司來講也就有兩個選擇,一是往更極致方向走,把成本打下去,壁壘相當高,算法工程師要懂工程的東西,軟件工程師要懂硬件的東西,甚至要考慮網絡、計算、存儲一系列問題。
從具體數字來講, DeepSeek 售價是百萬 token 16 元,如果把所有 token 都轉換成收入的話,潛在毛利率在 500% 以上,也就是說它的成本是 2 元左右,如果只用若干台機器在線下部署做一體機的話,單位token的成本可能是他們的幾十倍,這取決於用什麼機器。
然後也要討論硬件演進,目前中美走的路徑大同小異,就是要把芯片做大,芯片不夠大的情況下,要做 Chiplet 封裝,然後在集群裡有大量的 HBM,再做 Scale up、Scale out。從這個路徑上來看,大家還是在往更大的集群上走,美國大量的業務是上雲的,他們看到的是雲上大併發、大容量、大集群的市場,中國會有相當一部分業務留在線下,這是中國額外的機會點。
師天麾:我非常認同,MaaS 有很多真實需求,國內外很多開發者都希望能用雲上的 API,也確實很便宜,但 MaaS 的盈利空間整體還是要看算力規模、優化程度、客戶付費能力等多個因素,算力成本也會隨著更優的硬件架構和更好的硬件工藝進一步降低,模型價格未來也會持續變化,現在沒法一概而論能否盈利。
中國也有很多本地化部署需求,前期可以簡單在雲上嘗試,但很難真正放進業務中,因為存在太多敏感數據不好上雲。所以有幾種方案,預算有限可以先租個雲,或者不買可以運行 FP8 滿血版機器,而是先買幾十萬的機器跑蒸餾模型,在同樣預算的情況下,大多數客戶會做這種選擇,在自己真實的業務場景里測試,我認為 MaaS 和本地化部署會長期共存。
王康曼:國內 DeepSeek 之後也有了挺多一體機出現,大家認為初創企業在 DeepSeek 的成本壓縮下,應該怎樣面對或者給大家帶來怎麼樣的機遇?
劉學:我們在考慮成本時要對齊到硬件的使用成本,而硬件使用成本無論是 Transformer、DeepSeek 還是原來 CNN 卷積時代,有三個方面對於降本能起到很好的示範作用。第一是設計 ASIC 或者 GPGPU 能效比的問題,比如 1W 能夠處理多少 T ops 算力,這直接決定了每單位瓦數能提供多大算力,這個算力影響到任務的 token 輸出;
第二是利用率,在能效比一定的情況下進行計算、通信、互聯等優化,提高利用率,這樣在每瓦提供的功耗下能運算更多任務;第三是雲端和端側的結合,在雲端和本地的推訓,國內很多研究單位和中小型企業也和 CNN 時代一樣,考慮了自身的私有數據隱秘性和及時性,所以更多投入本地購買。
王康曼:從這些點上來看,初創企業是否能比大廠適配地更快?
劉學:大廠的整體優勢在於全方位構建能力,初創企業聚焦更底層,要選擇自己具有優勢的點集中突破,這也是我們選擇 GPU 和 GPU scale up 的通信點的原因,有些大廠在 AI Infra 上層沒有做調度器,我們做雲側的優化器、裝 K8S 訓練起來,這塊是有發展空間的。
師天麾:相比於大廠,創業公司也有自己的優勢,我覺得有兩點,一是反應速度快,我前段時間做了很多對接客戶的工作,因為我們也推出了一體機,然後不斷根據用戶反饋來調整我們的產品細節。我們會總結之前對接客戶的經驗,當晚或者第二天就能開會調整策略,從上到下的決策鏈非常短。
二是我們更願意提供定製化的端到端服務。去年我們也做了一些大模型廠商的性能優化單子,他們當時租的雲可能是雲大廠的,但沒有找那邊專門優化,因為大廠考慮到成本更喜歡賣標準化的東西,我們願意給客戶提供更深度的優化、更定製化的服務。今年也有很多企業想把 AI 用起來,我們也願意幫這些客戶從0到1將AI在自己的業務場景中使用起來。
徐淩傑:小公司要成長起來有幾個關鍵詞,一是有壁壘,要有差異化競爭優勢;二是可落地,不能只做得高大上,商業本質是賣貨邏輯,無論是虛擬還是實際貨品都要可落地;三是可複製,就像最近很多人討論 MaaS,我認為無論接下來做線上生意還是結合硬件去做,甚至軟硬件一體去做,MaaS 都是非常重要的能力。
從 DeepSeek 發佈 V3 到現在三個月左右時間,絕大部分人都還沒能在那麼大的規模里複現他們那種極低的成本。這使 MaaS 能力變得非常核心,如果有個幾十人的團隊能實現媲美 DeepSeek 能力的話,在全世界範圍內都非常值錢的,但是在沒有足夠的算力資源、優化能力的情況下,貿然出擊往往會虧錢,因為沒有龐大的用戶、特別大的集群以及足夠的併發。對於初創來講,在資源有限、壁壘還在逐漸建立的過程中,落地要分不同階段去作為。
另外也要找到長期錨點,我們團隊的機會點在軟硬協同,特別是以硬件為底座,從大的機會來講,就像黃仁勳說的,未來模型變得更大、上下文變得更長,就需要先把 Scale up 做起來,集群變大後優化的搜索空間變得更大之後,想像空間就變得非常大,這當中不僅有軟硬結合的調優技術,還有相當一部分是我們之前相對比較忽視,但又有非常強的工程壁壘的。
在過去一年當中 NVL72 落地遇到了很多問題,包括穩定性、漏液、冷量不足等,這和我們今天講的調優沒有特別強的關係,但它是整個工業的基礎,也就是說今天要把這樣非常強互聯的集群,幾百上千張卡集成在一起,從之前 CPU 集群的 6 千瓦到 8 千瓦的機櫃,到單台服務器 H100 12 千瓦的功耗,到 NVL72 的 120 千瓦,再到未來 Rubin 系列 800 千瓦以上,上兆瓦級別的集成度當中有很多有挑戰、有價值的工作可做。
英偉達過去兩年投入了非常大的精力在做 NVL72,他們遇到了很多工程問題,但非常堅定不移地宣佈了這個路線,未來還會持續投入去做得更大、更強,更加 Scale up,AMD 也收購了 ZT Systems 要往這方面追趕。這是我們作為初創公司看到的機會點,不僅要有軟件層 MaaS 的世界一流能力,硬件也是基礎。
2
國產芯片的機遇和挑戰
王康曼:DeepSeek R1 出來之後,最早部署在雲上的大部分都是國外的廠商,國內可能因為春節晚了幾天,但還有一個原因也是國內底層芯片不一定用英偉達,大家怎麼看 DeepSeek 給國產芯片帶來的挑戰和機遇?
師天麾:國產適配慢幾天肯定有一部分是春節原因,我們之前合作的硬件廠商,也有在春節期間就開始跟我們開會討論後續關於 DeepSeek 的適配和優化合作計劃,一是春節肯定有影響,另一個 DeepSeek 開源方案是在英偉達原生跑的,自然英偉達說上立馬上了。
不過國產適配也沒那麼複雜,這波給國產帶來的機會相較挑戰更多,因為總體上需求變大了,企業私有化部署的需求起來了,隨著這塊市場的增加國產芯片市場也在相應增加,然後推理變得越來越複雜,比如要去設計更大的顯存,以及互聯技術因為現在需要多機推理了,需要更好的通信以及各種優化通信的手段,這也是國產的機會。
DeepSeek 從 Infra 角度給大家帶來的震撼也是非常明顯的,大家也會從軟硬結合的角度去思考,從算法設計、硬件設計以及系統設計三方面一起來考慮怎麼跑得又快又好,成本還低,整體市場是在變得越來越好的。
王康曼:這點我想聽一下劉老師的想法,因為劉老師做的就是要把 NVLink 替代的事情。
劉學:我們最近也對接了一些客戶,發現 DeepSeek 對大家的影響在於 AI Infra 這一層級的加速。剛才徐老師也說到 NVL72 這一塊英偉達做了好幾年,我從底層去講包括散熱,我前幾天看到一篇文章通過 3D 打印實現散熱,現在也在有所改進,包括一些光纖和電纜的使用,包括 GPU 之間的互聯和 GPU 和 CPU 之間的互聯,英偉達現在是兩條研發路線,第一條路線是 GPU、 CPU 互聯自己做,第二條路線是 GPU 自己做,通信可以用 CX7、CX8 甚至更高的網卡,CPU 是 AMD 和英特爾做。
在整體的過程中,解剖 AI Infra 對我們的影響,剛才我說的加速是在每個節點的加速,而從線纜、傳輸介質、CPU 互聯一直到交換,再到 CPU 和 GPU 之間到底是 PCRE 還是 CXL 之間的選擇,也面臨著認知的加速,最終大家會看到整個 AI Infra 的發展,Infra 的部署就是在英偉達的 CUDA 生態或者國內自成生態,或者是統一生態下的整個基礎設施一直到超節點,72 也好英偉達的 576 也好,國內的 64 也好一個更快速 Scale up 和 Scale out 增進。
徐淩傑:DeepSeek 出來之後對國產芯片來講是有提振作用的,需求變大了,大家覺得都有機會了,同時挑戰也變得非常大,一方面大家在看線下的一體機市場,另外很多人瞄上集群化機會,有不止兩三家企業在春節之後馬上就定下了目標,要做 352 卡、 384 卡大集群部署,甚至千卡集群要分成兩部分,一個做 R1 的部署,另一個做 V3 的部署,這些都在他們的規劃中。
但事實上今天似乎都還沒有官宣,看起來還需要一段時間調試,遇到的問題可能跟剛剛的描述是類似的。這一塊壁壘很高,絕大部分國產 GPU 公司、AI 芯片公司大家往往是在做芯片設計,比較 側重於計算核心的微架構方面的設計,但大集群推理涉及到網絡,從數據中心層面來考慮,需要更全面的能力。
許多人覺得有些芯片廠商和英偉達很近了,但事實上無論從硬件還是軟件來講差距都還有些遠,硬件上很大的差距在於絕大部分公司通過 PCIE 口在機內進行直連,而沒有 NVSwitch ,然後在節點間通過網卡交互,這比未來國外的 NVL72 全面高速連接 72 卡、144 卡、576 卡會弱不少。
我覺得面臨雙重挑戰,一是硬件能力的差距,算力存在現實的技術差距,也需要正視,如何把這塊能力建立起來,機會指向的大型集群,今天我們可能還是基於現有的卡,通過網卡的 Scale out 來做一個 384 卡、 352 卡的集群搭建,未來會有更多公司把 Scale up 集群做出來,然後通過中國的集群落地能力做出比 NVL72、144、576 密度更高的集群,這是我們的潛在出路。
之前我們說單個芯片不太行就在芯片上做 Chiplet,今天是說單個封裝的芯片性能沒那麼強的情況下,要把集群能力發揮到極致,然後解決散熱、冷卻、互聯的問題,這是我看到的一條路。然而,之前的芯片設計可能並不適合像 DeepSeek 這樣的模型發展,現在集群的發展超出預期,所以我覺得對於 AI Infra、芯片都是新的洗牌過程,要看誰能在這個浪潮中順勢而為。
王康曼:現在確實是個洗牌的過程,DeepSeek 出來之後國外跑得比英偉達還快的集群是 Cerebras 做的,現在最快的兩家公司 Cerebras 和 Groq 他們底層用的都不是 GPGPU 的架構,大家感覺 DeepSeek 之後會不會有更多和 Infra 相關的芯片出現,或者說國內有沒有一些類似的玩家在這一塊做得特別突出的?
劉學:第一是 Cerebras 和特斯拉的 Dojo 使用的是台積電的 Infra 封裝,這在台積電的工藝里是屬於很先進的,包括良品率的提升和關注,第二我們是需要跟 GPU 廠商聯合搭建 Scale up 的方案,我僅代表個人發表一下觀點,國內原先 14 年到 18 年之間,大家做 CNN 那時候的 ASIC 或者 NPU 概念是比較流行的,現在國內一些芯片廠商除了在端側做 ASIC 外,在雲側也更加期望貼近 GPGPU 的設計,一些端側或者云側廠商走向 ASIC 是一個比較好的事情。雲側的 GPGPU 是比較標準的 PTX 或者說底下的 SaaS 指令執行是比較通用的版本。
無論是 GPGPU 還是 ASIC 上,大家也看到除了 GPU 的單核、單 SM,NPU 的單核、單 cluster 外,要把 cluster 內部的計算單元進行更多的互聯,我們還是要講這個事情,無論是芯片內的一個 Chiplet 還是芯片外的 scale up。現在大家也形成了一些共識,在互聯層面應該有一個 computing in network 的存在,這也成為了 AI Infra 的必備特性。
徐淩傑:DeepSeek 根據手上的硬件做了相應的模型設計,也就是說模型是有一定彈性的,假設中美沒有禁運的話,他們能拿到 NVL72 這樣全球最優秀的集群產品,可能設計出來的模型是不太一樣的,能更好地發揮全互聯的優勢。在模型有大量可變化前景的情況下,硬件是要保留足夠靈活性的,同時,無論 GPU 還是 DSA 大家已經很趨同了,因為目標市場是一樣的,流派沒有那麼大的差別。
英偉達在 Blackwell、Hopper 里都加入了一些特定的指令,來加速 AI 的 workload,也就是說他們 tensore core 設計、指令集設計也好、memory loading 方式為了 AI 的特定應用,已經做了相當的優化,也有了一定的傾斜。GPU 很多東西是為了圖形做專業化設計的,這一塊差距沒有那麼大。V2 的結構到 V3 是有一定延續性的,隨著模型變得越來越大, expert 變得越來越多,對於容量的要求也會變得更高。
現在像 Groq、Cerebras 因為片上存儲的容量限制,都跑不起來滿血版的 R1,之前我們也看到過有公司在純片上存儲的情況下能跑出非常優秀的性能,但一旦有容量的硬傷之後就跑不起來了。這就涉及到後面大的趨勢的判斷,就是說模型是不是還會變得那麼大,能不能通過其他的 KV Cache 進一步壓,或者通過多級存儲的方式把存儲限制去掉。
今天都是用非常貴的 HBM,而 HBM 會受到封裝、顆粒、美國禁運的限制,那麼在 memory 的技術上,有沒有一些其他方式通過 3D 堆疊,能夠利用 commodity 去做更大的基於 GDDR 6、LPDDR 的芯片,我覺得會有各種各樣的方式,這也是在剛剛講的曲線裡面的不同的體驗點,要解決的是併發的問題,還是解決 latency的問題,基於不同的設計來講,會有不同的答案。從這個方向上來講,未來一段時間里會有非常大的變化,也會出現不同的流派,我感覺會非常精彩。
王康曼:DeepSeek 給國內外的芯片廠商都帶來了很多啟發,說到硬件最近也有聲音說到美國政府要求進一步禁運英偉達芯片,首先不知道這件事是真是假,但如果真的有進一步禁運的話,假設最基礎的芯片都進不來,對我們影響大嗎?
師天麾:短期內在一些供應能力上可能會受到一些影響,然後大家的成本可能會有所提升,但是我覺得這個反而會推動大家更重視國產生態或國產硬件,怎麼用得更好,這可能在一定程度上是一種助推。現在大家也意識到國產顯卡能把性能堆得不錯,但在易用性上還有一定進步空間,這其實就是軟件生態還不夠完善。
所以這也是我們在做一個事情,就是端到端把整個軟件棧做起來,完善軟件生態之後,就像我們開源赤兔推理引擎一樣,我們把技術貢獻出來,最近也有很多廠商主動提出,希望雙方一起合作適配我們赤兔引擎,希望能把國產顯卡、國產系統以及國產模型打造成一個閉環,這也是我們的終極目標,無論英偉達禁不禁運,我們最終都是可以實現這個目標的,只是時間問題。
劉學:我覺得如果禁運的話,會讓國內百花齊放,在這個過程中也給了大家一定的窗口期,有可能是一兩年甚至更長時間,可以去思考 GPGPU 和 ASIC 的設計特點,乃至跟上層生態的結合,國內芯片的部署在生態上還有很大的提升空間。
徐淩傑:我想對於創業公司來講就是要守正創新,無論禁不禁運公司都要能走下去。對於做芯片來講,守正是國產供應鏈要走下去,對於我們這種目前還不做芯片的公司來講,就是無論哪種情況下都要有備案,無論在海外發展業務還是在國內通過跟國產芯片合作也好,通過其他方式去做拓展也好,都是必須要去考慮的。禁運會帶來大的格局上的變化。
中國包括前一波的芯片公司,雖然現在有一些不同的流派,但主流的幾家AI 芯片公司、 GPU 公司,其實就是誰能夠長得更像英偉達,誰就能融得到錢,而在美國 Cerebras、Groq 則是誰長得越不像英偉達誰就能融到錢,這是兩個不一樣的思考方式。
如果接下來禁運的話,從技術流派上來講,會是一個非常大的變化,現在中國絕大部分公司都還在走大芯片 Chiplet 集成,然後走 HBM 的大封裝方式,這是美國走過的路,也比較確定能往下走,甚至包括我們剛剛講的 Scale up 路線也是有比較強的確定性的,英偉達趟過坑了,可以用比較小的成本去 copy 它的路線圖往下走。
如果說完全禁運的情況下,路徑模仿的可能性沒有了之後,反而是會促進中國有一些其他創新的。我是比較期待的。就是說無論如何我們都要做好準備,跟著美國走 Scale up 這條路線,我們已經完全準備好了,要做更大的集群,能夠跟各個廠商配合。如果走另外一條路線,我相信我們也是能夠和芯片公司配合起來的,也能夠有成長性、確定性。
3
構建開源生態的啟示錄
王康曼:我們說了這麼長時間的硬件,想換一個話題問一下,我覺得 DeepSeek 讓整個 AI 界、投資界覺得很震撼的一點,除了它是個非常高效的模型外,就是它的開源,你們覺得這對中國甚至全世界的 AI 生態會有什麼影響呢?
劉學:對於世界的影響,我覺得楊立昆教授說了句實話,他說美國一直在禁止對國內的開源,結果中國的科學家和工程師們反而做出了更加驚豔的成績。
對於開源我們有兩點思考,一是 Deepseek 當前無論是訓練還是推理,對整個計算、互聯、通信的認知影響能否形成大家統一認可的一致標準,第二是從 DeepSeek 的開源上底層如果由自己在軟件層設計,我們所說的軟件層除了DeepSpeed、vLLM 這些訓推框架,和在通信庫層和底層運行時,也就是中間件層的開源,或者大家分別拿出一部分來在國內做一些更統一、可能有優化方向的社區和項目,這也會給我們帶來了一些思考。
王康曼:你覺得我們在業務模式上面對開源和閉源的模式,從您個人或者初創企業的角度會不會有些區別的對待?
劉學:我們認為應該有區別對待的,這可能影響著在芯片層或者硬件層做標準或者做自己工作的結果,簡單來說無論做 Scale up 的解決方案還是 GPGPU、ASIC,上層都要給用戶或者工程師開放一些軟件層的東西,就像英偉達的 PTX 是開源的,但是它底層的 SaaS 層是不開源的。在國內做計算、通信是不是在 PTX 這層開源,讓更多的使用者或者工程師在這一層級能夠有更深層次的優化,這應該是個值得思考的方向。
師天麾:DeepSeek 火了之後全世界科學家都會在他們的基礎上做研究,這一方面擴大了他們的影響力,另一方面這些研究對 DeepSeek 接下來的研究也會有所幫助,所以說開源的思路就是去結交更多朋友,然後大家一起合力做更大的事情。DeepSeek 就是做更好的模型,然後以 AGI 為目標,邀請大家做更大事情。我們的赤兔推理引擎開源也是這樣的,我們就是想邀請無論是模型廠商、芯片廠商,還是一些社區開發者、個人愛好者,都一起來把這個國產生態做好,助力中國 AI 產業的發展。
然後包括剛才劉老師有提到底層 PTX 這一層,國產顯卡公司能不能開源,我們這塊也會有一些具體的感受,因為我們跟挺多家國內芯片廠商有合作,大家確實開源程度不一樣,如果對方能把某個接口開放給我們,我們對算子優化的能力就會更強。
開源建立生態然後邀請更多朋友助力,這也許會引起更多無論是模型廠商還是硬件廠商的思考,今年我們有一些私有化部署的客戶,大家可能去年已經買了一些閉源模型都已經部署上去了,但今年還是要換 DeepSeek,然後他們的觀點就是說開源還是更靈活一些。
王康曼:所以師老師覺得開源會是以後的一個大方向,那這個對傳統廠商衝擊挺大的。
師天麾:只能說會引起更多思考,但是否要開源看自己如何選擇,包括 OpenAI 現在只是把價格打下來或者免費了,但他們依然選擇 close 的路線,我只能說大家各有思考,選擇最適合自己的路線。
徐淩傑:我覺得首先開源是一個展現團隊極強的自信心的項目,但我們也知道在 GitHub 上有很多開源項目爛尾也是比較常見的,後續沒有人再去運營了。DeepSeek 的開源是非常有影響力,全世界範圍內甚至對股市都造成了非常大的衝擊,他們一開始其實也只是開放了權重,後面把自己的一部分能力釋放出來,讓大家覺得他們是非常紮實的團隊,對於初創公司來講人才吸引也好,品牌建設、吸引投融資來講這都是非常重要的事情,真開源跟假開源是不一樣的。
第二對於生態建設而言,英偉達也是相對來說比較封閉的,但是它也有一定的層次是開放的,能夠讓全世界所有的開發者建立在他們平台上,作為工業基礎去做開發,這樣就形成了一個合力的正向循環。現在國內很多國產芯片公司,一方面還沒形成氣候,另一方面開源出來東西可能也不 solid,發出來別人也沒辦法用起來,還是有一段路要去走的,這對我們這樣的初創公司有帶來了啟示,回到商業模式來講,你靠什麼賺錢,今天模型如果做閉源,那麼跟 DeepSeek 比有什麼優勢,到底是數據上的,還是客戶關繫上的,而對於我們做優化來講非常重要的是能夠持續迭代的能力。
現在開源社區里有 vLLM、SGLang,英偉達也開始在推 Dynamo 框架,業界知識平權會變得非常快,很快就會沒有秘密,很多東西都是會流通的,也就是說今天你認為你發現了一個非常厲害的東西,三個月之後可能沒有那麼厲害了。那對於初創公司而言護城河在哪,這是我一直以來的思考,再回到 MaaS 是不是好生意,我認為它是一個非常重要的能力,能夠有這麼一個團隊持續迭代至關重要,但僅憑這點做生意可能非常容易被顛覆,投資人也不太放心,所以還是要有一個比較長久的護城河,要可落地、可複製。我覺得開源對商業模式衝擊是比較大的,很多人已經被顛覆了,還有一些人在被顛覆中,如果不想被顛覆還是要找到錨點。
王康曼:楊立昆也說開源是以後的大趨勢,不開源的公司在這當中要思考的東西還是比較多的,剛才徐老師也提到了 Dynamo,英偉達剛開完 GTC 大會,裡面的亮點還是挺多的,其中我覺得有一點我有點小驚訝,就是關於 Silicon Photonic 這塊,用 Silicon Photonic 把 NVLink 做得更完善還是挺早的,老黃說了這麼一句,所以我也想聽聽各位老師的想法,這個事情是可以很快商業化落地的嗎?還是他只在說一個故事?
徐淩傑:已經是一個馬上要在今年下半年發佈的產品,那肯定是真實的東西,在這個交換機裡實現是過去這一兩年大家都已經比較確定的路線,發展到一定程度之後一定要通過光去做,通過共封裝的方式把光模塊省掉,把功耗降下來,這是對的趨勢。Silicon valley 在過去這五六年里,如果大家參加 Hot Chips 也能看到了很多關於共封裝、CPO 的提案。
這幾年的重點是說怎麼能夠把 CPO 和芯片相結合,也就是說現在在網絡上我們已經比較確信了,已經產品化了,那在計算芯片上去做共封裝什麼時候能夠實現,我想隨著 Scale up 的要求越來越高,後面 Chiplet 加上 CPO 是比較明確方向。我也有一些老同事出來做 CPO,CPO 是中國未來的發展機會,因光不需要特別先進的製程,通過高速互聯弱一點的芯片也能連起來,我非常認同這個方向。
這裡面還要解決生產關係的問題,因為但凡是大型芯片都是同一家公司做不同的 Chiplet,然後不同的代際、不同的排列組合做在一起。靠其他公司的 Chiplet 去封裝幾乎在大型芯片裡面幾乎是沒有的,那這個生產關係怎麼解決,特別是在標準接口沒有充分定義的情況下,是蠻難的。
剛剛劉老師講的 CXL 還不是芯片級別的,是一個服務器級別的接口,CXL 在過去五六年的發展一直也有討論,但沒有大量落地,包括 UCIE 接口大家也都在討論,大型芯片解決生產關係和生產力同樣重要,這一塊技術上是比較確定的,是值得芯片公司往前走一步的方向。
劉學:我先順著講一下生產關係的問題,這個生產關係是做 UCIE IP 的提供者、做矽光的提供者、工藝的提供者、做 Scale up 像我們互聯通信協議的提供者以及 GPGPU 和 ASIC 的生產關係。
關於 CPO 這塊,昨天我和國內做光通信的一家公司交流過,我們當時也規劃過到後邊幾代做 CPO,英偉達起到了推動作用,現在大家統一認為 26 年、27 年矽光會有小批量交付,28 年到 30 年是大規模落地的時間節點。
現在做矽光工藝、設備以及解決方案的廠家都在正視起來的問題,當中也有一些需要改進的點,像矽光和芯片結合之後形成 Scale up,中間的通信協議在這一層起到了什麼作用,這當中有對於角色的思考。現在 CPO 很重要,而且工藝廠家越早佈局越好,尤其是大家要全面思考從做光模塊轉到 CPO 和之前是否有差異。
王康曼:那關於 GTC 的另外一個話題就是 Dynamo,我想問一下師老師怎麼看最新發佈的可以大幅提高推理效率的開源 AI 處理服務庫 Dynamo?
師天麾:英偉達確實積累了很多東西,放出來挺震撼的,但是我感覺他們很多底層東西的接口還是沒有給開發者,所以他們可以做更激進的優化,包括大家應該也知道一些庫在大部分場景上確實很難寫得比英偉達更快。但這個開放出來英偉達也能鞏固軟件生態的護城河,這也值得我們學習。
一是看他們技術設計上是怎樣的,然後就是學習一些相關思路,看能不能用來構築國產軟件生態,我們在做的事情還是幫大家更好地用起來國產顯卡。我們相信未來算力國產化肯定是大趨勢,這個確定性是比較強的,所以我們會從別人的思路里學習,結合我們自己的技術和經驗以及國產顯卡的特色做一些自己的東西。
徐淩傑:我覺得 Dynamo 非常好,我和我的聯創都在推動團隊要迅速把優秀的開源項目集成到我們的產品中去,這個非常好,這也意味著英偉達不僅是個芯片公司,他們一直說自己是算法、軟件公司,今天他們變成了一個基礎設施公司,基礎設施公司就是要提供一系列工具,讓大家把基礎設施用好,這塊代表了英偉達非常大的野心,包括從集群層面他們會有非常大的投入,Dynamo 不是一個小的基於單個芯片的項目,而是基於集群的調優。這一塊還是回到商業的本質,就是英偉達越做越多的情況下,其他跟它同類競爭的公司要怎麼跟上,另外做英偉達的上下遊哪些東西比較有護城河,這是很有意思的話題。
劉學:我們也會持續學習和吸收,從整個系統來講,我們會進行拆解,然後看一下在國產芯片和整個 Scale up 互聯方面的啟發,實現更快速地落地,然後在商業模式方面,當前無論是矽光還是 Dynamo,英偉達都在給大家不停地講述要系統級設計更底層的芯片和互聯,這也是我們樂意看到的。
王康曼:英偉達的鏈確實越來越長了。圓桌快結束了,我們現在來回答一下觀眾提問。有觀眾問到如何解決中小企業在私有化部署的成本門檻的問題?看看誰想先來回答。
師天麾:我覺得小企業的低成本部署如果對數據安全的要求沒有太多顧慮的話,確實可以去租機器甚至用 MaaS,如果數據安全這塊要求比較多,可以先花幾十萬買個性能沒有那麼強的機器,也不是非要跑 DeepSeek 滿血版,其他模型並非不能用,挺多小模型、量化、蒸餾模型也都還不錯,先試一試對企業業務場景有沒有幫助,有了幫助以後再花錢買更好的機器,用更好的大模型更好支撐業務,就是說前期不一定非要最好,要先判斷對企業業務是否有幫助。
徐淩傑:我非常同意,首先模型一定要對客戶有用,我們今天講 AI Infra 是圍繞算力來講的,要把算力轉換成生產力的話,還是有蠻多事情要做的。去年模型還沒有像 DeepSeek 那麼強,需要做各種各樣數據方面的準備,包括像 RA、Post-training,今年 DeepSeek R1 其實大部分情況下也不能直接用到業務場景里去,要能夠去做結合。
回到我們現在的商業模式來講,一是我們會往硬件方向投入更多精力,軟件要作為入口給硬件帶貨,因此做端到端的解決方案也非常關鍵。我們從去年開始投入,也產生了一部分的營收,能夠跟客戶把它的場景打磨出來,第一步就是保證場景可用,這塊跟性能沒有任何關係,是模型的效果或者基於模型做二次開發能不能給業務帶來產生力,我們算法工程師,也進行了落地。
第二步是根據具體情況,基於現有的硬件做調優,達到更好的效率和性價比。第三,如果客戶對標準的硬件不滿意,部署量也比較大,我們能夠通過差異化的軟硬件相結合的產品有層次地提供。所以說是從算法效果到純軟件的調優效果,再到軟硬結合三步走的策略,去給客戶提供不同層級的方案,這和客戶體量、業務屬性都有關係。
劉學:徐老師是從算力轉化至生產力,我們是反過來從生產力轉化為算力,我們作為一家互聯通信公司,是想為國產 GPU 或者 ASIC 提供 Scale up 的整體解決方案,包括 Switch 芯片,DeepSeek V3 對 NVLink 的Switch 做了很大篇幅的描述,我們的重點是告訴大家,如果中小企業想提高性能,我們可以提供一些可定製的超節點。因為我們在和 GPU 廠商交流時, 他們也會問 256 個節點怎麼連,在互聯的拓撲下怎麼滿足當前 DeepSeek 這種 MoE 架構的訓練和推理,這個其實也是我們正在做的事情,我們專門有一個組拆解算法,拆解到具體的 GPU 和互聯上,看哪個互聯拓撲形成什麼樣的樹形或者環形結構來加速訓推。
王康曼:另外一個觀眾提問光子芯片會是未來的發展趨勢嗎?光在芯片的未來技術中,包括量子芯片等不同的路徑中佔什麼地位?會是過渡技術還是長期存在呢?
劉學:除了光子計算、量子計算還有類腦計算,我本身也是從事類腦計算的,有幾個說法,第一是國際上有說法稱類腦計算和量子計算是後摩亞時代的兩大解決方案,第二國內我們也聽到一些消息說在 GPU 或者 ASIC 路線之外還會開闢出其他路線,像類腦計算、光子計算和量子計算。從這幾點我們可以看到,無論是從 GPU、ASIC 還是光子計算和量子計算,當前離最終實現都有需要提升的地方,對此我想說兩點,一是當前的這些光子計算、量子計算相比以前的設計是否有後發優勢,二是在整體的設計過程中,一些周邊域的工程和科學問題是否得到解決了,這是值得關注的。
王康曼:我也分享一下,我前幾天去 GTC 約了英偉達做量子計算的專家交流,他們內部覺得這塊不會很快實現商業化落地,他們也沒有時間表,但這塊做出來和 GPU 芯片是不違背的,可以用量子芯片去做很多模擬,然後用 GPU 做訓練,這是他們現在的框架。最後快結束我想請問三位老師說一說對於 AI Infra 這個行業的願景。
師天麾:願景或者公司做到哪個程度從商業化角度來說,可能有點不太合適,因為整個行業變化很快,但是我們始終想做的就是做最有價值的事情,優先看有沒有給中國的 AI 生態帶來價值,要推進整個產業發展,這是我們願意去做的。我們也會在開源和國產生態上持續投入,邀請更多朋友一起做更有價值、更有意義的事情,這是我們的願景。
徐淩傑:對於做公司來講既要仰望星空,又要腳踏實地。
仰望星空就是從數據上來看,美國 2% ~ 3% 的電力用在數據中心,五年後可能是 7% ~ 9% 的電力用在數據中心,當中很大的增量來自人工智能,這是未來非常大的機會,數據中心是承載人類智慧精華的載體。數據中心未來可能佔 10%、 20% 發電量,當中每一點計算效率、軟硬件、散熱效率、集群化能力的提升、成本下降都蘊藏著非常大機會,也是能給人類創造價值的。
腳踏實地的話,未來三五年風高浪急的局勢變化情況下,小船能夠不被打翻就是一個小願望,能夠進一步擴張團隊,把我們心中無論軟硬件產品還是解決方案的願景都踏踏實實做下來,也希望得到投資人的支持。我們在上海、北京、深圳、海外都有辦公室,也在招人,歡迎大家聯繫我們交流合作。
劉學:我從歷史、現在和未來做一個闡述,第一過去 12 年到 22 年是芯片設計也就是體系結構設計的黃金時間,從 22 年開始是 Transformer 以及 AI Infra 的一些提升,實際上夾雜著歷史的年輪,是夾雜著整個算力、數據和基礎設施體系結構的時代,這是非常好的時代,我們做互聯、通信、GPU、ASIC、軟件以及算法都在這個舞台上有很精彩的表現,但這是個有競爭的時代,因為在任何一個點都能看到大家在搶佔賽道。這也是集成電路於國內而言比較利好、開放的時代。未來則面臨著三個問題,一是算法如何引進,二是訓練效率如何提升,三是規模如何擴展,這個過程中我們也看到了整個 Scale up 和 Scale out 通信集群的重要性,所以我們總結就是專注通信、聚焦集群。

