英偉達投資了一家芯片「競爭對手」
Enfabrica Corp.,一家備受矚目的初創公司,正在AI領域掀起波瀾。去年9月,該公司在B輪融資中籌集了1.25億美元,並吸引了AI巨頭英偉達的投資,這算是英偉達的一個競爭對手,因為這家初創公司研發的AI網絡芯片被業界認為有望對英偉達旗下的Mellanox解決方案構成挑戰。而就在本月,Enfabrica再次完成C輪融資,獲得了包括Arm、思科、三星等巨頭的1.15億美元的資金支持。那麼,是什麼讓Enfabrica脫穎而出,吸引了如此多行業巨頭的持續青睞?
Enfabrica是誰?
Enfabrica這家初創公司成立於2020年,由Sutter Hill Ventures資助,由首席執行官Rochan Sankar、首席開發官Shrijeet Mukherjee以及其他工程師創立。該公司創立之初的基本理念是數據中心的網絡結構必須改變,因為底層計算範式正在發生變化:更加並行、加速、異構和數據移動密集。
直到2023年3月,該公司才開始被行業知曉。Enfabrica也被The information評為是2024年最有前途的50家初創公司。
不過成立僅4年,該公司卻獲得了一眾資本的認可:
2023年9月,Enfabrica宣佈融資1.25億美元,B輪融資由Atreides Management領投,現有投資者Sutter Hill Ventures參投,新支持者包括IAG Capital Partners、Liberty Global Ventures、Nvidia Corp.、Valor Equity Partners和Alumni Ventures。
2024年11月19日,該公司宣佈籌集了1.15億美元可觀的新現金注入,其C輪融資由Spark Capital領投,加入此輪融資的新投資者包括Arm、Cisco Investments、Maverick Silicon、Samsung Catalyst Fund和VentureTech Alliance。去年參與B輪融資的現有投資者Atreides Management、Sutter Hill Ventures、Alumni Ventures、IAG Capital和Liberty Global Ventures也參與了此次融資。
隨著OpenAI的ChatGPT等大語言模型的興起,對生成式AI應用以及現在的AI代理產生了巨大的需求,這家初創公司適時推出了其AI網絡互連芯片——ACF-S(Accelerated Compute Fabric-Switch,加速計算結構交換機)。ACF解決方案是從頭開始發明和開發的,旨在解決GPU網絡痛點以及內存和存儲擴展問題等加速計算的擴展挑戰。包括英偉達在內的知名投資機構對Enfabrica的大力支持,進一步證明了其技術的商業可行性和潛在價值。
網絡連接,需要改變了
在現代AI服務器和數據中心中,存在多種連接技術,可能很多人會有所迷糊,在此作簡單科普。通常我們所說的PCIe、英偉達的NVLink、AMD的Fabric這些主要是用於服務器與服務器之間的縱向連接。而網絡技術則是指用於多個服務器橫向連接,例如AI訓練集群中的多節點通信。
AI訓練過程由頻繁的計算和通信階段交替組成,其中下一階段的計算需要等待通信階段在所有GPU之間完成後才能啟動。通信階段的尾部延遲(tail latency,即最後一條消息到達的時間)成為整個系統性能的關鍵指標,因為它決定了所有GPU是否能同步進入下一階段。在這一過程中,網絡的重要性愈發凸顯,網絡通信需要能夠傳輸更多的數據。若網絡性能不足,這些高成本的計算集群將無法被充分利用。而且,連接這些計算資源的網絡必須具備極高的效率和成本效益。
在高性能計算(HPC)網絡中,Infiniband、OmniPath、Slingshot是幾個橫向連接技術方案。
其中Infiniband主要由NVIDIA(通過其Mellanox子公司)主導,是HPC領域最成熟的網絡技術之一。它以極低的延遲和高帶寬著稱,支持遠程直接內存訪問(RDMA),廣泛應用於超級計算和AI訓練。該技術成本較高,部署和維護複雜性較高。目前,Nvidia是InfiniBand芯片的最大賣家。例如,英偉達的ConnectX-8 InfiniBand SuperNIC支持高達800Gb/s的InfiniBand和以太網網絡連接,能夠運行數十萬台GPU。
英偉達的ConnectX-8 InfiniBand SuperNIC
(圖源:英偉達)
OmniPath是由英特爾推出的一種高性能網絡技術,旨在與Infiniband競爭,雖然英特爾於2019年停止直接開發,但Cornelis Networks接管了該技術,繼續發展。相比Infiniband,OmniPath的硬件和部署成本更低,適合中型HPC集群。但OmniPath的市場份額有限,生態系統不如Infiniband成熟,技術更新速度較慢。
Slingshot是由Hewlett Packard Enterprise(HPE)旗下的Cray開發的高性能網絡技術。其特色在於與以太網的兼容性,適合混合HPC和企業工作負載的場景。不過,Slingshot尚未在市場中被大規模應用,市場接受度和應用案例還有待觀察。
不過與HPC網絡相比較,AI對網絡需求提出了更高的要求,已從最初的高性能計算要求轉向構建可在加速計算集群之間提供一致、可靠、高帶寬通信的系統,這些集群現在有10,000個節點或更大,並且需要以類似雲的服務的形式提供。
為了打破InfiniBand的壟斷,以太網正逐漸成為有力競爭者。以太網雖起源於通用網絡技術,但其廣泛的生態系統、低成本和逐步增強的性能,使其在HPC和AI橫向連接技術中嶄露頭角。以太網的優勢在於生態成熟和成本效益,但在延遲和專用功能上仍需努力。因而去年,超級以太網聯盟(UEC)成立,該聯盟的宗旨是「新的時代需要新的網絡」,UEC對新網絡的定義是:性能堪比超級計算互連、像以太網一樣無處不在且經濟高效、與雲數據中心一樣可擴展。
UEC的創始成員包括AMD、Arista Networks、Broadcom、思科系統、Atos的Eviden分拆公司、惠普企業、英特爾、Meta Platforms和微軟。值得一提的是,後來英偉達也加入了這一聯盟。
所有這些網絡技術往往依賴於專用的網絡接口卡(NIC)和交換機。當前,AI服務器的網絡組件如NICs、PCIe交換機和Rail Switches,大都像「煙囪式」(stovepipes)結構一樣單獨存在(如下圖所示),彼此之間缺乏統一協調,網絡帶寬不足,缺乏可靠的容錯機制,難以應對AI訓練和推理過程中龐大的數據流量。
這樣的結構特點還帶來了諸多痛點:如在GPU之間傳輸數據時容易產生擁堵,數據在網絡中需要經過多個設備跳轉,增加了延遲;網絡負載分佈不均,可能導致「入彙擁塞」(incast),即大量數據同時到達某一點時引發的瓶頸;此外,碎片化和低效率的網絡設計導致AI集群的總成本(TCO)顯著增加,因為存在GPU和計算資源閑置的情況,造成資源浪費與帶寬利用率低,GPU間的鏈路如果發生故障,會導致整個任務停滯,影響系統的可靠性和穩定性。
行業變革日新月異,現在GPU已經取代CPU成為AI數據中心的核心處理資源,GPU和加速器計算基礎設施的資本支出在全球所有頂級雲提供商中佔據傳統計算支出的主導地位——這一切都歸功於生成式AI的市場潛力。但值得注意的是,目前部署在這些系統中的網絡芯片,包括連接加速計算的PCIe交換機、NIC網絡接口控製器和機架頂交換機,依然是為傳統x86計算架構時代設計的產品。這些設備上I/O帶寬的滯後已經成為AI擴展的瓶頸。
網絡芯片,也需要與時俱進了。本文我們所描述的Enfabrica公司,他們開發的ACF-S技術有望在這一領域佔據一席之地。
取代多種網絡芯片,ACF-S芯片要「革互連的命」
Enfabrica的ACF-S是一種服務器結構芯片,它不使用行業標準的PCIe交換機和具有RDMA的以太網網絡接口卡(NIC),而是將CXL/PCIe交換功能和RNIC(遠程網絡接口卡)功能集成到單一設備中,也就是不再需要PCIe、NIC(網絡接口控製器)或獨立的CPU連接DRAM,而且這種方法消除了對CXL高級功能的依賴。這種架構和思路與超級以太網(UEC)白皮書所倡導的所有方面都需要加速器、NIC和交換機結構之間的協調不謀而合。
Enfabrica首席執行官Rochan Sankar表示:「這不是CXL架構,不是以太網交換機,也不是DPU——它可以做所有這些事情。這是一類不同的產品,可以解決不同類別的問題。」
據瞭解,Enfabrica的ACF-S採用100%基於標準的硬件和軟件接口,包括原生多端口800千兆以太網網絡和高基數PCIe Gen5和CXL 2.0+接口。該結構可直接橋接和互連GPU、CPU、加速器、內存和網絡等各種設備,在這些設備之間提供可擴展、流式、每秒多TB的數據傳輸。它將消除對專用網絡互連和傳統機架頂部通信硬件的需求,充當通用數據移動器,克服現有數據中心的I/O限制。
也就是說,ACF-S無需改變設備驅動程序之上的物理接口、協議或軟件層,即可在單個矽片中實現異構計算和內存資源之間的多TB交換和橋接,同時大幅減少當今AI集群中由機架頂部網絡交換機、RDMA-over-Ethernet NIC、Infiniband HCA、PCIe/CXL交換機和連接CPU的DRAM所消耗的設備數量、I/O延遲跳躍和設備功率。
通過結合獨特的CXL內存橋接功能,Enfabrica的ACF-S成為業內首款可為任何加速器提供無頭內存擴展的數據中心矽產品,使單個GPU機架能夠直接、低延遲、無爭用地訪問本地CXL DDR5 DRAM,其內存容量是GPU原生高帶寬內存(HBM)的50倍以上。
成本也是這家初創公司的賣點之一。這是由於節省了購買NIC和PCIe交換機的費用。據該公司稱,Enfabrica的旗艦ACF交換機矽片使客戶能夠在相同性能點上將大型語言模型(LLM)推理的GPU計算成本降低約50%,將深度學習推薦模型(DLRM)推理的GPU計算成本降低75%。
3.2Tbps超高速,實現50多萬GPU互連
2024年11月19日,在超級計算2024(SC24)大會上,Enfabrica宣佈其突破性的3.2太比特/秒(Tbps)ACF SuperNIC芯片「Millennium」及其相應的試點系統Thames全面上市。Millennium為GPU服務器提供多端口800千兆以太網連接,帶寬和多路徑彈性是業內任何其他GPU連接網絡接口控製器(NIC)產品的四倍。Enfabrica芯片將於2025年第一季度開始批量供貨。
Millennium具有高基數、高帶寬和併發PCIe/以太網多路徑和數據移動功能,可以獨特地在每個服務器系統中縱向和橫向擴展四到八個最新一代GPU,為AI集群帶來前所未有的性能、規模和彈性。Millennium還引入了軟件定義的RDMA網絡,將傳輸堆棧控制權交給數據中心運營商,而不是NIC供應商的固件,而不會影響線速網絡性能。
憑藉單個ACF-S芯片上的800、400和100千兆以太網接口以及32個網絡端口和160個PCIe通道的高基數,首次可以使用更高效的兩層網絡設計構建超過50萬個GPU的AI集群,從而實現集群中所有GPU的最高橫向擴展吞吐量和最低的端到端延遲。
Enfabrica相信其互聯技術將成為未來GPU計算網絡的核心。Constellation Research Inc.副總裁兼首席分析師Andy Thurai表示,Enfabrica可以為AI網絡領域提供一個有趣的替代方案,目前該領域由Nvidia及其Mellanox解決方案主導。他解釋說,Enfabrica的一個顯著差異是它能夠在GPU和CPU之間高速移動數據。
也就說,不僅是GPU,Enfabrica還有望改變CPU的競爭力。Thurai表示:「這可以讓更多公司探索使用CPU而不是GPU來開發人工智能,因為GPU目前供應不足。Enfabrica的獨特優勢在於它使用現有的接口、協議和軟件堆棧,因此無需重新連接基礎設施。」
結語
隨著AI模型訓練對效率和成本效益的要求不斷提高,網絡的重要性愈發凸顯。據650 Group預測,到2027年,數據中心在計算、存儲和網絡芯片高性能I/O領域的矽片支出將翻倍,超過200億美元。這無疑是一塊極具吸引力的市場蛋糕。
英偉達等公司對Enfabrica初創公司的投資,不僅彰顯了對其技術創新的高度認可,更是著眼於未來AI生態戰略佈局的一步棋。要突破當前人工智能領域面臨的網絡I/O瓶頸,離不開應用人工智能、GPU計算和高性能網絡領域的專家之間的創造性工程設計和緊密協作。只有摒棄孤立競爭,形成合力,才能共同推動技術進步,為行業注入新動力。