智譜發佈Infra新成果:同等硬件投入,算力多出15%

新浪科技訊 5月21日上午消息,智譜今日宣佈落地部署了一項直接影響大模型推理效率的架構創新ZCube:線上Infra實測數據表明,在同等GPU配置下,將網絡帶寬從200Gbps提升至400Gbps,推理總吞吐提升約10%,首響時延下降19%,這一規律隨著推理規模擴大會越來越顯著。

通過將ZCube投入在千卡級GLM-5.1的一個線上推理集群中,在GPU型號、軟件棧、業務代碼全部不變的前提下,僅升級網絡架構,其與傳統ROFT架構的對比GPU平均推理吞吐提升15%以上,TTFT P99尾時延下降40.6%。

這意味著,同樣的硬件投入下,智譜GLM大模型現在每秒能多響應15%的API請求。對於服務上百萬開發者的大模型API平台而言,這直接對應更高的併發上限、更低的排隊延遲,以及在流量峰值下更穩定的用戶體驗。

成本端的變化同樣明顯,ZCube 架構所需的交換機和光模塊比原有方案少三分之一。規模越大,這個差值越可觀。

更關鍵的是,這項升級的邊際成本接近於零:GPU 不換,服務器不換,軟件代碼不改,純粹是組網架構的替換。這意味著智譜已有的算力資產在同等投入下釋放了更高的產出,相當於存量資產的效率重估。

據悉,ZCube技術被國際頂會ACM SIGCOMM 2025評價為“顯著改變整個行業對網絡的認知方式”,此次在智譜的落地實踐是ZCube架構首次在真實大規模推理集群中完成生產驗證。(文猛)