FP8模型不再挑卡!DeepSeek推理成本減半速度翻番,清華團隊開源「赤兔」推理引擎

機器之心原創

作者:聞菲、張倩

「國產大模型 + 國產引擎 + 國產芯片」的完整技術閉環正在加速形成。

隨著 DeepSeek 引燃市場對於大模型私有化部署的熱情,模型部署的效率與成本成為企業 AI 落地的關鍵瓶頸。

今天,清華系科創企業清程極智清華大學翟季冬教授團隊聯合宣佈開源大模型推理引擎「赤兔」(Chitu),率先實現了非 H 卡設備(英偉達 Hopper 架構之前的 GPU 卡及各類國產卡)運行原生 FP8 模型的突破

在 A800 集群上的實測數據顯示,用赤兔引擎部署 DeepSeek-671B 滿血版推理服務,相比於 vLLM 部署方案,不僅使用的 GPU 數量減少了 50%,而且輸出速度還提升了 3.15 倍

赤兔引擎代碼已發佈至 GitHub 開源社區:

  • https://github.com/thu-pacman/chitu

赤兔 (Chitu) 開源:

國產大模型基礎設施又一里程碑

當前,擁有完整自主可控的 AI 技術棧已成為國家戰略性需求。DeepSeek、QwQ 等優秀的國產開源大模型正在重塑全球科技產業格局,但在大模型推理部署領域,業界仍高度依賴國外開源工具。

赤兔引擎的開源為業界提供了國產開源新選擇,也意味著國產大模型 + 國產引擎 + 國產芯片」的完整技術閉環正在加速形成

「我們看到國內大模型領域取得了顯著進步,但在基礎設施層面,尤其是推理引擎這一核心環節仍缺乏生產級開源產品。」清程極智 CEO 湯雄表示,開源赤兔引擎是我們助力國內 AI 生態建設的重要一步。」

作為清華大學高性能計算研究所所長,翟季冬教授長期致力於高性能計算與系統軟件優化研究。翟教授指出:「赤兔引擎凝結了團隊多年的並行計算編譯優化技術積累,目標是建立一個真正適合國內多元算力環境的高性能推理引擎,能夠彌合先進模型與多樣化硬件之間的差距,為中國大模型的產業落地提供關鍵支撐。」

本次開源的版賓特別聚焦於當前市場最迫切的需求 —— 即實現 DeepSeek FP8 精度模型在存量英偉達 GPU 上的無損且高效部署。團隊還透露,針對多款國產芯片特別優化的版本也將相繼對外開源。這一突破不僅降低了大模型落地門檻,也為國產 AI 算力的發展帶來了新的契機。

赤兔引擎核心優勢:

全場景性能優化與架構適應性

隨著 DeepSeek V3 和 R1 等新一代模型採用 FP8 混合精度訓練並發佈,企業面臨新的部署挑戰。這些 FP8 模型針對 NVIDIA Hopper 架構(H100/H200)深度定製,在其他硬件上部署時(包括 NVIDIA 其他架構 GPU 和國產芯片)需要進行額外的適配。

先進的模型與最難獲取的硬件綁定,這是當前企業大模型落地的最大痛點之一湯雄表示。隨著更新一代模型和芯片往 FP4 等新型數據精度方向的發展,這種代際效應將愈發顯著。

另一個挑戰是現有開源推理引擎對多元算力環境的支持不足。當前,vLLM 等主流引擎主要針對 NVIDIA 最新架構優化,對國產芯片或較老款 GPU 的適配並不理想。在國內企業私有化部署場景中,NVIDIA 的 Ampere 系列 GPU、國產芯片等多元算力佔據了相當比例,這些場景亟需更加靈活的解決方案。

赤兔從一開始就定位於生產級大模型推理引擎,並且充分考慮了企業 AI 落地從小規模試驗到大規模部署的漸進式特點,專注於提供以下重要特性:

  • 多元算力適配:不僅支持 NVIDIA 最新旗艦到舊款的多種型號,也為國產芯片提供優化支持。

  • 全場景可伸縮從純 CPU 部署、單 GPU 部署到大規模集群部署,赤兔引擎提供可擴展的解決方案。

  • 長期穩定運行:可應用於實際生產環境,穩定性足以承載併發業務流量。

在性能優化方面,赤兔的設計理念是「對症下藥」,支持「低延遲優化」、「高吞吐優化」和「小顯存優化」,可以根據不同場景需求,在不同硬件配置和系統環境下,針對不同負載的特性,提供相應的最優解決方案。在實際部署中,這意味著赤兔引擎可以根據系統資源狀況,在 GPU 利用率、內存效率和網絡傳輸之間尋找最佳平衡點。

本次開源的技術突破是實現非 H 卡設備原生運行 DeepSeek FP8 精度模型。「我們沒有走簡單的量化路線,而是通過在算子內部高效處理 FP8 數據,確保模型推理質量不受任何影響。」湯雄表示:「具體來說,我們對 GeMM、MoE 等一系列關鍵算子進行了指令級的優化,實現了 FP8 數據的原生處理能力。」

這種技術實現的難點在於需要深入理解不同硬件架構的指令集特性,以及 FP8 與其他精度格式之間的數學等效關係,結合硬件特性分析並優化。得益於團隊在系統軟件人才方面的積累,才能夠在較短時間內實現這一突破。傳統上為每種芯片架構人工編寫優化代碼的工作量巨大,而團隊所具備的智能編譯技術有助於加速高性能算子的開發過程。

在 A800 集群上的實測結果表明,與 vLLM 相比,赤兔引擎實現 DeepSeek-671B 滿血版推理所需 GPU 數量減少 50%;儘管只用了一半的算力,但推理速度卻達到其 3.15 倍。這意味著企業可以用一半的硬件資源獲得更高的推理性能,極大降低了部署門檻和運營成本。

「部署大模型的最低算力成本是一個時常被忽視但極其重要的指標。」清程團隊強調,顯著降低推理成本對推廣 AI 應用至關重要,赤兔推理引擎在設計之初就將降低用戶的算力成本納入核心考量。

開源共建

為國產芯片「搶時間」

赤兔推理引擎的開源標誌著清程極智的業務發展進入新的階段。清程極智在持續提供企業級軟件部署運維服務和全套人工智能解決方案的同時,將把更多實際業務中的經驗通過開源的方式回饋社區。

「目前英偉達 GPU 在大模型推理市場佔據主流地位,未來幾年可能出現國外 AI 芯片和國內 AI 芯片百花齊放的態勢。」湯雄分析指出:「我們希望赤兔引擎成為連接多元算力與大模型應用的橋樑,同時通過推理一體機產品為企業提供端到端的大模型部署解決方案。」

清程極智的推理一體機產品基於赤兔引擎,適配多種硬件和模型,能夠為企業提供開箱即用的私有化部署方案,並配套專業的運維與優化服務。

對於國產 AI 基礎設施而言,赤兔引擎的開源有助於彌合國產芯片與國際先進芯片之間的「時間差」—— 當新模型架構和新數據類型出現時,赤兔引擎可以幫助國產芯片快速適配。

其次,開源引擎減輕了芯片廠商的軟件開發負擔。芯片廠商可以專注於硬件創新,而不必每家都重覆開發完整的軟件棧。翟季冬教授表示,「我們目前與多家國產芯片廠商進行合作,各方可直接向赤兔項目貢獻代碼,共同建設一個更強大的開源生態。」

「開源就是做給大家用,用了才知道好不好。我們把代碼放到 GitHub 上,有問題提 issue,有想法提 PR,一起把它做得更好。」湯雄超說。

「無論用什麼卡,赤兔都是高性價比的選擇。」