微軟 BitNet b1.58 2B4T 登場:內存佔用僅 0.4GB,20 億參數模型顛覆 AI 計算

IT之家 4 月 18 日消息,科技媒體 WinBuzzer 昨日(4 月 17 日)發佈博文,報導稱微軟研究團隊推出了一款開源大型語言模型 BitNet b1.58 2B4T,區別於傳統訓練後量化的方式,這款擁有 20 億參數的大型語言模型(LLM)以 1.58 位低精度架構原生訓練而成。

IT之家援引技術報告介紹,該模型性能直追同規模全精度模型,但計算資源需求大幅縮減。尤其令人矚目的是,其非嵌入內存佔用僅 0.4GB,遠低於競品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。

BitNet 的高效秘訣在於其創新架構。模型摒棄傳統 16 位數值,採用定製 BitLinear 層,將權重限制為-1、0、+1 三種狀態,形成三值系統,每權重僅需約 1.58 位信息存儲。

此外,層間激活值以 8 位整數量化,形成 W1.58A8 配置。微軟還調整了 Transformer 架構,引入平方 ReLU 激活函數、標準旋轉位置嵌入(RoPE)以及 subln 歸一化,確保低位訓練穩定性。技術報告稱,這種原生 1 位訓練避免了傳統後訓練量化(PTQ)帶來的性能損失。

BitNet b1.58 2B4T 的開發歷經三階段:首先基於 4 萬億 token 的網絡數據、代碼和合成數學數據集進行預訓練;隨後通過公開及合成指令數據集(如 WizardLM Evol-Instruct)進行監督微調(SFT);最後採用直接偏好優化(DPO)方法,利用 UltraFeedback 等數據集提升對話能力和安全性。

微軟測試顯示,該模型在 GSM8K(數學)、PIQA(物理常識)等基準測試中表現優異,整體性能媲美主流 1B-2B 參數全精度模型,同時在能耗(每 token 0.028 焦耳)和 CPU 解碼延遲(29 毫秒)上佔據顯著優勢。

儘管 BitNet 潛力巨大,但其高效性需依賴微軟提供的專用 C++ 框架 bitnet.cpp 實現。標準工具如 Hugging Face transformers 庫無法展現其速度與能耗優勢。

微軟還計劃優化 GPU 和 NPU 支持,延長上下文窗口至 4096 token,並探索更大規模模型、多語言功能及硬件協同設計。目前,BitNet b1.58 2B4T 已以 MIT 許可證在 Hugging Face 發佈,供社區測試與應用。

參考