CPU反超NPU，llama.cpp生成速度翻5倍，LLM端側部署新範式T-MAC開源

T-MAC是一種創新的基於查找表（LUT）的方法，專為在CPU上高效執行低比特大型語言模型（LLMs）推理而設計，無需權重反量化，支持混合精度矩陣乘法（mpGEMM），顯著降低了推理開銷並提升了計算速度。

為增強設備上的智能性，在邊緣設備部署大型語言模型（LLMs）成為了一個趨勢，比如微軟的Windows 11 AI + PC。

目前部署的大語言模型多會量化到低比特。然而，低比特LLMs在推理過程中需要進行低精度權重和高精度激活向量的混合精度矩陣乘法（mpGEMM）。現有的系統由於硬件缺乏對mpGEMM的原生支持，不得不將權重反量化以進行高精度計算。這種間接的方式導致了顯著的推理開銷，並且無法隨著比特數進一步降低而獲得加速。

為此，微軟亞洲研究院、中國科學技術大學、中國科學院大學的研究人員聯合開發了T-MAC。T-MAC採用基於查找表（LUT）的計算範式，無需反量化，直接支持混合精度矩陣乘，其高效的推理性能以及其統一且可擴展的特性為在資源受限的邊緣設備上實際部署低比特LLMs鋪平了道路。

此外，當前大模型的部署普遍依賴於專用加速器，如NPU和GPU等，而T-MAC可以擺脫專用加速器的依賴，僅利用CPU部署LLMs，推理速度甚至能夠超過同一片上的專用加速器，使LLMs可以部署在各類包括PC、手機、樹莓派等邊緣端設備。T-MAC現已開源。

01 在CPU上高效部署低比特大語言模型

T-MAC的關鍵創新在於採用基於查找表（LUT）的計算範式，而非傳統的乘累加（MAC）計算範式。T-MAC 利用查找表直接支持低比特計算，從而消除了其他系統中必須的反量化(dequantization)操作，並且顯著減少了乘法和加法操作的數量。

經過實驗，T-MAC展現出了卓越的性能：在配備了最新高通Snapdragon X E lite芯片組的Surface AI PC 上，3B BitNet-b1.58模型的生成速率可達每秒48個token，2bit 7B llama模型的生成速率可達每秒30個token，4bit 7B llama模型的生成速率可達每秒20個token。

這甚至超越了NPU的性能！

當部署llama-2-7b-4bit模型時，儘管使用NPU可以生成每秒10.4個token，但CPU在T-MAC的助力下，僅使用兩核便能達到每秒12.6個token，最高甚至可以飆升至每秒22個token。

這些都遠超人類的平均閱讀速度，相比於原始的llama.cpp框架提升了4至5倍。

即使在較低端的設備如Raspberry Pi 5上，T-MAC針對3B BitNet-b1.58也能達到每秒11個token的生成速率。T-MAC也具有顯著的功耗優勢：達到相同的生成速率，T-MAC所需的核心數僅為原始llama.cpp的1/4至1/6，降低能耗的同時也為其它應用留下計算資源。

值得注意的是，T-MAC的計算性能會隨著比特數的降低而線性提高，這一現像在基於反量化去實現的GPU和NPU中是難以觀察到的。但T-MAC能夠在2比特下實現單核每秒10個token，四核每秒28個token，大大超越了NPU的性能。

圖1 BitNet on T-MAC vs llama.cpp on Apple M2

圖2 在不同端側設備CPU（Surface Laptop 7, NVIDIA AGX Orin, Apple M2-Ultra）的各核數下T-MAC和llama.cpp的token生成速度可達llama.cpp的4-5倍。達到相同的生成速率，T-MAC所需的核心數僅為原始llama.cpp的1/4至1/6

02 矩陣乘不需乘，只需查表 (LUT)

對於低比特參數 (weights)，T-MAC將每一個比特單獨進行分組（例如，一組4個比特），這些比特與激活向量相乘，預先計算所有可能的部分和，然後使用LUT進行存儲。

之後，T-MAC採用移位和累加操作來支持從1到4的可擴展位數。通過這種方法，T-MAC拋棄了CPU上效率不高的FMA（乘加）指令，轉而使用功耗更低效率也更高的TBL/PSHUF（查表）指令。