算力直降97%，GPT-3存儲只用20MB？！這篇直接在1.58-bit下訓練模型的新論文火了

12月29日 11:53 新浪網 tech-auto-hilite

一水發自凹非寺

量子位 | 公眾號 QbitAI

好傢伙！1750億參數的GPT-3只需20MB存儲空間了？！

基於1.58-bit訓練，在不損失精度的情況下，大幅節省算力（↓97%）和存儲（↓90%）。

最近，從事機器學習的Will小哥發了一篇論文，直接引來幾十萬網民or同行圍觀。

他提出了一項名為「noise_step」的新技術，允許模型直接在1.58-bit低精度下訓練，且無需反向傳播或動量（Momentum）加速，從而降低算力和存儲消耗。

對此，網民們也紛紛發來祝賀，表示很高興看到模型越來越具有性價比。

話不多說，來看論文具體內容。

反向傳播不需要了

簡單說，noise_step的目標是通過降低模型訓練的精度要求，來減少算力和存儲消耗。

一開始，作者提到前人研究已經表明，大語言模型（LLM）的推理可以在1.58-bit精度下進行，且不會有任何性能損失。

比如下面這篇論文，有人引入了1-bit的LLM變體（即BitNet b1.58），其中LLM的每個參數或權重都是三元的{-1, 0, 1}。

它在困惑度（perplexity）和最終任務性能上與全精度（FP16或BF16）的Transformer LLM相匹配，同時在延遲、存儲、吞吐量和算力消耗方面成本更低。

然而，上述變體是在推理時使用低精度，而在訓練時仍需高精度權重。

因此，noise_step的一個核心區別是：無需反向傳播。

允許模型直接在1.58-bit（三元）精度下進行訓練，而不需要傳統的反向傳播（從後向前檢查每一層）或動量方法。

註：反向傳播(Backpropagation)是訓練神經網絡的核心算法，它通過反向逐層計算損失函數對每個權重的梯度，來反向逐層更新網絡的權重，從而最小化損失函數。

具體而言，will小哥參考了《Gradients without Backpropagation》這篇論文，其中介紹了雅可比向量積（Jacobian Vector Product，JVP）這種不依賴反向傳播的梯度估計方法。

簡單說，通過在前向傳播中引入隨機性，可以生成一個隨機向量。這個隨機向量與目標函數的梯度之間的對齊可以通過計算JVP來評估。

通過在多個隨機方向上重覆JVP計算，可以收集足夠的信息來估計整個梯度向量，從而實現不依賴於反向傳播的梯度估計。

will小哥的具體方法如下：

訓練成本打下來了

上述方式意味著，noise_step允許使用更稀疏的隨機向量和簡單的對齊值。

要知道傳統的梯度計算需要大量計算資源，而noise_step由於不需要存儲或傳輸大量數據，從而減少了存儲使用。

此外，由於noise_step使用偽隨機噪聲，它只需要一個種子（初始值）就能複現整個訓練過程，這意味著不需要存儲大量的擾動向量，從而進一步減少了存儲需求。

而且使用noise_step訓練的模型可以存儲訓練步驟而非權重，這可能會大幅縮小模型尺寸，從而更快地下載模型。

按照will小哥的說法，也許今後一秒鍾內下載一個SOTA模型？

同時由於上面提到的偽隨機噪聲方法，這種特性允許恢復權重的完整歷史，因為每個步驟都是確定性的，並且可以獨立於其他步驟進行計算。

因此微調將變得更加高效，甚至可能允許對過去的訓練步驟進行編輯，例如翻轉（negation）或屏蔽（masking）。

舉個例子，如果發現某個訓練步驟對模型性能產生了負面影響，可以對其進行調整而不必重新訓練整個模型。

也就是說，人們在訓練過程中能進行更精細的控制和調整了。

最後，作者認為這種方式尤為適合分佈式訓練。

在分佈式訓練中，通常需要在不同的計算節點之間同步梯度和優化器狀態，這會限制訓練的速度。而noise_step通過減少每個擾動所需的位數，顯著降低了通信量，從而提高了分佈式訓練的效率。

不過這也導致模型泄露變得更加容易，因為整個模型可以通過幾個字節的訓練步驟來傳輸。

對了，will小哥表示JVP可以和正常推理並行運行，幾乎不增加成本。

除了論文，他也提供了一個CPU實現過程：

One More Thing

BTW，小哥在𝕏上分享完論文後，還順帶「抽水」arXiv不給理由就拒絕了這篇論文。

後來他才補充，原來是卡在了背書（endorse）這一項，也就是需要現有用戶的推薦或通過其他方式獲得背書。

無奈之下，這篇論文目前被小哥放在了GitHub上。

感興趣的童鞋可以進一步查看。

論文：

https://github.com/wbrickner/noise_step?tab=readme-ov-file

CPU實現過程：

https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing

參考鏈接：

https://x.com/_brickner/status/1871348156786704657