換掉Transformer,7B開源模型立刻登頂!任意長序列都能處理
明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
只是換掉Transformer架構,立馬性能全方位提升,問鼎同規模開源模型!
(注意力機制不存在了)
這就是最新Falcon Mamba 7B模型。
它採用Mamba狀態空間語言模型架構來處理各種文本生成任務。
通過取消傳統注意力機制,有效提升了模型處理長序列時計算效率低下的問題。
它可以處理無限長序列,但內存需求不增加。
無論上下文多長,生成每個token的時間基本一樣。
由此,Falcon Mamba模型性能全方位提升,打敗一眾Transformer架構模型,如Llama-3.1(8B)、Mistral(7B)以及Falcon-2(11B)。
如上成果由阿聯酋艾巴紮比技術創新研究所(TII)帶來,他們正是Falcon模型的開發團隊。
該系列共包含四個模型:基礎版本、指令微調版本、4bit版本和指令微調4bit版本。
最新模型遵循TII Falcon License 2.0開放協議,它在Apache 2.0協議下。
圍觀網民直呼:遊戲規則要改變了!
全球首個開源SSLM
在性能上,Falcon Mamba 7B全方位超越一眾開源模型。
Mamba是一種狀態空間模型(SSM,State Space Model)。它結合了RNN和CNN的特點,通過引入一種選擇機制,它允許模型根據當前的輸入有選擇地傳播或忘記信息,從而提高處理文本信息的效率。
同時,它設計了一種硬件感知的並行算法,以遞歸模式運行,避免了GPU內存層級之間IO訪問,提高計算效率。
最後它還簡化了架構,將SSM架構和Transformer中的MLP塊結合為單一的塊。
從Transformer換到Mamba,能夠讓Falcon模型可以處理任意長序列,但無需增加內存。尤其適合單個A10 24GB GPU。
研究還討論了兩種不同的處理序列方法。
並行預填充方法適用於GPU並行處理,對內存需求較高;順序填充方法適用於SSM模型,可以處理任意長度序列,從而不會受到內存限制。
為了確保大規模訓練穩定,Falcon Mamba模型使用了額外的RMS標準化層。
RMS標準化層能夠簡化LayerNorm的計算過程,可減少計算量。
模型使用了5500GT數據訓練,這些數據主要來自RefedWeb數據集以及公開數據。訓練過程基本勻速,在訓練後期增加了一小部分高質量策劃數據,這有助於模型在最後階段的優化。
在H100上,批大小為1、提示詞長度為1-130k生成token的測試中,Falcon Mamba能夠在生成新token時保持穩定的吞吐量,這意味著它的性能不受文本長度影響,可以穩定處理長序列,不會出現性能下降情況。
Falcon Mamba支持多種Hugging Face API,包括AutoModelForCausalLM、pipline。
還推出了一個指令調優版本,通過額外50億個token進行微調,可以讓模型準確性更高。
在Hugging Face、GitHub上都可訪問最新模型~
參考鏈接:
https://huggingface.co/blog/falconmamba#hardware-performance