Mamba 再次挑戰霸主 Transformer!首個通用 Mamba 開源大模型一鳴驚人
【導讀】TII開源全球第一個通用的大型Mamba架構模型Falcon Mamba 7B,性能與Transformer架構模型相媲美,在多個基準測試上的均分超過了Llama 3.1 8B和Mistral 7B。
今天,艾巴紮比支持的技術創新研究所(TII) 開源了全球第一個通用的大型Mamba架構模型——Falcon Mamba 7B。
雖然之前Mistral已經發過Mamba架構的Codestral Mamba模型,但僅針對編碼;Falcon Mamba則是通用模型,能夠處理各種文本生成任務。
它是繼Falcon 180B、Falcon 40B和Falcon 2之後TII的第四個開放模型,與Falcon系列之前的型號不同,Falcon Mamba 7B完全採用SSLM架構而不是傳統的Transformer架構。
Mamba架構橫空出世後,體現出了內存效率方面的顯著優勢,無需額外的內存需求即可生成大量文本。
如今,SSLM正在逐漸蠶食Transformer架構原本「大一統」的地位。
測評數據顯示,Falcon Mamba 7B性能已經超越同尺寸級別的領先模型,例如Meta最新開源模型Llama 3.1 8B和Mistral 7B。
Falcon Mamba 7B將根據TII Falcon License 2.0發佈,這是一個基於Apache 2.0的許可證,其中包括促進負責任地使用人工智能的使用政策。
Falcon Mamba 7B有什麼特別之處?
雖然Transformer模型仍然主導著AI大模型領域,但研究人員指出,該架構在處理較長文本時可能會遇到困難。
Transformer的自注意力機制(Self-Attention)讓模型可以關注輸入序列中的所有位置,並為每個位置分配不同的注意力權重。
這使得模型能夠更好地處理長距離的依賴關係,也就是說,對於句子中距離較遠的單詞,模型也能有效地捕獲其關係。
這種通過比較文本中每個token來理解上下文的方式,需要更多的計算能力和內存來處理不斷增長的上下文窗口。
如果資源沒有相應擴展,推理速度會變慢,最終無法處理超過某個固定長度的文本。
為瞭解決這些難題,狀態空間語言模型(SSLM)架構應運而生,該架構通過在處理單詞時持續更新「狀態」,已成為一種有前途的替代方案。它已經被一些組織部署,TII是最新的採用者。
這個全新的Falcon模型正是使用了CMU和普林斯頓大學的研究人員在2023年12月的一篇論文中最初提出的Mamba SSM架構。
該架構使用選擇機制,使模型能夠根據輸入動態調整其參數。
通過這種方式,模型可以專注於或忽略特定輸入,類似於Transformer中的注意力機制,但同時具備處理長文本序列(如整本書)的能力,而無需額外的內存或計算資源。
TII指出,這種方法使模型適用於企業級機器翻譯、文本摘要、計算機視覺、音頻處理以及估計和預測等任務。
首個通用大規模Mamba模型
上面提到,基於注意力機制的Transformer是當今所有最強大語言模型中佔主導地位的架構。然而,由於計算和內存成本隨著序列長度的增加而增加,注意力機制在處理長序列時存在根本限制。
各種替代架構,特別是SSLM,試圖解決序列擴展限制,但性能不及最先進的Transformer。
Falcon Mamba模型在不損失性能的前提下,可以突破序列擴展限制。
Falcon Mamba基於去年12月提出的第一版Mamba架構,增加了RMS歸一化層以確保在大規模訓練中保持穩定性。
這種架構選擇確保了Falcon Mamba模型:
– 可以在不增加任何內存存儲的情況下處理任意長度的序列,特別是可以在單張A10 24GB GPU上運行;
– 無論上下文大小,生成新token所需的時間恒定。
模型訓練
Falcon Mamba使用約5500GT(相當於5.5B token)的數據進行訓練,主要由RefinedWeb數據組成,並添加了公共來源的高質量技術數據和代碼數據。
在大部分訓練中使用了恒定的學習率,隨後進行了一個較短的學習率衰減階段。
在最後階段,還加入了一小部分高質量的精選數據,以進一步提升模型性能。
性能評估
使用lm-evaluation-harness包對新排行榜版本的所有基準測試進行模型評估,然後使用HuggingFace分數歸一化處理評估結果。
如下圖所示,Falcon Mamba 7B獲得15.04的均分,超過Llama 3.1 8B 13.41分和Mistral 7B 14.50分。
此外,還使用了lighteval對大語言模型排行榜第一版的基準測試進行評估。
可以看到,Falcon Mamba 7B僅次於Transformer架構的Falcon 2 11B,分數仍然超過Gemma、Llama、Mistral等同等規模的知名模型。
處理大規模序列
理論上來說,SSM模型在處理大規模序列時具有效率優勢。
為了驗證模型的大規模序列處理能力,使用optimum-benchmark庫,對Falcon Mamba和流行的Transformer模型在內存使用和生成吞吐量方面進行了比較。
為了公平比較,將所有Transformer模型的詞彙大小調整為與Falcon Mamba一致,因為這對模型的內存需求有很大影響。
在查看結果之前,先討論序列中提示詞(預填充)和生成(解碼)部分的區別。
預填充的細節對於SSM而言,比對於Transformer模型更為重要。
當Transformer生成下一個token時,它需要關註上下文中所有先前token的鍵和值,這意味著內存需求和生成時間都會隨著上下文長度線性增長。
而SSM僅關注並存儲其遞歸狀態,因此在生成大規模序列時不需要額外的內存或時間。
雖然這解釋了SSM在解碼階段相對於Transformer的優勢,但在預填充階段需要使用新方法來充分利用SSM架構。
預填充的標準方法是並行處理整個提示詞以充分利用GPU。這種方法在optimum-benchmark庫中使用,我們稱之為並行預填充。
並行預填充需要將提示詞每個token的隱藏狀態存儲在內存中。對於Transformer,這額外的內存主要由存儲的KV緩存佔據。
對於SSM模型,不需要緩存,存儲隱藏狀態的內存成為唯一與提示詞長度成比例的部分。
因此,內存需求將隨提示詞長度增長,SSM模型將失去處理任意長序列的能力,類似於Transformer。
並行預填充的替代方法是逐個處理token提示詞,我們稱之為順序預填充。
類似於序列並行處理,它也可以大規模地處理提示詞,而不是單個token,以更好地利用GPU。
雖然順序預填充對Transformer意義不大,但它為SSM模型帶來了處理任意長提示詞的可能性。
考慮到這些觀點,實驗首先測試了可以在單個24GB A10 GPU上適應的最大序列長度。
其中,批大小固定為1,使用float32精度。
即使在並行預填充中,Falcon Mamba也能適應比Transformer更大的序列,而在順序預填充中發揮了全部潛力,可以處理任意長度的提示詞。
接下來,在提示詞長度為1,生成token數量最多為130k的情況下測量生成吞吐量,使用批大小為1,並在H100 GPU上進行。
結果如圖所示。可以觀察到,Falcon Mamba在生成所有token時保持恒定的吞吐量,且GPU峰值內存沒有增加。
而對於Transformer模型,隨著生成token數量的增加,峰值內存增加,生成速度變慢。
如何使用?
Falcon Mamba架構將在HuggingFace transformers庫的下一個版本(4.45.0以上)中提供。
使用Falcon Mamba 7B模型,需要安裝最新版本的HuggingFace transformers,或從源代碼安裝庫。
Falcon Mamba與HuggingFace提供的大多數API兼容,這些API已經比較熟悉,例如:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "tiiuae/falcon-mamba-7b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")
inputs = tokenizer("Hello world, today", return_tensors="pt").to(0)
output = model.generate(**inputs, max_new_tokens=100, do_sample=True)
print(tokenizer.decode(Output[0], skip_special_tokens=True))
它還支持例如bitsandbytes庫量化這樣的功能,以便在GPU內存較小的情況下運行模型,例如:
此外,還推出了Falcon Mamba的指令微調版本,該版本經過額外50億個token的監督微調(SFT),這種擴展訓練提高了模型在執行指令任務時的精確性和有效性。
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
model_id = "tiiuae/falcon-mamba-7b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
quantization_config = BitsAndBytesConfig(load_in_4bit=True)
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config)
inputs = tokenizer("Hello world, today", return_tensors="pt").to(0)
output = model.generate(**inputs, max_new_tokens=100, do_sample=True)
print(tokenizer.decode(output[0], skip_special_tokens=True))
可以通過演示體驗該指令模型的功能,對於聊天模板,可以使用以下格式:
<|im_start|>user
prompt<|im_end|>
<|im_start|>assistant
用戶還可以直接使用基礎模型和指令模型的4-bit轉換版本,但要保證GPU與bitsandbytes庫兼容,才能運行量化模型。
用戶還可以通過torch.compile獲得更快的推理速度,加載模型後,只需調用model = torch.compile(model)。
參考資料:
https://huggingface.co/blog/falconmamba
Falcon Mamba 7B’s powerful new AI architecture offers alternative to transformer models
https://medium.com/@puneetthegde22/mamba-architecture-a-leap-forward-in-sequence-modeling-370dfcbfe44a