手機能跑的3B推理模型開源,比Qwen 3-4B還快,超長上下文不降速

以色列創企開源3B模型,性能碾壓GoogleGemma 3-4B。

智東西10月9日報導,昨日,以色列AI創企AI21 Labs開源輕量級推理模型Jamba Reasoning 3B。該模型有30億個參數,可在包括手機、電腦在內的多種設備端運行,性能超過Qwen3-4B、Gemma 3-4B等業界頂尖模型。

Jamba Reasoning 3B開源截圖Jamba Reasoning 3B開源截圖

Hugging Face地址: http://huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B

A21稱,Jamba Reasoning 3B基於其新的SSM-Transformer架構構建,上下文窗口長度為256K個token,能夠處理高達1M token,與DeepSeek、Google、Llama和微軟等競爭對手相比效率提升了2-5倍,在基準測試中取得領先成績。

Jamba Reasoning 3B在人類最後測試等測評中超Qwen 3-4B等模型Jamba Reasoning 3B在人類最後測試等測評中超Qwen 3-4B等模型

其將Jamba Reasoning 3B的優勢總結為三點:

1、智能性能不下降:由於採用了混合SSM-Transformer架構,Jamba Reasoning 3B比純Transformer模型更高效。

大多數基於Transformer的模型在上下文長度超過32K個token時性能會顯著下降,而Jamba Reasoning 3B能夠處理更長的上下文長度,包括高達100萬個token。這使得它在高級智能體系統或多模態應用中非常有用,因為長上下文理解對輸出質量至關重要。

Jamba Reasoning 3B的性能雖上下文增長損耗小Jamba Reasoning 3B的性能雖上下文增長損耗小

2、領先的智能:Jamba Reasoning 3B的表現優於DeepSeek、Google、Meta和微軟的其他設備端模型。

它在指令跟蹤任務(IFBench)和常識性知識(MMLU-Pro和Humanity’s Last Exam)方面尤為出色,這使得Jamba Reasoning 3B成為一款高效且智能的模型,可用於高級智能體工作流程或設備端RAG應用。

這些成果源於訓練後流程,A21將RLVR、SFT、DPO和GRPO等對齊訓練技術與自主研發的專有方法相結合,以確保模型質量。

Jamba Reasoning 3B測評超阿里、Google等模型Jamba Reasoning 3B測評超阿里、Google等模型

3、專為設備安全使用而構建:此模型獲得Apache 2.0許可,可直接下載到用戶的計算機或手機上,並使用用戶自己的文件在設備上進行定製,以實現完全安全的應用程序,即使斷網它們也可以繼續運行

Jamba Reasoning 3B的混合SSM-Transformer架構成功利用了比原始Transformer架構小8倍的鍵值緩存(KV),即使在上下文增長的情況下也能保持較低的內存佔用。

在M3 MacBook Pro上,它每秒可以生成40個token,上下文長度為32K,這一成績優於Qwen3-4B、DeepSeek Distill Qwen 1.5B、Gemma 3-4B等模型,使其成為高級智能體應用程序中的精簡組件。

在M3 MacBook Pro上每秒可以生成40個token在M3 MacBook Pro上每秒可以生成40個token

該模型目前支持的語言包括:英語、西班牙語、法語、葡萄牙語、意大利語、荷蘭語、德語、阿拉伯語和希伯來語。

結語:輕量模型加速迭代,開闢智能體落地新路徑

隨著企業將AI融入運營,基於雲端的大型語言模型暴露出經濟效率低下的問題。A21援引研究報告稱,40%-70%的AI任務可以通過小型語言模型處理,通過智能路由將成本降低10-30倍。

像Jamba Reasoning 3B這樣的設備端輕量模型能夠實現經濟高效的異構計算分配,在本地處理簡單任務,同時保留雲端資源用於複雜推理。這為製造業和醫療保健領域的實時應用提供了低延遲,為遠程操作提供了離線恢復能力,並增強了數據隱私保護,有望開啟了一個去中心化的AI時代。

本文來自微信公眾號「智東西」(ID:zhidxcom),作者:李水青,編輯:心緣 ,36氪經授權發佈。