Hugging Face 發佈 SmolVLM 開源 AI 模型:20 億參數,用於端側推理,體積小、速度快
IT之家 11 月 27 日消息,Hugging Face 平台昨日(11 月 26 日)發佈博文,宣佈推出 SmolVLM AI 視覺語言模型(VLM),僅有 20 億參數,用於設備端推理,憑藉其極低的內存佔用在同類模型中脫穎而出。
官方表示 SmolVLM AI 模型的優點在於體積小、速度快、內存高效,並且完全開源,所有模型檢查點、VLM 數據集、訓練配方和工具均在 Apache 2.0 許可證下發佈。
SmolVLM AI 模型共有 SmolVLM-Base(用於下遊微調)、SmolVLM-Synthetic(基於合成數據微調)和 SmolVLM-Instruct(指令微調版本,可以直接用於交互式應用)三個版本。
架構
SmolVLM 最大的特點在於巧妙的架構設計,借鑒了 Idefics3,使用了 SmolLM2 1.7B 作為語言主幹,通過像素混洗策略將視覺信息的壓縮率提高到 9 倍。
訓練數據集包括 Cauldron 和 Docmatix,並對 SmolLM2 進行了上下文擴展,使其能夠處理更長的文本序列和多張圖像。該模型通過優化圖像編碼和推理過程,有效降低了內存佔用,解決了以往大型模型在普通設備上運行緩慢甚至崩潰的問題。
內存
SmolVLM 將 384×384 像素的圖像塊編碼為 81 個 tokens,因此在相同測試圖片下,SmolVLM 僅使用 1200 個 tokens,而 Qwen2-VL 則使用 1.6 萬個 tokens。
吞吐量
SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多個基準測試中表現出色,且處理速度相比較 Qwen2-VL,預填充(prefill)吞吐量快 3.3 到 4.5 倍,生成吞吐量快 7.5 到 16 倍。
IT之家附上參考地址