Meta 開源小語言 AI 模型 MobileLLM 家族：適用智能手機、提供 125M-1B 版本

11月08日 17:04 新浪網 tech-auto-hilite

IT之家 11 月 8 日消息，Meta 於上週發佈新聞稿，宣佈正式開源可在智能手機上運行的小語言模型 MobileLLM 家族，並同時為系列模型新增 600M、1B 和 1.5B 三種不同參數版本，IT之家附項目 GitHub 項目頁如下。

Meta 研究人員表示，MobileLLM 模型家族專為智能手機打造，該模型號稱採用了精簡架構，並引入了「SwiGLU 激活函數」、「分組查詢注意力（grouped-query attention）」機制，能夠在兼顧效率與表現成果。

此外，MobileLLM 模型據稱訓練速度較快，Meta 研究人員聲稱他們在 32 顆 Nvidia A100 80G GPU 的服務器環境下，以 1 萬億詞（tokens）訓練不同參數量的 MobileLLM 模型時，1.5B 版本只需 18 天，而 125M 版本僅需 3 天。

而從結果來看，MobileLLM 125M 和 350M 兩款模型在零樣本常識理解任務中的準確率比 Cerebras、OPT、BLOOM 等 State of the Art（SOTA）模型分別高出 2.7% 和 4.3%。

Meta 研究人員同時將 MobileLLM-1.5B 與業界其他參數量更大的模型進行比較，在結果測試方面據稱領先 GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen 1.5-1.8B 等模型。

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。