Meta 開源小語言 AI 模型 MobileLLM 家族:適用智能手機、提供 125M-1B 版本

IT之家 11 月 8 日消息,Meta 於上週發佈新聞稿,宣佈正式開源可在智能手機上運行的小語言模型 MobileLLM 家族,並同時為系列模型新增 600M、1B 和 1.5B 三種不同參數版本,IT之家附項目 GitHub 項目頁如下。

Meta 研究人員表示,MobileLLM 模型家族專為智能手機打造,該模型號稱採用了精簡架構,並引入了「SwiGLU 激活函數」、「分組查詢注意力(grouped-query attention)」機制,能夠在兼顧效率與表現成果。

此外,MobileLLM 模型據稱訓練速度較快,Meta 研究人員聲稱他們在 32 顆 Nvidia A100 80G GPU 的服務器環境下,以 1 萬億詞(tokens)訓練不同參數量的 MobileLLM 模型時,1.5B 版本只需 18 天,而 125M 版本僅需 3 天

而從結果來看,MobileLLM 125M 和 350M 兩款模型在零樣本常識理解任務中的準確率比 Cerebras、OPT、BLOOM 等 State of the Art(SOTA)模型分別高出 2.7% 和 4.3%。

Meta 研究人員同時將 MobileLLM-1.5B 與業界其他參數量更大的模型進行比較,在結果測試方面據稱領先 GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen 1.5-1.8B 等模型。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。