端側最強開源 AI 模型 Llama 3.2 登場：可在手機運行，從 1B 純文本到 90B 多模態，挑戰 OpenAI 4o mini

09月26日 07:01 新浪網 news-china-auto-hilite

IT之家 9 月 26 日消息，Meta 公司昨日（9 月 25 日）發佈博文，正式推出了 Llama 3.2 AI 模型，其特點是開放和可定製，開發者可以根據其需求定製實現邊緣人工智能和視覺革命。

Llama 3.2 提供了多模態視覺和輕量級模型，代表了 Meta 在大型語言模型（LLMs）方面的最新進展，在各種使用案例中提供了更強大的功能和更廣泛的適用性。

其中包括適合邊緣和移動設備的中小型視覺 LLMs （11B 和 90B），以及輕量級純文本模型（1B 和 3B），此外提供預訓練和指令微調（instruction-tuned）版本。

IT之家附上 4 個版本 AI 模型簡介如下：

Llama 3.2 90B Vision（文本 + 圖像輸入）：Meta 最先進的模型，是企業級應用的理想選擇。該模型擅長常識、長文本生成、多語言翻譯、編碼、數學和高級推理。它還引入了圖像推理功能，可以完成圖像理解和視覺推理任務。該模型非常適合以下用例：圖像標題、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理，以及文檔視覺問題解答。
Llama 3.2 11B Vision（文本 + 圖像輸入）：非常適合內容創建、對話式人工智能、語言理解和需要視覺推理的企業應用。該模型在文本摘要、情感分析、代碼生成和執行指令方面表現出色，並增加了圖像推理能力。該模型的用例與 90B 版本類似：圖像標題、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理，以及文檔視覺問題解答。
Llama 3.2 3B（文本輸入）：專為需要低延遲推理和有限計算資源的應用而設計。它擅長文本摘要、分類和語言翻譯任務。該模型非常適合以下用例：移動人工智能寫作助手和客戶服務應用。
Llama 3.2 1B（文本輸入）：Llama 3.2 模型系列中最輕量級的模型，非常適合邊緣設備和移動應用程序的檢索和摘要。該模型非常適合以下用例：個人信息管理和多語言知識檢索。

其中 Llama 3.2 1B 和 3B 模型支持 128K 標記的上下文長度，在邊緣本地運行的設備用例（如摘要、指令跟蹤和重寫任務）中處於領先地位。這些模型在第一天就支持高通和聯發科硬件，並針對 Arm 處理器進行了優化。

Llama 3.2 11B 和 90B 視覺模型可直接替代相應的文本模型，同時在圖像理解任務方面優於 Claude 3 Haiku 等閉源模型。

與其他開源多模態模型不同的是，預訓練模型和對齊模型都可以使用 torchtune 針對自定義應用進行微調，並使用 torchchat 進行本地部署。開發者還可以使用智能助手 Meta AI 試用這些模型。

Meta 將分享首批 Llama Stack 官方發行版，這將大大簡化開發人員在不同環境（包括單節點、內部部署、雲和設備）中使用 Llama 模型的方式，實現檢索增強生成（RAG）和工具支持型應用的交鑰匙部署，並集成安全性。

Meta 一直在與 AWS、Databricks、Dell Technologies、Fireworks、Infosys 和 Together AI 等合作夥伴密切合作，為他們的下遊企業客戶構建 Llama Stack 發行版。設備分發通過 PyTorch ExecuTorch，單節點分發通過 Ollama。

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。