端側最強開源 AI 模型 Llama 3.2 登場:可在手機運行,從 1B 純文本到 90B 多模態,挑戰 OpenAI 4o mini

IT之家 9 月 26 日消息,Meta 公司昨日(9 月 25 日)發佈博文,正式推出了 Llama 3.2 AI 模型,其特點是開放和可定製,開發者可以根據其需求定製實現邊緣人工智能和視覺革命。

Llama 3.2 提供了多模態視覺和輕量級模型,代表了 Meta 在大型語言模型(LLMs)方面的最新進展,在各種使用案例中提供了更強大的功能和更廣泛的適用性。

其中包括適合邊緣和移動設備的中小型視覺 LLMs (11B 和 90B),以及輕量級純文本模型(1B 和 3B),此外提供預訓練和指令微調(instruction-tuned)版本。

IT之家附上 4 個版本 AI 模型簡介如下:

  • Llama 3.2 90B Vision(文本 + 圖像輸入):Meta   最先進的模型,是企業級應用的理想選擇。該模型擅長常識、長文本生成、多語言翻譯、編碼、數學和高級推理。它還引入了圖像推理功能,可以完成圖像理解和視覺推理任務。該模型非常適合以下用例:圖像標題、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理,以及文檔視覺問題解答。

  • Llama  3.2 11B  Vision(文本 + 圖像輸入):非常適合內容創建、對話式人工智能、語言理解和需要視覺推理的企業應用。該模型在文本摘要、情感分析、代碼生成和執行指令方面表現出色,並增加了圖像推理能力。該模型的用例與  90B 版本類似:圖像標題、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理,以及文檔視覺問題解答。

  • Llama 3.2 3B(文本輸入):專為需要低延遲推理和有限計算資源的應用而設計。它擅長文本摘要、分類和語言翻譯任務。該模型非常適合以下用例:移動人工智能寫作助手和客戶服務應用。

  • Llama 3.2 1B(文本輸入):Llama 3.2 模型系列中最輕量級的模型,非常適合邊緣設備和移動應用程序的檢索和摘要。該模型非常適合以下用例:個人信息管理和多語言知識檢索。

其中 Llama 3.2 1B 和 3B 模型支持 128K 標記的上下文長度,在邊緣本地運行的設備用例(如摘要、指令跟蹤和重寫任務)中處於領先地位。這些模型在第一天就支持高通和聯發科硬件,並針對 Arm 處理器進行了優化。

Llama 3.2 11B 和 90B 視覺模型可直接替代相應的文本模型,同時在圖像理解任務方面優於 Claude 3 Haiku 等閉源模型。

與其他開源多模態模型不同的是,預訓練模型和對齊模型都可以使用 torchtune 針對自定義應用進行微調,並使用 torchchat 進行本地部署。開發者還可以使用智能助手 Meta AI 試用這些模型。

Meta 將分享首批 Llama Stack 官方發行版,這將大大簡化開發人員在不同環境(包括單節點、內部部署、雲和設備)中使用 Llama 模型的方式,實現檢索增強生成(RAG)和工具支持型應用的交鑰匙部署,並集成安全性。

Meta 一直在與 AWS、Databricks、Dell Technologies、Fireworks、Infosys 和 Together AI 等合作夥伴密切合作,為他們的下遊企業客戶構建 Llama Stack 發行版。設備分發通過 PyTorch ExecuTorch,單節點分發通過 Ollama。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。