Ollama 上線自研多模態 AI 引擎:逐步擺脫 llama.cpp 框架依賴,本地推理性能飆升

IT之家 5 月 17 日消息,科技媒體 WinBuzzer 昨日(5 月 16 日)發佈博文,報導稱開源大語言模型服務工具 Ollama 推出自主研發的多模態 AI 定製引擎,擺脫對 llama.cpp 框架的直接依賴。

llama.cpp 項目近期通過 libmtmd 庫整合了全面視覺支持,而 Ollama 與其關係也引發社區討論。

Ollama 團隊成員在 Hacker News 上澄清,Ollama 使用 golang 獨立開發,未直接借鑒 llama.cpp 的 C++ 實現,並感謝社區反饋改進技術。

Ollama 在官方聲明中指出,隨著 Meta 的 Llama 4、Google 的 Gemma 3、阿里巴巴的 Qwen 2.5 VL 以及 Mistral Small 3.1 等模型的複雜性增加,現有架構難以滿足需求。

因此 Ollama 推出全新引擎,針對在本地推理精度上實現突破,尤其是在處理大圖像生成大量 token 時表現突出。

Ollama 引入圖像處理附加元數據,優化批量處理和位置數據管理,避免圖像分割錯誤導致輸出質量下降,此外,KVCache 優化技術加速了 transformer 模型推理速度。

新引擎還大幅優化內存管理新增圖像緩存功能,確保圖像處理後可重覆使用,避免提前丟棄。Ollama 還聯合 NVIDIA、AMD、Qualcomm、Intel 和 Microsoft 等硬件巨頭,通過精準檢測硬件元數據,優化內存估算。

針對 Meta 的 Llama 4 Scout(1090 億參數混合專家模型 MoE)等模型,引擎還支持分塊注意力(chunked attention)和 2D 旋轉嵌入(2D rotary embedding)等技術。

Ollama 未來計劃支持更長的上下文長度、複雜推理過程及工具調用流式響應,進一步提升本地 AI 模型的多功能性。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。