無問芯穹開源全球首款端側全模態理解模型 Megrez-3B-Omni，支持圖像、音頻、文本理解

12月16日 12:43 新浪網 tech-auto-hilite

IT之家 12 月 16 日消息，無問芯穹今日宣佈，開源無問芯穹端側解決方案中的全模態理解小模型 Megrez-3B-Omni 和它的純語言模型版本 Megrez-3B-Instruct。

官方表示，Megrez-3B-Omni 是一個為端而生的全模態理解模型，同時具備圖片、音頻、文本三種模態數據的處理能力：

在圖像理解方面，Megrez-3B-Omni 是目前 OpenCompass、MME、MMMU、OCRBench 等多個主流測試集上精度最高的圖像理解模型之一。

在文本理解方面，Megrez-3B-Omni 在 C-EVAL、MMLU / MMLU Pro、AlignBench 等多個權威測試集上取得端上模型最優精度。

在語音理解方面，Megrez-3B-Omni 支持中文和英文的語音輸入，還能夠處理複雜的多輪對話場景，也能支持對輸入圖片或文字的語音提問，實現不同模態間的自由切換。

官方宣稱，與上一代及其他端側大語言模型相比，單模態版本的 Megrez-3B-Instruct 在推理速度上取得了顯著提升，最大推理速度可以領先同精度模型 300%。

IT之家附相關鏈接如下：

Github：https://github.com/infinigence/Infini-Megrez
HuggingFace：https://huggingface.co/Infinigence/Megrez-3B-Omni
Infini-AI 異構雲：https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr
Modelers：https://modelers.cn/models/INFINIGENCE-AI/Megrez-3B-Omni
ModelScope：https://www.modelscope.cn/models/InfiniAI/Megrez-3B-Omni

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。