無問芯穹開源3B端側模型，具備全模態理解能力

12月16日 14:04 新浪網 tech-auto-hilite

新浪科技訊 12月16日下午消息，無問芯穹宣佈開源端上智能一體化解決方案中的小模型——端側全模態理解模型Megrez-3B-Omni，並同步開源了純語言版本模型Megrez-3B-Instruct。

據介紹，Megrez-3B-Omni選擇了最適合手機、平板等端側設備的30億參數黃金尺寸，結構規整，推理速度最高領先同精度模型300%。此外，還同時具備圖片、音頻、文本三種模態數據處理能力，且在三個模態的多種測評基準中取得最優性能。

在圖像理解方面，Megrez-3B-Omni雖然體積僅為3B，但綜合性能可以超過34B的LLaVA-NeXT-Yi-34B模型，是目前OpenCompass、MME、MMMU、OCRBench等多個主流測試集上精度最高的圖像理解模型之一。

在語音理解方面，Megrez-3B-Omni 不僅支持中、英文語音輸入，還能處理複雜的多輪對話場景，支持對輸入圖片或文字的語音提問，實現不同模態間的自由切換。

在文本理解方面，Megrez-3B-Omni在沒有犧牲模型文本處理能力情況下，將上一代14B大模型的能力壓縮至3B規模，顯著降低了計算成本、提升了計算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多個權威測試集上，取得端上模型最優精度。

據悉，目前Megrez-3B-Omni處於能力預覽階段，接下來無問芯穹將持續迭代Megrez系列，提升自動化水平至“edge device use”效果，讓用戶只需要給出簡單的語音指令，就可完成端側設備設置或應用操作。（文猛）