無問芯穹開源3B端側模型,具備全模態理解能力
新浪科技訊 12月16日下午消息,無問芯穹宣佈開源端上智能一體化解決方案中的小模型——端側全模態理解模型Megrez-3B-Omni,並同步開源了純語言版本模型Megrez-3B-Instruct。
據介紹,Megrez-3B-Omni選擇了最適合手機、平板等端側設備的30億參數黃金尺寸,結構規整,推理速度最高領先同精度模型300%。此外,還同時具備圖片、音頻、文本三種模態數據處理能力,且在三個模態的多種測評基準中取得最優性能。
在圖像理解方面,Megrez-3B-Omni雖然體積僅為3B,但綜合性能可以超過34B的LLaVA-NeXT-Yi-34B模型,是目前OpenCompass、MME、MMMU、OCRBench等多個主流測試集上精度最高的圖像理解模型之一。
在語音理解方面,Megrez-3B-Omni 不僅支持中、英文語音輸入,還能處理複雜的多輪對話場景,支持對輸入圖片或文字的語音提問,實現不同模態間的自由切換。
在文本理解方面,Megrez-3B-Omni在沒有犧牲模型文本處理能力情況下,將上一代14B大模型的能力壓縮至3B規模,顯著降低了計算成本、提升了計算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多個權威測試集上,取得端上模型最優精度。
據悉,目前Megrez-3B-Omni處於能力預覽階段,接下來無問芯穹將持續迭代Megrez系列,提升自動化水平至“edge device use”效果,讓用戶只需要給出簡單的語音指令,就可完成端側設備設置或應用操作。(文猛)