阿里宣佈開源全模態Qwen2.5-Omni,7B尺寸可識別情緒

新浪科技訊 3月27日上午消息,阿里巴巴發佈並開源首個端到端全模態大模型通義千問Qwen2.5-Omni-7B,可同時處理文本、圖像、音頻和視頻等多種輸入,並實時生成文本與自然語音合成輸出。

據悉,在權威多模態融合任務OmniBench等測評中,Qwen2.5-Omni全維度超Google的Gemini-1.5-Pro等同類模型,刷新業界紀錄。Qwen2.5-Omni以接近人類的多感官方式認知世界並與之實時交互,還能通過音視頻識別情緒,在複雜任務中進行更智能、更自然的反饋與決策。現在,開發者和企業可免費下載商用Qwen2.5-Omni,手機等終端智能硬件也可輕鬆部署運行。

相較於數千億參數的閉源大模型,Qwen2.5-Omni以7B的小尺寸讓全模態大模型在產業上的廣泛應用成為可能。即便在手機上,也能輕鬆部署和應用Qwen2.5-Omni模型。當前,Qwen2.5-Omni已在魔搭社區和Hugging Face 同步開源,用戶也可在Qwen Chat上直接體驗。(文猛)