阿里深夜開源 Qwen2.5-Omni,7B參數完成看、聽、說、寫

轉自 | 機器之心

3 月 27 日淩晨,阿裡通義千問團隊發佈 Qwen2.5-Omni。

這是 Qwen 系列中全新的旗艦級多模態大模型,專為全面的多模式感知設計,可以無縫處理包括文本、圖像、音頻和影片的各種輸入,同時支持流式的文本生成和自然語音合成輸出。

從此以後,你可以像打電話或進行影片通話一樣與 Qwen 聊天!可以說是「語音聊天 + 影片聊天」都實現了。

體驗地址:https://chat.qwen.ai/

更重要的是,團隊人員將支持這一切的模型 Qwen2.5-Omni-7B 開源了,採用 Apache 2.0 許可證,並且發佈了技術報告,分享所有細節!

現在,開發者和企業可免費下載商用Qwen2.5-Omni,手機等終端智能硬件也可輕鬆部署運行。

  • 論文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

  • 博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/

  • GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni

  • Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

有網民表示,這才是真正的 Open AI。

大家可以通過官方 demo 感受一下 Qwen2.5-Omni 真實表現。

Qwen2.5-Omni 模型架構

Qwen2.5-Omni 具有以下特點:

  • Omni 和創新架構:團隊提出了 Thinker-Talker 架構,這是一個端到端的多模態模型,旨在感知包括文本、圖像、音頻和影片在內的多種模態,同時以流式方式生成文本和自然語音響應。此外,團隊還提出了一種名為 TMRoPE(Time-aligned Multimodal RoPE)的新型位置嵌入,用於同步影片輸入與音頻的時間戳;

  • 實時語音和影片聊天:該架構專為完全實時交互而設計,支持分塊輸入和即時輸出;

  • 自然且穩健的語音生成:在語音生成方面,Qwen2.5-Omni 超越了許多現有的流式和非流式替代方案,展現出卓越的穩健性和自然性;

  • 多模態性能強勁:在與同樣大小的單模態模型進行基準測試時,Qwen2.5-Omni 在所有模態上均展現出卓越的性能。Qwen2.5-Omni 在音頻能力上超越了同樣大小的 Qwen2-Audio,並且達到了與 Qwen2.5-VL-7B 相當的性能;

  • 出色的端到端語音指令遵循能力:Qwen2.5-Omni 在端到端語音指令遵循方面的表現可與文本輸入的有效性相媲美,這一點在 MMLU 和 GSM8K 等基準測試中得到了證明。

前文我們已經提到,Qwen2.5-Omni 採用了 Thinker-Talker 架構。

Thinker 就像大腦一樣,負責處理和理解來自文本、音頻和影片模態的輸入,生成高級表示以及對應的文本。

Talker 則像人類的嘴巴,以流式方式接收 Thinker 產生的高級表示和文本,並流暢地輸出離散的語音 token。

Thinker 是一個 Transformer 解碼器,配備有音頻和圖像的編碼器,以便於提取信息。相比之下,Talker 被設計為一種雙軌自回歸 Transformer 解碼器架構。

在訓練和推理過程中,Talker 直接接收來自 Thinker 的高維表示,並共享 Thinker 的所有歷史上下文信息。因此,整個架構作為一個統一的單一模型運行,實現了端到端的訓練和推理。

Qwen2.5-Omni 模型架構

Qwen2.5-Omni 模型架構

模型性能

團隊人員對 Qwen2.5-Omni 進行了全面評估,結果表明,該模型在所有模態上的表現均優於類似大小的單模態模型以及閉源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在需要集成多種模態的任務中,如 OmniBench,Qwen2.5-Omni 達到了最先進的水平。

此外,在單模態任務中,Qwen2.5-Omni 在多個領域中表現優異,包括語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU, MMStar)、影片理解(MVBench)以及語音生成(Seed-tts-eval 和 subjective naturalness)。