秒殺同行!Kimi開源全新音頻基礎模型,橫掃十多項基準測試,總體性能第一

機器之心報導

編輯:Sia、楊文

六邊形戰士來了。

今天,kimi 又發佈了新的開源項目 —— 一個全新的通用音頻基礎模型 Kimi-Audio,支持語音識別、音頻理解、音頻轉文本、語音對話等多種任務,在十多個音頻基準測試中實現了最先進的 (SOTA) 性能。

結果顯示,Kimi-Audio 總體性能排名第一,幾乎沒有明顯短板。

例如在 LibriSpeech ASR 測試上,Kimi-Audio 的 WER 僅 1.28%,顯著優於其他模型。VocalSound 測試上,Kimi 達 94.85%,接近滿分 。MMAU 任務中,Kimi-Audio 摘得兩項最高分;VoiceBench 設計評測對話助手的語音理解能力,Kimi-Audio 在所有子任務中得分最高,包括一項滿分。

研發人員開發了評估工具包,可在多個基準任務上對音頻 LLM 進行公平、全面評估 ,五款音頻模型(Kimi-Audio、Qwen2-Audio、Baichuan-Audio、StepAudio、Qwen2.5-Omni)在各類音頻基準測試中的表現對比。紫線(Kimi-Audio)基本覆蓋最外層,表明其綜合表現最佳。 

目前,模型代碼、模型檢查點以及評估工具包已經在 Github 上開源。

項目鏈接:https://github.com/MoonshotAI/Kimi-Audio

新穎的架構設計

為實現 SOTA 級別的通用音頻建模, Kimi-Audio 採用了集成式架構設計,包括三個核心組件 —— 音頻分詞器(Audio Tokenizer)、音頻大模型(Audio LLM)、音頻去分詞器(Audio Detokenizer)。

這一架構使 Kimi-Audio 能夠在單一模型框架下,流暢地處理從語音識別、理解到語音對話等多種音頻語言任務。

Kimi-Audio 由三個主要組件組成:音頻分詞器(Audio Tokenizer)、音頻大模型(Audio LLM)、音頻去分詞器(Audio Detokenizer)。

具體而言,音頻分詞器(Audio Tokenizer)負責將輸入音頻轉化為通過矢量量化(vector quantization)得到的離散語義 token,幀率為 12.5Hz。同時,音頻分詞器還提取連續的聲學向量,以增強感知能力。

這種結合方式使模型既具有語義上的壓縮表示,又保留了豐富的聲學細節,從而為多種音頻任務提供了堅實的表示基礎。

音頻大模型(Audio LLM)是系統的核心,負責生成語義 token 以及文本 token,以提升生成能力。其架構基於共享 Transformer 層,能夠處理多模態輸入,並在後期分支為專門用於文本和音頻生成的兩個並行輸出頭。

音頻去分詞器(Audio Detokenizer)使用流匹配(flow matching)方法,將音頻大模型預測出的離散語義 token 轉化為連貫的音頻波形,生成高質量、具有表現力的語音。

數據建構與訓練方法

除了新穎的模型架構,構建 SOTA 模型的核心工作還包括數據建構和訓練方法。

為實現 SOTA 級別的通用音頻建模,Kimi-Audio 在預訓練階段使用了約 1300 萬小時覆蓋多語言、音樂、環境聲等多種場景的音頻數據,並搭建了一條自動處理 「流水線」 生成高質量長音頻 – 文本對。

預訓練後,模型進行了監督微調(SFT),數據涵蓋音頻理解、語音對話和音頻轉文本聊天三大類任務,進一步提升了指令跟隨和音頻生成能力。

Kimi-Audio 預訓練數據處理流程的直觀展示。簡單來說,就是把原始音頻一步步淨化、切分、整理,變成乾淨、有結構、有標註的訓練數據。

在訓練方法上,為實現強大的音頻理解與生成能力,同時保持模型的知識容量與智能水平,研發人員以預訓練語言模型為初始化,設計了三個類別的預訓練任務:

僅文本和僅音頻預訓練,用於分別學習兩個模態的知識;音頻到文本的映射,促進模態轉換能力;音頻文本交錯訓練,進一步彌合模態間的鴻溝。

在監督微調階段,他們設計了一套訓練配方,以提升訓練效率與任務泛化能力。

考慮到下遊任務的多樣性,研究者沒有設置特殊的任務切換操作,而是為每個任務使用自然語言作為指令;對於指令,他們構建了音頻和文本版本(即音頻由 Kimi-湯臣S 在零樣本方式下基於文本生成),並在訓練期間隨機選擇一種;為了增強遵循指令能力的魯棒性,他們使用大語言模型為 ASR 任務構建了 200 條指令,為其他任務構建了 30 條指令,並為每個訓練樣本隨機選擇一條。他們構建了大約 30 萬小時的數據用於監督式微調。

如表 1 和表 2 所示,他們基於全面的消融實驗,在每個數據源上對 Kimi-Audio 進行了 2-4 個訓練週期的微調,使用 AdamW 優化器,學習率從 1e⁻⁵ 到 1e⁻⁶ 進行餘弦衰減,使用 10% 的 token 進行學習率預熱。

此外,他們還分三個階段訓練音頻解碼器。首先,使用預訓練數據中的大約 100 萬小時的音頻,對流匹配模型和聲碼器進行預訓練,以學習具有多樣化音色、語調和質量的音頻。其次,採用分塊微調策略,在相同的預訓練數據上將動態塊大小調整為 0.5 秒到 3 秒 。最後,在 Kimi-Audio 說話者提供的高質量單聲道錄音數據上進行微調。

評估結果

研究者基於評估工具包,詳細評估了 Kimi-Audio 在一系列音頻處理任務中的表現,包括自動語音識別(ASR)、音頻理解、音頻轉文本聊天和語音對話。他們使用已建立的基準測試和內部測試集,將 Kimi-Audio 與其他音頻基礎模型(Qwen2-Audio 、Baichuan-Audio、Step-Audio、GLM4-Voice 和 Qwen2.5-Omini )進行了比較。

自動語音識別

研究者對 Kimi-Audio 的自動語音識別(ASR)能力進行了評估,涵蓋了多種語言和聲學條件的多樣化數據集。如表 4 所示,Kimi-Audio 在這些數據集上持續展現出比以往模型更優越的性能。他們報告了這些數據集上的詞錯誤率(WER),其中較低的值表示更好的性能。

值得注意的是,Kimi-Audio 在廣泛使用的 LibriSpeech 基準測試中取得了最佳結果,在 test-clean 上達到了 1.28 的錯誤率,在 test-other 上達到了 2.42,顯著超越了像 Qwen2-Audio-base 和 Qwen2.5-Omni 這樣的模型。在普通話 ASR 基準測試中,Kimi-Audio 在 AISHELL-1(0.60)和 AISHELL-2 ios(2.56)上創下了最先進的結果。此外,它在具有挑戰性的 WenetSpeech 數據集上表現出色,在 test-meeting 和 test-net 上均取得了最低的錯誤率。最後,研究者在內部的 Kimi-ASR 測試集上的評估確認了該模型的魯棒性。這些結果表明,Kimi-Audio 在不同領域和語言中均具有強大的 ASR 能力。

音頻理解

除了語音識別外,研究者還評估了 Kimi-Audio 理解包括音樂、聲音事件和語音在內的各種音頻信號的能力。表 5 總結了在各種音頻理解基準測試上的性能,通常較高的分數表示更好的性能。

在 MMAU 基準測試中,Kimi-Audio 在聲音類別(73.27)和語音類別(60.66)上展現出卓越的理解能力。同樣,在 MELD 語音情感理解任務上,它也以 59.13 的得分超越了其他模型。Kimi-Audio 在涉及非語音聲音分類(VocalSound 和 Nonspeech7k )以及聲學場景分類(TUT2017 和 CochlScene)的任務中也處於領先地位。這些結果突顯了 Kimi-Audio 在解讀複雜聲學信息方面的高級能力,超越了簡單的語音識別範疇。

音頻到文本聊天

研究者使用 OpenAudioBench 和 VoiceBench 基準測試 評估了 Kimi-Audio 基於音頻輸入進行文本對話的能力。這些基準測試評估了諸如指令遵循、問答和推理等各個方面。性能指標因基準測試而異,較高的分數表示更好的對話能力。結果如表 6 所示。

在 OpenAudioBench 上,Kimi-Audio 在多個子任務上實現了最先進的性能,包括 AlpacaEval、Llama Questions 和 TriviaQA,並在 Reasoning QA 和 Web Questions 上取得了極具競爭力的性能。VoiceBench 評估進一步證實了 Kimi-Audio 的優勢。它在 AlpacaEval(4.46)、CommonEval(3.97)、SD-QA(63.12)、MMSU(62.17)、OpenBookQA(83.52)、Advbench(100.00)和 IFEval(61.10)上均持續超越所有對比模型。Kimi-Audio 在這些全面的基準測試中的整體表現證明了其在基於音頻的對話和複雜推理任務中的卓越能力。

語音對話

最後,他們基於多維度的主觀評估,評估了 Kimi-Audio 的端到端語音對話能力。如表 7 所示,Kimi-Audio 與 GPT-4o 和 GLM-4-Voice 等模型在人類評分(1-5 份量表,分數越高越好)的基礎上進行了比較。

除去 GPT-4o,Kimi-Audio 在情感控制、同理心和速度控制方面均取得了最高分。儘管 GLM-4-Voice 在口音控制方面表現略佳,但 Kimi-Audio 的整體平均得分仍高達 3.90,超過了 Step-Audio-chat(3.33)、GPT-4o-mini(3.45)和 GLM-4-Voice(3.65),並與 GPT-4o(4.06)僅存在微小差距。總體而言,評估結果表明,Kimi-Audio 在生成富有表現力和可控性的語音方面表現出色。

© THE END