受 DeepSeek-R1 啟發，小米大模型團隊登頂音頻推理 MMAU 榜

感謝IT之家網民飛天麵條神的線索投遞！

IT之家 3 月 17 日消息，@小米技術官微今日發文稱，小米大模型團隊在音頻推理領域取得突破性進展。受 DeepSeek-R1 啟發，團隊率先將強化學習算法應用於多模態音頻理解任務，僅用一週時間便以 64.5% 的 SOTA 準確率登頂國際權威的 MMAU 音頻理解評測榜首，現同步開源。

IT之家附官方全文如下：

強化學習展現「反直覺」優勢 —— 小米大模型團隊登頂音頻推理 MMAU 榜

面對一段汽車行駛中的座艙錄音，AI 能否判斷出汽車是否存在潛在的故障？在交響樂演出現場，AI 能否推測出作曲家創造這首音樂時的心情？在早高峰地鐵站混亂的腳步聲潮中，AI 能否預判閘機口可能發生的衝撞風險？在大模型時代，人們已經不滿足於機器僅僅識別說話的內容、聲音的種類，更期望機器具備複雜推理的能力。

MMAU（Massive Multi-Task Audio Understanding and Reasoning）評測集（https://arxiv.org/ abs / 2410.19168）是這種音頻推理能力的量化標尺，它通過一萬條涵蓋語音、環境聲和音樂的音頻樣本，結合人類專家標註的問答對，測試模型在 27 種技能，如跨場景推理、專業知識等應用上的表現，期望模型達到接近人類專家的邏輯分析水平。

作為基準上限，人類專家在 MMAU 上的準確率為 82.23%。這是一個很難的評測集，目前 MMAU 官網榜單上表現最好的模型是來自 OpenAI 的 GPT-4o，準確率為 57.3%。緊隨其後的是來自 Google DeepMind 的 Gemini 2.0 Flash，準確率為 55.6%。

MMAU 任務示例圖片來自 MMAU 論文

來自阿里的 Qwen2-Audio-7B 模型在此評測集上的準確率為 49.2%。由於它的開源特性，我們嘗試使用一個較小的數據集，清華大學發佈的 AVQA 數據集（https://mn.cs.tsinghua.edu.cn/ avqa/），對此模型做微調。AVQA 數據集僅包含 3.8 萬條訓練樣本，通過全量有監督微調（SFT），模型在 MMAU 上的準確率提升到了 51.8%。這並不是一個特別顯著的提升。

DeepSeek-R1 的發佈為我們在該項任務上的研究帶來了啟發。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法，讓模型僅通過 “試錯-獎勵” 機制就能使自主進化，湧現出類似人類的反思、多步驗證等推理能力。在同一時間，卡內基梅隆大學發佈的論文預印本「All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/ abs / 2503.01067) 」，通過精巧的實驗得出了一個有趣的論斷：當任務存在明顯的生成-驗證差距（Generation-Verification Gap），即任務生成結果的難度遠大於驗證結果正確性的難度時，強化學習比起有監督微調具有獨特優勢，而 AQA 任務恰好是完美的生成-驗證差距顯著的任務。

打個比方來說，離線微調方法，如 SFT，有點像背題庫，你只能根據已有的題目和答案訓練，但遇到新題可能不會做；而強化學習方法，如 GRPO，像老師在要求你多想幾個答案，然後老師告訴你哪一個答案好，讓你主動思考，激發出自身的能力，而不是被「填鴨式」教學。當然，如果訓練量足夠，比如有學生願意花很多年的時間來死記硬背題庫，也許最終也能達到不錯的效果，但效率太低，浪費太多時間。而主動思考，更容易快速地達到舉一反三的效果。強化學習的實時反饋可能會幫助模型更快鎖定高質量答案的分佈區域，而離線方法需要遍曆整個可能性空間，效率要低得多。

基於上述洞察，我們嘗試將 DeepSeek-R1 的 GRPO 算法遷移到 Qwen2-Audio-7B 模型上。令人驚喜的是，在僅使用 AVQA 的 3.8 萬條訓練樣本的情況下，強化學習微調後的模型在 MMAU 評測集上實現了 64.5% 的準確率，這一成績比目前榜單上第一名的商業閉源模型 GPT-4o 有近 10 個百分點的優勢。

有趣的是，當我們在訓練中強製要求模型輸出推理過程時（類似傳統思維鏈方法），準確率反而下降至 61.1%。這說明顯式的思維鏈結果輸出可能並不利於模型的訓練。

我們的實驗揭示了幾個和傳統認知不同的結論：