小紅書&上交多模態大模型新基準,Gemini 1.5 Pro準確率僅48%
WorldSense團隊 投稿
量子位 | 公眾號 QbitAI
多模態大模型理解真實世界的水平到底如何?
有新基準來衡量了。
就在最近,小紅書和上海交通大學聯合提出WorldSense,一個全新的基準測試,用來評估多模態大模型(MLLMs)的多模態真實場景理解能力。

基於WorldSense,團隊對各種先進的MLLMs進行了廣泛評估,結果發現:
開源的影片-音頻模型在該基準上的準確率僅約25%,幾乎等同於隨機猜測;即使是表現最好的專有模型 Gemini 1.5 Pro,準確率也只有48%,遠不能滿足可靠的真實世界應用需求。

下面具體來看。
WorldSense介紹
想像一下,當你開車時,不僅要依靠眼睛觀察道路標誌、交通信號燈和障礙物,還要用耳朵聽其他車輛的喇叭聲、後方傳來的警笛聲,甚至通過手對方向盤的觸感、車輛行駛時的震動來做出實時決策,確保安全駕駛。
這就是人類在真實場景中自然的多模態信息整合能力。
而現在的多模態大模型,在處理這些複雜的真實世界場景時,表現究竟如何呢?

WorldSense的誕生,正是為了填補現有評估體系的關鍵空白。
與以往那些存在諸多局限性的基準測試不同,它具備三大核心亮點,為多模態大模型的評估開闢了新的道路。
全模態協同,深度融合感知
在WorldSense的設計中,音頻和影片緊密耦合,每個問題都需要模型充分挖掘音頻和影片中的線索,將兩者信息有機結合,才能找到正確答案。
比如,在上圖第一個例子中,有個人手裡拿著水果。如果僅依靠視覺信息,我們可能只能看到他拿著東西這個動作,但很難確定他具體在做什麼,是展示水果的顏色、大小,還是在進行其他操作;而僅憑藉音頻,我們甚至都難以判斷他手中拿的是什麼水果。
只有將視覺與音頻信息協同起來,模型才能準確理解場景,給出正確答案。這種設計嚴格考驗模型同時處理多種感官輸入、進行精準理解的能力。
最新的開源影片音頻多模態大模型僅僅獲得了25%左右的準確率,而表現最好的Gemini 1.5 Pro也只有48%的準確率,並且在缺失一個模態的情況下性能下降約15%左右。
這進一步說明了全模態協同在真實世界感知的重要性和WorldSense中多模態信息的強耦合,也揭示了現有多模態大模型的局限性。
影片與任務多樣性,全方位場景覆蓋
據介紹,WorldSense涵蓋了1662個視聽同步影片,系統地分為8個主要領域和67個細粒度子類別,覆蓋了豐富的真實世界場景。
同時,它還包含3172個多選問答對,橫跨26種不同的認知任務,從基礎的物體識別、聲音辨別,到複雜的因果推理、抽像概念理解,全方位評估MLLMs的多模態理解能力。

高質量標註,可靠性的基石
為了保證評估的可靠性,所有的問答對都是由80位專家手動標註。
而且,標註過程並非一蹴而就,而是經過多輪嚴格的人工審核,從語言表達的清晰度、邏輯的連貫性,到答案的準確性和唯一性,都進行了反復考量。
不僅如此,還借助自動MLLM驗證技術,進一步確保標註質量。
經過這樣雙重保障的標註過程,確保問題和答案的準確性和高質量。
實驗
如前所述,研究團隊基於WorldSense對各種先進的MLLMs進行了廣泛評估,結果令人深思。
開源的影片 – 音頻模型在該基準上的準確率僅約25%,幾乎等同於隨機猜測;即使是表現最好的專有模型Gemini 1.5 Pro,準確率也只有48%,遠不能滿足可靠的真實世界應用需求。
這表明當前的模型在理解真實世界場景方面還面臨巨大挑戰,同時也凸顯了全模態協同理解的重要性。

為進一步深入剖析這些模型的性能短板,研究人員開展了細粒度分析,從不同音頻類型和任務類別兩個關鍵維度入手,挖掘模型在實際應用中的具體問題。
這一分析為我們深入洞察現有模型的局限性提供了關鍵視角。

最終結果如下:
1、音頻相關任務表現欠佳:模型在音頻識別、計數等任務上表現差,顯著落後於其他任務類型。這是由於音頻信號複雜,現有模型架構和訓練方法難以有效解析利用其中的頻率、音色等信息。
2、情感相關任務挑戰巨大:這類任務需整合面部表情、語氣語調、語音內容等多模態線索,模型表現較差,暗示其訓練數據缺乏情感樣本,且架構算法難以融合多模態信息進行判斷。
3、不同音頻類型下表現各異:以Gemini 1.5 Pro為例,其處理事件相關問題的準確率低於語音或音樂任務,其他模型也存在類似情況。這凸顯現有模型缺乏對各種音頻類型通用、穩定的理解能力。
鑒於上述評估中揭示的多模態大模型(MLLMs)在性能上的巨大差距,研究團隊深入探究了提升MLLMs性能的潛在方法,具體涵蓋視覺信息、音頻信息以及影片幀等方面的研究。
視覺信息的影響
研究人員通過設置不同的輸入配置,探究視覺信息對模型性能的影響,這些配置包括僅音頻輸入、音頻結合影片字幕輸入以及音頻結合影片幀輸入。
從實驗結果來看,視覺信息通常能提升模型性能。以Gemini 1.5 Pro為例,其僅音頻輸入時準確率為34.6%,而添加影片幀輸入後,準確率提升至48.0%。
然而,不同模型受視覺信息的影響存在差異。像UnifiedIO2系列模型,在結合影片字幕輸入時,性能提升效果並不穩定,甚至出現了性能下降的情況。
這一現象表明,一方面,視覺信息若能被模型恰當整合,對增強多模態理解至關重要;另一方面,當前模型在有效利用視覺信息方面的能力仍然有限,可能是因為模型在處理視覺特徵與其他模態信息融合時存在困難,或者是在提取視覺關鍵信息上還不夠高效。

音頻信息的作用
在音頻信息的研究上,團隊設置了三種輸入配置進行實驗,分別是僅影片輸入、影片結合字幕輸入以及影片結合原始音頻輸入。
實驗結果呈現出有趣的規律。
對於Gemini 1.5 Pro和OneLLM等模型,添加字幕能提高準確率,而添加原始音頻後,準確率提升更為顯著,這充分說明字幕和原始音頻中的聲學特徵(如語氣、情感、環境聲音等)都為多模態理解提供了有價值的信息,且原始音頻包含了字幕無法捕捉的重要線索,對多模態理解意義重大。
但不同模型對音頻信息的處理能力也有所不同。UnifiedIO2 在整合字幕或音頻時,性能出現了下降,尤其是字幕輸入導致準確率明顯降低,這反映出該模型在多模態處理方面存在困難,可能無法有效融合音頻和視覺等多模態信息。
而Video – LLaMA2雖然在添加兩種模態信息時性能都有所提升,但對字幕的依賴更強,在處理原始音頻時表現相對較弱,這表明它更擅長處理文本形式的音頻信息,而在解析複雜聲學信息上能力不足。
此外,研究人員還對僅影片輸入的 MLLMs 提供轉錄字幕進行評估,發現幾乎所有模型在添加字幕後性能都顯著提升,不過在音樂相關問題上,由於字幕無法有效捕捉旋律、節奏和和聲等固有聲學特徵,性能提升並不明顯。
這進一步證明了原始音頻在多模態理解中的獨特價值,同時也表明當前模型在整合聲學和文本信息以實現全面場景理解方面存在較大的提升空間。

影片幀采樣密度的效果
研究團隊還研究了影片幀的時間采樣密度對模型性能的影響,通過改變僅影片輸入的 MLLMs 的輸入幀數來進行實驗。
結果顯示,大多數模型在增加幀密度後,性能有顯著提升。
這是因為更高的幀密度能夠讓模型更好地捕捉影片中細粒度的時間動態變化和微妙的視覺改變,從而提升對影片內容的理解。
例如,在一些包含快速動作或微小細節變化的影片中,增加幀密度能讓模型獲取更多關鍵信息,進而做出更準確的判斷。但也有例外,如 LLaMA – 3.2 在增加幀密度時,性能並未提升。
這可能與該模型自身的架構特點或訓練方式有關,導致它無法有效利用增加的幀信息,這也為後續研究如何優化模型以更好地利用影片幀信息提供了思考方向。

小結一下,通過對視覺信息、音頻信息以及影片幀采樣密度的研究,為提升MLLMs在真實世界場景中的理解能力提供了重要的參考方向。
未來的研究可以基於這些發現,進一步優化模型架構和訓練方法,以增強模型對多模態信息的處理能力,縮小與人類真實世界理解能力之間的差距。
論文鏈接:
https://arxiv.org/abs/2502.04326
項目主頁:
https://jaaackhongggg.github.io/WorldSense/