NeurIPS 2024 | 消除多對多問題,清華提出大規模細粒度影片片段標註新範式VERIFIED

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

陳厚倫,清華大學計算機系媒體所的二年級博士生,主要研究方向是多模態大模型與影片理解 ,在 NeurIPS 、ACM Multimedia 等頂級會議發表多篇論文,曾獲國家獎學金、北京市優秀本科畢業生等。

影片內容的快速增長給影片檢索技術,特別是細粒度影片片段檢索(VCMR),帶來了巨大挑戰。VCMR 要求系統根據文本查詢從影片庫中精準定位影片中的匹配片段,需具備跨模態理解和細粒度影片理解能力。

然而,現有研究多局限於粗粒度理解,難以應對細粒度查詢。為此,來自清華大學的研究者提出自動化影片 – 文本細粒度標註系統 VERIFIED,並基於此系統構建新的細粒度 VCMR 基準數據集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推動細粒度影片理解的發展。

  • 論文題目:VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding (NeurIPS 2024 Track on Datasets and Benchmarks)

  • 論文鏈接:https://arxiv.org/pdf/2410.08593

  • 主頁鏈接:https://verified-neurips.github.io/

一、介紹

影片語料庫時刻檢索(VCMR)旨在根據文本查詢從大量影片中精確定位特定片段。傳統 VCMR 基準的影片標註多為粗粒度標註,影片與文本間存在多對多問題,無法支持細粒度影片檢索的訓練與評估(圖 1 (a)),因此有必要為細粒度 VCMR 建立一個合適的 benchmark。為解決此問題,該研究提出了細粒度 VCMR 場景,使用更精細的文本查詢消除數據集中的多對多現象(圖 1 (b))。然而建立此類細粒度的 benchmark 有如下的挑戰:

(1)人工標註細粒度信息成本高昂,是否可以利用大模型技術實現這一過程?

(2)研究證明大模型存在幻覺問題,如果利用大模型進行標註,如何設計一種方法保證標註數據的質量?

為此,該研究設計了自動細粒度影片標註系統 VERIFIED(圖 1 (c)),通過大模型生成富含靜態和動態信息的標註,並且基於微調 video foundation model 設計了一個高效的標註質量評估模塊,基於此構建了 Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG 高質量細粒度 VCMR 基準,以推動細粒度 VCMR 研究發展。

圖 1:a) 粗粒度 VCMR 中,因查詢文本簡單,存在許多潛在正匹配(綠色),但這些時刻未被標註,導致真實標註不合理。b) 該研究提出的具有挑戰性的細粒度 VCMR 中,查詢更細粒度,方法需要從部分匹配的候選項(粉色)中檢索出最匹配的一個(綠色)。c) 該研究的 VERIFIED 生成了可靠細粒度標註,包括豐富靜態(綠色)和動態細節(藍色)。

二、VERIFIED 影片細粒度標註系統

圖 2:VERIFIED 流程圖。Statics Enhanced Captioning(A)和 Dynamics Enhanced Captioning(B),它們生成帶有靜態和動態細節的多個細粒度描述候選。此外,該研究設計了一個 Fine-Granularity Aware Noise Evaluator(C),該模塊生成並選擇被擾動的正負樣本,通過難負樣本增強的對比損失和匹配損失來微調 UMT。這個評估器對描述進行評分,以識別不準確描述。

圖 2 展示了該研究的 VERIFIED 標註流程圖。為了讓大模型像人類那樣對影片中的細粒度信息進行標註,該研究設計了 Statics Enhanced Captioning 和 Dynamics Enhanced Captioning 模塊,分別對靜態與動態細節進行描述。靜態信息增強模塊通過提取影片關鍵幀,分析前景和背景屬性,生成多個靜態細粒度描述,豐富影片的靜態視覺信息。動態信息增強模塊則根據影片的一個粗粒度標註,首先由 LLM 生成與影片動態內容相關的問題,使用影片問答系統(VQA)獲取動態細節,進而生成多個動態細粒度標註,幫助模型更好地理解影片中的動作和變化。

為了保證數據標註的質量,該研究設計了一個細粒度感知的噪聲評估模塊,其目的在於從前面模塊標註的數據中,篩選出可靠的細粒度標註,主要通過以下步驟進行:

(1)擾動文本生成:評估器首先從原始粗粒度標註中生成正向和負向的擾動文本。這些文本通過引入難例(挑戰樣本)與原始標註進行對比,以提高模型對細粒度差異的敏感度。

(2)篩選最優擾動:通過使用預訓練模型(如 SentenceBERT),評估器從生成的擾動文本中挑選最合適的正向改寫和最具挑戰性的負向改寫,保證生成的文本與原始標註的語義距離合理。

(3)損失函數:引入上述正向和負向的擾動文本,計算文本和影片間的對比損失和匹配損失。引入正向擾動文本是為了防止 LLM 生成文本的潛在的 bias,引入負向擾動文本作為困難負樣本增強模型對細粒度信息的感知能力。

最後該研究用這個模塊對標註數據進行打分,用來作為數據篩選的標準。該研究將 VERIFIED 系統應用於 Charades-STA、DiDeMo、ActivityNet Captions 數據集,對每個影片片段篩選分數最高的標註,得到新的 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 數據集,作為細粒度 VCMR 的 benchmark。

圖 3 圖 4 展示了該研究的標註中具有代表性的可視化樣本。

圖 3:(1-3)分別節選自 ActivityNet-FIG、Charades-FIG、DiDeMo-FIG 數據集,靜態和動態的細粒度內容分別用綠色和藍色標出,不準確的內容用紅色標出。

圖 4:(1) 本文構建的標註捕捉到了狗與訓犬師之間的互動以及狗的運動軌跡。(2) 捕捉到了人物拋擲物體的細節,並傳達了這個人多次拋擲的信息。(3) 讀取了視覺內容中的文字信息,並正確表達了使用原料的順序。

統計數據和用戶實驗還表明影片片段與標註文本之間的多對多現象得到了顯著減少,標註細粒度和質量得到了用戶的認可。

三、VCMR 實驗

本文評估了 HERO、XML、ReLoCLNet、CONQUER、SQuiDNet 方法,分別在 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 上,對 VCMR(影片庫片段檢索)、VR(影片檢索)、SVMR(單影片片段檢索)任務進行了測評,對於片段檢索指標,以 0.5/r10 為例,0.5/r10 表示召回的 top-10 個片段中與 ground truth 的 IoU 大於 0.5 的比例,結果如圖 5、6 所示。不同模型在影片檢索任務中的表現各異,兩階段方法(如 CONQUER、SQuiDNet)通常優於單階段的方法,所以訓練過程中應當避免將影片級別和片段級別的學習糾纏在一起,因為這可能會幹擾模型對精確時刻定位的能力,進而影響整體性能,未來研究應該關注如何有效分離影片級別和片段級別的學習,併合理引入細粒度信息。

圖 5:細粒度 VCMR、VR 實驗結果

圖 5:細粒度 VCMR、VR 實驗結果

圖 6:細粒度 SVMR 實驗結果

圖 6:細粒度 SVMR 實驗結果

為了說明該研究的細粒度訓練數據對於提升模型的細粒度影片檢索能力的意義,圖 7 展示了 XML 在 Charades-FIG 上訓練時,使用不同細粒度訓練數據的預測結果可視化。當使用粗粒度數據進行訓練時,真實值影片不在時刻排名列表的前 100 名內。排名靠前的預測主要集中在筆記本電腦上,而忽略了其他細節。使用該研究細粒度數據時,性能大大提升。它在排名第 5 位找到了目標時刻,後面的其他候選也與查詢高度相關。這展示了細粒度 VCMR 場景中的挑戰以及該研究的 VERIFIED 系統生成的標註數據在訓練中的有效性。

圖 7:XML 在 Charades-FIG 上使用不同細粒度訓練數據的部分預測結果

圖 7:XML 在 Charades-FIG 上使用不同細粒度訓練數據的部分預測結果

四、結論

現有 VCMR 基準數據集以粗粒度為主,限制了模型對細粒度影片特徵的學習。為此,該研究提出了 VERIFIED 自動標註系統,結合大語言模型和多模態大模型生成細粒度的靜態和動態標註,並通過微調 UMT 作為數據評估模塊提高標註可靠性。基於 VERIFIED 系統,該研究構建了新的細粒度 VCMR 數據集(Charades-FIG、DiDeMo-FIG、ActivityNet-FIG),評估了現有 VCMR 模型在細粒度場景上的表現,實驗發現現有檢索模型在處理細粒度信息時仍與現實需求存在較大差距。

參考工作

[1] Unmasked teacher: Towards training-efficient video foundation models

[2] Tall: Temporal activity localization via language query

[3] Localizing moments in video with natural language

[4] Dense-captioning events in videos