首個影片思維鏈推理框架Video-of-Thought來了：像人一樣從感知到認知全面推理影片

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯繫報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者來自於新加坡國立大學、南洋理工大學以及哈工深。其中，費豪的研究方向為多模態學習、多模態大語言模型。吳勝瓊，新加坡國立大學博士生，主要研究方向為多模態大語言模型。吉煒的主要研究方向為多模態學習，多模態內容生成。張含望教授的研究興趣包含計算機視覺、因果推斷。張梅山教授的研究方向包括代碼智能，自然語言處理，多模態生成與理解。Mong-Li Lee和Wynne Hsu教授的研究方向為社交媒體分析，協同機器學習等等。

最近，新加坡國立大學聯合南洋理工大學和哈工深的研究人員共同提出了一個全新的影片推理框架，這也是首次大模型推理社區提出的面向影片的思維鏈框架（Video-of-Thought， VoT）。影片思維鏈VoT讓影片多模態大語言模型在複雜影片的理解和推理性能上大幅提升。該工作已被ICML 2024錄用為Oral paper。

論文鏈接: https://openreview.net/pdf?id=fO31YAyNbI
項目鏈接: http://haofei.vip/VoT/

從感知到認知的飛躍

相比於理解和推理靜態的圖片，在視覺處理社區，推理影片的難度要複雜困難很多，因為影片天然地存在更具挑戰的動態時序特性，以及存在更多冗餘的視覺內容。過去的影片理解研究多集中於影片的淺層感知，如影片動作識別、動態識別和影片描述生成。然而，這些方法對複雜影片的深入理解和推理仍存在顯著不足。相較於淺層的影片感知，複雜影片的推理不僅需要對影片的時空特性有複雜的理解，還需深刻把握像素背後的內在高階常識。為了徹底解決這一問題，VoT應運而生。

對於人類而言，理解影片就像吃飯喝水一樣簡單。那麼我們人類是如何進行影片理解推理的呢？我們不妨考慮以下一個案例。以下的這段影片展示了一個場景：一輛高速行駛的汽車與一輛紅色油罐卡車在公路上相撞。對應的問題是：「這輛紅色油罐卡車會發生什麼？」

當人類拿到這個題目的影片，首先，我們會根據問題確定感興趣的目標，即紅色油罐卡車。然後，我們會仔細觀看影片，跟蹤目標對像在影片中的動作語義。接著，我們會進行一些深入和高層次的推理，可能會結合一些常識知識。最後，我們給出推理答案：「可能會著火甚至爆炸。」

雙重能力：感知與認知的完美結合

從以上的人類的認知模式和模式汲取靈感，研究團隊指出，要實現複雜影片推理，需要具備兩個關鍵能力：像素理解的感知能力和語義理解的認知能力。並且最重要的是，影片推理可能不是一個瞬時一步到位的過程，而是一個由低級感知到高級認知的多跳過程。

感知能力：為了實現精確的內容感知，必須對影片運動進行細緻的像素級理解。這個過程可能需要深入結合給定的影片內容，並且具備精細的內容定位。

然而，大多數現有影片理解方法局限於實例分析，缺乏精細的控制和準確的對象級識別或跟蹤，更不用說深入的影片理解了。

認知能力：深入的推理需要認知能力，允許模型提供合理的解釋甚至因果想像。這個層次需要結合一定的世界常識知識。例如理解「從高處跳下可能導致骨折」，或者「與油罐車相撞可能引發爆炸」。

全新推理框架：影片思維鏈的誕生

為了實現這一目標，研究團隊提出了一個全新的推理框架——「影片思維鏈」。該思維鏈將複雜的影片推理問題分解為從底層視覺感知到上層常識認知的一系列子問題。

與此同時，為了協助實現上述的細粒度影片感知能力，作者還提出利用時空場景圖（Spatial-Temporal Scene Graph, STSG）表徵協助推理過程，幫助生成的細粒度感知中間結果，從而實現精細的時空特徵理解。

並與影片多模態大模型相結合，最終提出了一個全新的影片MLLM， MotionEmpic。

實驗結果表明，作者提出的全新推理框架可顯著提升模型在各類影片QA上的性能，超越了當前所有傳統影片MLLM以及CoT方法的表現。

A.影片思維鏈VoT推理框架

VoT推理框架一共包含5個步驟：

Step-1：任務定義與目標識別

首先，給定輸入影片和問題，VoT會識別問題中涉及的所有可能目標。這個過程確保系統明確瞭解需要分析的對象和相關任務。

Step-2：目標追蹤

接下來，VoT分析影片內容，追蹤問題所涉及的目標行為軌跡，輸出感知層面的時空場景圖 (STSG)。生成的關於目標軌跡STSG將為下一步行為分析的感知證據。

Step-3：行為分析

在這一步中，VoT通過整合STSG中的目標跟蹤結果，進一步提示模型考慮更多潛在相關的常識知識，使模型能夠將影片像素觀察與現實世界聯繫起來，實現對影片的更深入理解。

Step-4：排名機制回答問題

在深入理解了影片中目標行為之後，現在開始回答原始問題。首先，本系統將所有QA問題統一為多項題，即從提供的多個候選答案中選出最終答案。進一步，受人類解答多選題的模式啟發，本系統還採用了排名機制來確定最終答案。具體來說，對於每個候選答案，VoT將提示模型根據常識知識評估其可能性（從1到10），並提供相應的理由。最終根據，排名高的候選則為最終回答。

Step-5：答案驗證

鑒於複雜影片任務通常涉及複雜的問題和答案，並且整個推理過程包含了多個環節，因此核實上一步提供的答案至關重要。本系統的基本核驗思路是，假設答案A是正確的，我們將從兩個方面回顧性評估答案是否與輸入問題和影片內容相矛盾：

感知驗證：檢查像素定位信息是否與影片中從感知角度呈現的事實一致。
認知驗證：從認知角度提示模型，確定答案中固有的常識性知識是否與第三步推理中推斷出的主要觀察結果相矛盾。

最終，確保VoT能夠輸出最正確的結果。

VoT推理框架的五個步驟，從任務定義與目標識別，到最終的答案驗證，全面提升了影片理解和推理的精確性和可靠性，為複雜影片任務提供了強有力的解決方案

B.實驗驗證

1. 主實驗比較

作者首先在多個複雜VideoQA的數據集上進行了測試。實驗結果證明VoT在所有的測試集上獲得了持續的強於SoTA基線模型的表現，甚至超越傳統CoT的性能。

2. Zero-shot結果

接下來，作者比較了不同模型在zero-shot下的性能。值得注意的是，相比較與傳統的CoT，VoT性能提升更大、更明顯。並且，在兩個複雜的影片問答任務上的增強效果比在相對簡單的任務（例如，MSR-V湯臣和ActivityNet）上的增強更為明顯。這主要是因為後者的數據集更傾向於感知推理（例如，描述影片中的內容），而不是認知推理（例如，解釋、預見）。

3. 推理能力詳細分析

首先，作者進行了人類評估。如圖7上表所示，使用VoT推理框架的MotionEpic取得了相當出色的結果，甚至可以與人類表現相媲美。進一步，作者總結了六種常見的錯誤案例，並分析六種最常見錯誤類別的差異。如圖下部分所示，MotionEpic（使用VoT）顯著降低了VideoLLaVA（使用CoT）的錯誤率，特別是在動作語義和常識理解方面。

4. 推理過程可視化分析

最後，作者通過一個案例分析直觀地展示了VoT的優越性。如圖8所示，影片內容顯示了「訓導員帶著小狗跨越各類障礙比賽」的複雜場景，而給定的問題是抽像且複雜，需要結合常識，而不能簡單地通過影片本身的感知直接回答。實驗結果發現，只有本系統給出了正確的答案。具體地，在內容感知層面，VoT通過基於STSG的影片定位確保了準確且穩健的理解，防止了幻覺，即正確地解釋了動物是一隻狗，然後從常識推斷場景涉及訓練者正在訓練狗。然後，在認知層面，它分析每個選項以確定最佳答案。通過進一步驗證，結果與影片內容和事實常識理解一致。總體而言，通過問題分解，整個推理在每個步驟上大大提高了準確性，同時確保了一個可解釋的過程決策理由。

作者還提供了更多的可視化分析：

你可能喜歡