僅縮小視覺Token位置編碼間隔,輕鬆讓多模態大模型理解百萬Token!清華大學,香港大學,上海AI Lab新突破
AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文共同一作為葛俊岐 (清華大學本科生),陳子熠 (清華大學本科生),林錦濤 (香港大學博士生),祝金國 (上海 AI Lab 青年研究員)。本文的通訊作者是朱錫洲,他的研究方向是視覺基礎模型和多模態基礎模型,代表作有 Deformable DETR、DCN v2 等。
隨著語言大模型的成功,視覺 – 語言多模態大模型 (Vision-Language Multimodal Models, 簡寫為 VLMs) 發展迅速,但在長上下文場景下表現卻不盡如人意,這一問題嚴重製約了多模態模型在實際應用中的潛力。
為解決這一問題,清華大學,香港大學和上海 AI Lab 聯合提出了一種新的用於多模態大模型的位置編碼方法 ——Variable Vision Position Embedding (V2PE) ,取得多模態大模型在長上下文場景下的新突破。

-
論文地址:https://arxiv.org/abs/2412.09616
-
項目主頁:https://zzdhybthu.github.io/V2PE.github.io/
-
開源代碼:https://github.com/OpenGVLab/V2PE
位置編碼是多模態大模型中的關鍵技術,用於讓模型理解輸入序列的相對位置關係。它使得 VLMs 能夠理解詞語在句子中的位置,並識別圖像塊在原圖中的二維位置。然而,現有的多模態模型通常在圖像 token 上沿用文本模型的位置編碼方式,這並非最優方案。
V2PE 提出了一種為視覺 token 分配可變位置增量的新方法,有效解決了傳統位置編碼在處理超長上下文任務時的性能瓶頸問題。通過避免位置編碼超出模型訓練上下文窗口的限制,V2PE 顯著提升了模型在 32K 至 1M 長度超長上下文任務中的表現。相比傳統位置編碼的模型,採用 V2PE 的模型在這些任務中實現了突破性改進,甚至超越了最先進的閉源大模型。

V2PE 工作有以下貢獻:
-
構建了一個用於 VLMs 長上下文訓練和評估的混合數據集。研究團隊通過這一數據集發現,直接將 LLM 的位置編碼機制應用於視覺 token 是次優選擇。
-
提出了可變視覺位置信息編碼 (V2PE),一種創新的位置編碼策略,通過為視覺 token 分配可變且較小的增量,大幅提升了 VLMs 對長多模態上下文的理解和推理能力。
-
將 V2PE 方法和擴展訓練數據應用於開源視覺模型 InternVL2-2B, 微調後的模型在統一多模態基準測試和長上下文多模態任務中表現優異,成功處理長達 1M token 的序列,展現了卓越的長上下文處理能力。
可變視覺位置編碼
突破視覺 – 語言模型在長上下文場景中的新邊界
在人工智能領域,視覺 – 語言模型 因其在多模態任務中的出色表現而備受關注。然而,在處理影片、高解像度圖像或長篇圖文文檔等長上下文場景時,其泛化能力卻顯著下降,這限制了它們在實際應用中的潛力,並影響了用戶體驗的進一步提升。
V2PE 旨在解決的核心問題在於:為什麼 VLMs 在長上下文場景下表現不佳,以及如何提升它們在長序列多模態理解與推理上的能力?
為了研究 VLMs 為什麼在長上下文場景表現不佳,研究團隊通過構建大規模的長上下文多模態數據集,系統地評估和分析 VLMs 的能力,在這一過程中,他們意識到位置編碼策略在 VLMs 的性能中起著至關重要的作用。
傳統的 VLMs 位置編碼通常不區分文本 token 和圖像 token,並在訓練中使用固定的編碼規則。然而,文本 token 屬於一維數據,位置編碼僅需傳達先後順序;圖像 token 則為二維數據,位置編碼需傳遞圖像塊的空間位置信息,還要考慮多解像度下縮略圖與子圖像塊的對應關係。此外,當模型處理超出訓練上下文窗口的長序列時,固定位置編碼會超出模型已知範圍,導致推理能力受限。
因此,作者提出了 Variable Visual Position Encoding (V2PE),這是一種新穎的位置編碼方法,專門針對視覺 – 語言模型(VLMs)中的長上下文場景。V2PE 通過為視覺 token 分配更小的、可變的位置增量,有效地管理長多模態序列。
增強的長上下文多模態數據集

作者引入了兩個增強的長上下文多模態數據集:Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。旨在提升 VLMs 的長上下文能力並建立評估框架。
-
Long-VQA 數據集擴展了 17 個被廣泛採用的數據集,將內容從短序列擴展到包含高達 32K token 的序列。任務涵蓋常識推理、事實知識和解釋文本和視覺信息。
-
Long-MR 數據集受多模態大海撈針 benchamrk — MM-NIAH 的啟發,通過在交錯的文本圖像中檢測目標圖像或段落,評估 VLMs 處理超長上下文的能力。
可變視覺位置編碼
位置編碼在視覺 – 語言模型中的作用
位置編碼是 Transformer 架構中的基本組成部分,它通過為 token 提供位置信息來捕獲序列關係。位置編碼通常涉及兩個步驟:位置索引推導
和位置嵌入計算
-
位置索引推導:為每個 token
分配位置索引
-
位置嵌入計算:將這些索引轉換為影響注意力機制的位置嵌入。
可變位置索引推導
作者提出了一種針對模態特定的遞歸函數,為文本和視覺 token 分配不同的位置索引:

其中

是一個小於 1 的增量,用於減少視覺 token 的位置索引增加速率。在訓練過程中,

可以從一組分數值中動態選擇,以適應不同的輸入長度和複雜性。
這種方法與傳統的長上下文方法相比具有幾個優勢:
1. V2PE 保留了 VLMs 中的所有視覺 token,保留了視覺內容的豐富性和細節。

長上下文能力顯著提升
經過一系列的實驗和分析,研究團隊取得了顯著的成果。通過引入 Variable Visual Position Encoding (V2PE) 和增強的長上下文多模態數據集,研究團隊得到了以下幾個重要的發現:
-
對模型上下文能力的影響


-
在 1M 上下文長度下的表現提升

作者分別在 32k 和 256k 的訓練數據上微調模型,並在長達 1M 的多種上下文長度上進行測試。實驗結果表明,V2PE 在長上下文場景下的表現明顯優於不加 V2PE 的模型,也優於使用插值方法的模型,甚至能超越先進的閉源大模型。

此外,作者將訓練好的 V2PE 模型與其他視覺 – 語言模型在多種基準測試進行了對比,結果表明,V2PE 在長上下文多模態任務上的表現優於其他模型,證明了 V2PE 的有效性。


消融實驗中,作者將 V2PE 方法與 token 壓縮的方法以及在訓練時固定視覺 token 的位置編碼增量的方法進行了對比,證明了 V2PE 的優勢。


V2PE 的提出,為視覺 – 語言模型在長上下文場景下的表現提供了新的思路。通過為視覺 token 分配可變的位置增量,V2PE 有效地解決了位置編碼超出模型訓練上下文窗口的問題,提升了模型在長上下文場景下的表現。
作者相信,V2PE 的提出將為視覺 – 語言模型的發展帶來新的機遇,為模型在長上下文多模態任務中的應用提供更多可能性。