告別「圖文不符」!FG-CLIP實現細粒度跨模態對齊,360開源模型重塑AI視覺理解
FG-CLIP團隊 投稿
量子位 | 公眾號 QbitAI
CLIP的「近視」問題,被360搞掂了。
360人工智能研究院最新圖文跨模態模型FG-CLIP,宣佈以「長文本深度理解」和「細粒度視覺比對」雙突破,徹底解決了傳統CLIP模型的「視覺近視」問題,能夠精準識別局部細節。
具體怎麼個說法?先來個視力大挑戰:找一找右邊的哪句話,正確描述了左邊圖像里的內容?

正確答案是:「A light brown wood stool(一個淺棕色的木凳子)」,注意看,這個木凳子位於畫面的中央偏右,悄悄隱藏在狗狗的身後。

可以發現,4個常用模型——CLIP、EVACLIP、SIGLIP、FINE-CLIP基於左側圖片選出的最匹配的文本描述是:A blue dog with a white colored head。
顯然這個描述是錯誤的,這就是CLIP的「視覺近視」問題:會因為對比損失傾向於拉近全局圖像與文本的嵌入,而非局部區域的對齊,削弱了細粒度特徵學習。
而FG-CLIP則精準命中了答案。
實驗結果顯示,FG-CLIP在細粒度理解、開放詞彙對象檢測、長短文本圖文檢索以及通用多模態基準測試等下遊任務中均顯著優於原始CLIP和其他最先進方法。

在12個下遊任務上,FG-CLIP相比現有模型在關鍵的長文本理解+細粒度比對上實現了大幅突破。
360人工智能研究院還表示,將全面開源模型及其相關數據。
視覺語言模型面向的問題
2021年,OpenAI發佈CLIP圖文跨模態模型,通過對比學習,首次實現了大規模圖像-文本對齊,開啟了多模態預訓練大模型的新紀元。它通過對比圖像與文本的嵌入空間,使模型能夠完成零樣本分類、圖像檢索等任務。

但是CLIP與後面發展的模型,在實際應用中依然面臨以下的製約:
文本長度限制:CLIP的文本編碼器僅支持77個token,難以處理長文本的細節描述(如「一隻紅色的陶瓷茶杯,杯口有輕微磨損」)。
全局對齊的盲區:CLIP將圖像與文本整體對齊,忽略了局部區域的細粒度信息(如茶杯的把手形狀、杯身圖案)。
負樣本的不足:現有數據集中,負樣本(不匹配的圖像-文本對)多為粗略的類別錯誤,缺乏對細微差異的區分能力。
對長文本細節描述理解的重要性
提供豐富的背景信息與複雜查詢能力:長文本能夠提供詳細的背景信息,包括動作狀態、對象屬性及變化過程等,這對於全面理解事件至關重要。
相比短文本分析,長文本允許綜合查找基於多個條件(如物體、人物特徵)的信息,支持更加複雜的查詢需求。這使得模型不僅能識別發生了什麼,還能理解事件的全貌及其上下文。
支持跨模態深度語義匹配與融合能力:跨模態模型需要在不同模態間建立有效的語義對應關係。
長文本中的多層次語義信息(如主題、段落、句子乃至詞彙層面的意義)可以幫助模型更精確地進行語義匹配和特徵融合。
在圖文檢索任務中,長文本描述可以涵蓋從全局場景到局部細節的全面信息,使得模型能夠在多個層次上與圖像特徵進行比對和匹配,從而提升檢索的準確性和相關性。
對局部區域細粒度信息進行準確分析的重要性
細節捕捉:局部圖像特徵往往包含了區分不同對象的關鍵信息。
例如,在對不同人物進行分析時,著裝、動作等屬性差別對於區分個體至關重要。準確分析這些局部特徵可以顯著提高識別系統的準確性。
複雜環境適應性:在複雜的背景或低質量圖像中,局部特徵可以幫助算法聚焦於最重要的信息,忽略乾擾因素。
在實際應用中,目標對象經常會被其他物體部分遮擋。在這種情況下,全局特徵可能不足以描述對象,而局部特徵則顯得尤為重要。
通過對局部特徵的精確分析,系統能夠有效地識別出未被遮擋的部分,並利用這些信息來推斷整個對象的狀態。
局部圖像特徵屬性的準確分析:在提升識別精度、增強環境理解、支持高級別應用、改進用戶體驗以及保障安全性等方面具有核心重要性。
通過精確解析這些細節信息,可以實現更智能、更可靠的系統性能,無論是在監控、自動駕駛、產品質量控制還是其他需要細緻圖像分析的領域中,都能發揮關鍵作用。
對圖像/文本的細微差異實現準確理解的重要性
增強模型的魯棒性和泛化能力:準確區分圖像和文本中的細微差別對於增強模型的魯棒性和泛化能力至關重要。
細粒度的理解使模型能夠區分在視覺或語義上相似但存在細微差異的對象、場景或概念。
這種能力對於現實世界的應用非常重要,因為在不同的光照、角度或背景下,對象可能會有細微的變化。確保模型能夠在各種複雜場景中可靠運行。
提升下遊任務的精度:精確識別細微差異對提高下遊任務(如圖像描述生成、視覺問答和醫學影像診斷)的準確性至關重要。
例如,在視覺問答中,識別圖像中的微小細節並理解其與問題的相關性是正確回答問題的關鍵。能否準確捕捉圖像中的細微差異直接影響到系統的性能和用戶體驗。
同樣,在自然語言處理中,識別文本中的細微差異可以顯著提高情感分析和信息檢索等任務的表現
模型方法
FG-CLIP在傳統雙編碼器架構基礎上採用兩階段訓練策略,有效提升了視覺語言模型的細粒度理解能力。
首階段通過全局對比學習實現圖文表徵的初步對齊;次階段引入區域對比學習與難細粒度負樣本學習,利用區域-文本標註數據深化模型對視覺細節的感知能力,從而在保持全局語義理解的同時實現了對局部特徵的精準捕捉。

全局對比學習
全局對比學習通過整合多模態大模型生成的長描述,顯著增強了模型的細粒度理解能力。
這種方法不僅生成了內容豐富的長描述,還提供了更完整的上下文信息和更精準的細節描述。
通過引入長描述,模型得以在全局層面感知和匹配語義細節,從而大幅提升了其上下文理解能力。
同時,FG-CLIP保留了原有的短描述-圖像對齊機制,使長短描述形成互補。
這種雙軌並行的策略使模型既能從長描述中獲取複雜的語義信息,又能從短描述中把握核心概念,從而全面提升了模型對視覺信息的理解和處理能力。
局部對比學習
局部對比學習通過精準對齊圖像局部區域與對應文本描述,實現細粒度的視覺-語言關聯。
具體而言,FG-CLIP首先運用RoIAlign從圖像中精確提取區域特徵,繼而對每個檢測區域施加平均池化操作,獲取一組富有代表性的區域級視覺表徵。
這些局部特徵隨後與預先構建的細粒度文本描述進行對比學習,促使模型建立區域視覺內容與文本語義之間的精確映射關係,從而掌握更為細緻的跨模態對齊能力。
區域級難負樣本對比學習
針對細粒度負樣本稀缺這一挑戰,FG-CLIP提出了一種難細粒度負樣本學習方法。
FG-CLIP將語義相近但與正樣本存在細微差異的樣本定義為難負樣本,並通過對邊界框描述進行屬性層面的微調和重寫來構建這些樣本。
為了充分利用難細粒度負樣本提供的判別信息,FG-CLIP在損失函數中引入了特定的細粒度負樣本學習策略。
在訓練過程中,模型需要同時計算區域特徵與正樣本描述及其對應負樣本描述之間的相似度,從而學習更精細的視覺-語言對齊關係。
數據構建
通過LMM進行詳細的圖像描述重寫
在初始訓練階段,FG-CLIP採用了經過增強優化的LAION-2B數據集,其中的圖像標註經由CogVLM2-19B重新生成。
這種改進顯著提升了數據質量,使描述更加精確和內容豐富。
傳統LAION-2B數據集往往採用籠統的描述方式,難以支持精細化任務的需求。
以鳥類圖像為例,原始標註可能僅為」一隻鳥」,而忽略了物種特徵和環境細節。
通過引入先進的多模態大模型,FG-CLIP生成的描述不僅準確識別目標對象,還涵蓋了對象特徵、行為模式及場景關聯等多維信息。
舉例而言,簡單的」一隻鳥」被優化為」一隻紅翼黑鳥棲息在公園的樹枝上」,大幅提升了描述的信息密度。
借助160×910B規模的NPU計算集群,FG-CLIP在30天內完成了全部數據處理工作。
實驗結果顯示,這種優化顯著提升了模型在多個任務上的表現,充分證明了高質量文本標註對提升模型精確度和語境理解能力的關鍵作用。
創建高質量的視覺定位數據
對於訓練的第二階段,FG-CLIP開發了一個高質量的視覺定位數據集,包含精確的區域特定描述和具有挑戰性的細粒度負樣本。
FG-CLIP根據GRIT提供的圖像來製作整個數據集。
這一過程首先使用CogVLM2-19B生成詳細的圖像描述,確保描述全面且細膩,能夠捕捉每張圖像的全部背景信息。隨後,FG-CLIP使用SpaCy解析這些描述並提取出指代表達。
接著,將圖像和指代表達輸入預訓練的開放詞彙檢測模型,這裏採用Yolo-World,以獲得相應的邊界框。
通過非極大值抑制消除重疊的邊界框,僅保留預測置信度得分高於0.4的邊界框。
這一過程產生了1200萬張圖像和4000萬個帶有精細區域描述的邊界框。

為生成高質量的細粒度負樣本,FG-CLIP在維持對象名稱不變的前提下,對邊界框描述的屬性進行精細調整。
具體而言,FG-CLIP借助Llama-3.1-70B大語言模型,為每個正樣本構建10個對應的負樣本。
為提升描述的可讀性,FG-CLIP移除了分號、逗號和換行符等標點符號。
經過對3,000個負樣本的質量評估,98.9%的樣本達到預期標準,僅1.1%被判定為噪聲數據,這一比例符合無監督方法的可接受範圍。
這種方法產生的細微變化更貼近現實場景,能夠更好地模擬物體在保持基本類目相似的同時,具體細節存在差異的情況。

這項大規模數據集由1200萬張高質量圖像構成,每張圖像都配備精確的語義描述。
其中包含4000萬個邊界框標註,每個邊界框都附帶詳盡的區域描述,同時還整合了1000萬個經過篩選的難細粒度負樣本。
數據處理階段調用了160×910B算力的NPU集群,曆時7天高效完成。
這套豐富而系統的數據集顯著提升了模型識別精細特徵的能力,為FG-CLIP的訓練奠定了紮實基礎,使其在視覺與文本特徵的細粒度理解方面表現卓越。
實驗效果-量化指標
細粒度識別
FG-CLIP基於FG-OVD數據集對開源圖像-文本對齊模型進行了系統評估。
與MSCOCO和Flickr等聚焦整體匹配的傳統基準不同,FG-OVD專注於考察模型識別和定位圖像局部區域的精細化能力。
在評估過程中,每個目標區域都配備了一個精準描述和十個經過精心設計的負向樣本,這些負向樣本通過對正確描述的策略性修改而生成。
FG-OVD數據集劃分為四個難度遞進的子集,其區分度主要體現在待匹配文本之間的相似程度上。
具體而言,hard、medium和easy子集分別通過替換一個、兩個和三個屬性詞來構造負樣本,而trivial子集則採用完全無關的文本描述,形成了一個從細微差別到顯著差異的評估體系。
由表中可以看到,FG-CLIP相對於其他方法,在各項指標上都能獲得顯著提升,這也證明了該方法在細粒度理解上的能力。

區域識別
FG-CLIP在COCO-val2017數據集上開展零樣本測試,評估模型識別局部信息的能力,測試方案參照FineCLIP和CLIPSelf。
這項評估著重考察模型僅依靠文本描述對邊界框內目標進行分類的表現。
具體實現中,FG-CLIP利用數據集中的邊界框標註,結合ROIAlign技術提取局部區域的密集特徵表示。
在測試階段,將所有類別標籤作為候選文本輸入,對每個邊界框區域進行匹配和分類,並通過Top-1和Top-5準確率進行性能評估。FG-CLIP同樣在這個下遊任務上取得了最好的結果。

開放詞彙目標檢測
為了進一步評估FG-CLIP的方法的細粒度定位能力,FG-CLIP被採用作為下遊開放詞彙檢測任務的Backbone。
具體來說,FG-CLIP採用了一個兩階段檢測架構F-VIT,並在訓練中凍結了視覺編碼器。
從表格中可以看出,FG-CLIP在開放詞彙目標檢測任務上表現更加突出,證明了經過高質量數據和優化方法訓練的模型能夠在更深層次的任務上取得優越的性能。

圖文檢索/分類結果
為了全面評估圖像力度的任務,FG-CLIP對長標題和短標題圖像文本檢索任務以及零樣本圖像分類任務進行了實驗。
如表所示,FG-CLIP在長/短標題圖像-文本檢索任務中都取得了顯著的性能提升。
與旨在提高細粒度識別能力的 Long-CLIP 和 FineCLIP 相比,FG-CLIP在圖像分類這種短文本-全圖問題上的準確率方面具有明顯優勢。該模型處理不同圖像描述長度的能力突出了其在多模態匹配中的通用性和魯棒性。

實驗效果-可視化對比
圖像細節差異效果對比
FG-CLIP針對文本輸入對圖像特徵進行了可視化。
圖中,暖色調(如黃色)表示相關性較高,而冷色調(如藍色)表示相關性較低。
首先是針對相同的輸入文本和圖像,對不同模型的ViT特徵進行比較,可以發現FG-CLIP在這種細粒度理解問題上表現更好。如圖中的第二行所示,當輸入「Black nose」時,FG-CLIP可以對該小目標實現準確的識別。

在不同輸入文本下的可視化圖
FG-CLIP同樣將不同的輸入文本和相同圖片做相關性分析。
可以發現,對於圖像中的不同目標,FG-CLIP都能給出準確的位置理解,這表明了該模型具有穩定的視覺定位和細粒度理解能力。

總結
FG-CLIP在細粒度視覺理解領域取得了突破性進展。
該模型創新性地整合了前沿圖文對齊技術,並基於大規模精選數據集和難細粒度負樣本學習策略,實現了對圖像的多層次語義解析。
其獨特優勢在於能同時把握全局語境和局部細節,精準識別和區分細微特徵差異。
大量實驗結果表明,FG-CLIP在各類下遊任務中均展現出優異表現。
360人工智能研究院表示:
為推動領域發展,研究團隊決定將FG-CLIP相關的數據、代碼和預訓練模型陸續進行開源,相關內容將在360人工智能研究院的主頁和GitHub發佈。
未來研究團隊的研究方向將聚焦於融合更先進的多模態架構,以及構建更豐富多元的訓練數據集,以進一步拓展細粒度視覺理解的技術邊界。
360人工智能研究院主頁:
https://research.360.cn
Github:
https://github.com/360CVGroup
一鍵三連「點讚」「轉發」「小心心」
歡迎在評論區留下你的想法!