9大基準全面領先，性能暴漲10.8%！視覺價值模型VisVM成「圖像描述」新寵

新智元報導

編輯：LRST

【新智元導讀】視覺價值模型（VisVM）通過「推理時搜索」來提升多模態視覺語言模型的圖像描述質量，減少幻覺現象。實驗表明，VisVM能顯著提高模型的視覺理解能力，並可通過自我訓練進一步提升性能。

在現代多模態視覺語言模型（VLM）的發展中，提高圖像描述的準確性和細節豐富性始終是一個挑戰。儘管基於大規模數據的訓練極大推動了模型性能，但在實際應用中，模型仍面臨識別細微圖像區域和減少「幻覺」現象的問題。

推理時搜索（inference time search）作為一種提升響應質量的有效方法，已在大型語言模型中展現出巨大潛力。

O1和QwQ等大語言模型通過在推理階段在語言空間中進行搜索得到更好的回答，在數學和代碼等任務中展現了遠超越其他模型的卓越性能。

那麼，我們能否同樣通過推理時搜索來提升多模態視覺語言模型的響應質量，並減少響應中的幻覺呢？答案是是的。

來自馬里蘭大學和微軟的研究團隊提出了視覺價值模型（Vision Value Model, VisVM），通過精確控制搜索過程來顯著提高模型在視覺任務中的表現。

論文地址：https://arxiv.org/abs/2412.03704

項目頁面：https://si0wang.github.io/projects/VisVM/

項目代碼：https://github.com/si0wang/VisVM

VisVM是一種價值網絡，可以通過對逐步生成描述性標題提供獎勵信號來指導視覺語言模型（VLM）在推理時的搜索。

模型訓練

VisVM首先使用VLM自身生成多個多樣化的響應，並將這些響應按照句子維度拆分成的sentence pair。

對於每一個current sentence使用CLIP model計算這句話和對應圖像的cosine similarity作為reward，最後構成< current sentence, reward，next sentence, Image>的四元組作為VisVM的訓練數據。

VisVM使用強化學習中的時序差分學習（Temporal Difference learning）作為損失函數進行訓練。這使得VisVM不僅可以評估當前句子與圖像之間的匹配程度，還可以預測當前句子如何影響未來句子的生成，為搜索提供一個長期價值信號。

VisVM引導下的推理階段搜索：

在訓練好VisVM之後，作者使用VisVM作為獎勵信號來逐步精細化推理過程。這一過程包括以下幾個步驟：

1. 生成多個句子候選：首先，模型會生成多個可能的句子，作為響應的候選。

2. 通過VisVM進行評估：接下來，利用VisVM對這些候選句子進行綜合評估，考察其與圖像內容的匹配度以及對未來生成句子的潛在影響（句子中包含的幻覺，細緻程度等）。

3. 選擇最佳句子：根據VisVM的評估，從候選中挑選出最優的句子來繼續生成。

相比於直接使用只考慮當前句子與圖像匹配程度的clip分數作為獎勵信號進行搜索，VisVM可以進一步通過考慮後續生成的句子中的潛在幻覺來預測長期價值，使得VisVM能夠避開具有更高幻覺風險的響應候選，並生成不易產生幻覺且更詳細的圖像描述。

通過這種迭代的推理過程，VLM能夠構建出完整且高質量的響應序列，有效減少信息遺漏和幻覺錯誤，顯著提升模型的應用性能。

實驗

研究人員採用LLaVA-Next-Mistral-7B作為實驗的基礎模型，通過在其encoder的最後一層添加一個線性層作為value head，構建了VisVM並基於這個結構使用上文中構造的數據集與損失函數進行訓練。

在後續的實驗中，均使用LLaVA-Next-Mistral-7B作為base model用於生成響應。

研究人員首先評估了使用不同解碼方式生成的響應質量，作者從COCO2017數據集中采樣了1000個圖像，並與llava detailed description 數據集中用於圖像描述的9個prompt進行了隨機匹配作為測試集用於生成圖像藐視。

分別使用人類評估和GPT-4o評估，將VisVM引導的搜索與其他常規方法如CLIP-PRM指導搜索、Best-of-N選擇和貪婪解碼得到的圖像描述進行了比較。

結果表明VisVM在生成圖像描述時不僅細節更為豐富，產生的幻覺也大幅減少，其生成的描述性內容更加受到evaluator的青睞。

尤其是在人類作為評估者的情況下，VisVM引導搜索得到的圖像描述相比於其他三個方法分別取得了66.0%, 63.5%和74.0%的獲勝比率。

例如，在描述這個場景時，VisVM引導的搜索甚至可以描述出擋風玻璃上的水滴擋住了綠色指示牌，這種細節在人類標註的時候甚至都難以察覺。展示了視覺價值模型對於細節描述的強大能力。

在現有幻覺的benchmark中，研究人員在VLM的inference階段使用了非搜索方式生成響應用於評估。

在CHAIR和MMHal兩個用於測試VLM幻覺的benchmark上VisVM引導的搜索取得了顯著優於其他方法的效果，展示出減少VLM生成響應中的幻覺的強大能力

並且，作者還進一步探索了了VisVM引導搜索的scaling law，結果發現無論是採用VisVM引導的搜索還是CLIP-PRM引導的搜索，隨著搜索步驟大小的增加，模型的性能都會逐步提升。這一現象證明了擴大推理時間的計算量能夠顯著增強VLM的視覺理解能力。

特別值得注意的是，隨著步驟大小的增加，VisVM引導搜索的性能提升速度更快，使得兩種方法之間的性能差距不斷擴大。VisVM在達到與CLIP-PRM相當的性能時，其計算效率幾乎是後者的兩倍。

通過擴大搜索步驟，VisVM不僅能更快地達到理想的性能，還能以更低的計算成本實現，這在提升模型處理複雜視覺任務時尤為重要。

基於VisVM強大的減少幻覺的能力，作者使用使用LLaVA-NEXT-Mistral-7B作為基礎模型，並利用VisVM作為獎勵信號，搜索生成高質量的圖像描述作為監督微調（SFT）數據，對LLaVA-NEXT-Mistral-7B進行訓練。

在九個理解和幻覺基準上的測試表明，VisVM引導的自我訓練使LLAVA-next-7B的性能平均提升了10.8%，相比於其他搜索方法得到的圖像描述作為訓練數據提升顯著。

特別是在提升了視覺理解能力後，VLM的reasoning能力也有所提高，例如MMMU和MathVista兩個benchmark，該結果進一步展示了VisVM搜索得到的圖像描述質量之高。

此外，這也揭示了VisVM在自我訓練框架中的應用潛力，僅通過在語言空間中進行高質量搜索並進行微調，就能顯著提升原始VLM的視覺理解能力，這一發現為未來VLM的發展提供了新的方向和思路。

參考資料：

https://arxiv.org/abs/2412.03704