AI玩拚圖遊戲暴漲視覺理解力,告別文本中心訓練,無需標註的多模態大模型後訓練範式

在多模態大模型的後訓練浪潮中,強化學習驅動的範式已成為提升模型推理與通用能力的關鍵方向。

然而,大多數現有方法仍以文本為中心,視覺部分常被動地作為輔助信號輸入。相比之下,我們認為在後訓練階段重新審視視覺自監督學習的潛力,設計以視覺為中心的後訓練對於增強多模態大模型對於視覺信息本身的細粒度深入理解也同樣至關重要。

為此,來自MMLab@南洋理工大學的最新論文《Visual Jigsaw Post-Training Improves MLLMs》提出了一種全新的針對多模態大模型後訓練任務-Visual Jigsaw

它將經典的自監督拚圖任務重新設計為多模態大模型後訓練階段的核心目標,讓模型在不依賴額外標註、也無需視覺生成模塊的情況下,顯式強化自身的視覺感知與理解能力。在圖片,影片,和3D三種視覺模態下都驗證了其有效性。

Visual Jigsaw 方法簡介

Visual Jigsaw可以看作是一類通用的對於視覺信息的排序重建任務。給定某種視覺模態的數據(圖片,影片,3D),對其進行特定的劃分並隨機打亂順序,獲得一組子元素作為拚圖塊。模型的目標是重構視覺信息,預測出它們的正確順序,並以文字的形式輸出對應的排列順序。整個訓練過程採用強化學習算法GRPO來優化。

Visual Jigsaw有對應的GT可以直接驗證,團隊設計了一個分級獎勵機制:預測完全正確時獎勵為1;若部分位置正確,則按照正確比例給獎勵,並乘上摺扣係數來防止模型過度依賴部分匹配;若輸出不是有效的排列,則獎勵為0。

對於不同視覺模態,具體的Visual Jigsaw任務設計如下

Image Jigsaw:圖片在2D空間上被劃分為 個相同大小的子圖,打亂後模型需恢復正確的空間順序。

Video Jigsaw:影片在時間維度上被分割成等長的影片片段,模型需重建原始的時間順序。 

3D Jigsaw:從RGB-D圖像中采樣多個深度點,在圖片中標註對應點的位置和打亂後的序號,要求模型恢復由近到遠的深度次序。

實驗結果

通過在多種圖像、影片和3D模態上分別驗證了 Visual Jigsaw的有效性:

Image Jigsaw

經過image jigsaw 的訓練,模型在三類vision-centric的基準上都帶來了穩定提升:

1)細粒度感知與理解,2)基於單目圖像的空間感知和理解,3) 組合式視覺理解與推理。

結果表明,在多模態大模型中引入image jigsaw的後訓練,能顯著增強其感知能力和細粒度視覺理解能力,而這恰恰是現有以推理為主的後訓練策略所欠缺的。

這種提升來源於拚圖任務本身的要求——模型必須關注局部 patch 的細節、推理整體空間佈局,並理解不同 patch 之間的關係,這些都直接促進了細粒度、空間和組合式的理解。

Video Jigsaw

經過video jigsaw 的訓練,模型在各類通用影片理解基準上均表現出穩定的提升。該方法整體上增強了模型對影片的感知與理解,並且在需要時間維度推理和時間方向性理解的任務(如 AoTBench)上提升尤為顯著。

同時,在CVBench上的大幅度提升也驗證了模型在跨影片理解與推理上的增強。這表明,影片拚圖任務能夠促使模型更好地捕捉時間連續性、理解影片間的關聯、推理方向一致性,並最終提升對影片的整體和通用理解能力。

3D Jigsaw

經過3D Jigsaw的訓練,模型在各類3D基準任務上都取得了顯著提升。最突出的提升出現在與深度估計直接相關的 DA-2K 上,這是深度排序預訓練任務的直接體現。但更重要的是,在廣泛的其他任務上也觀察到了一致的提升,包括單視角基準(如 3DSRBench、OmniSpatial)、多視角基準(如 ViewSpatial、All-Angles),以及第一人稱影片基準(如 VSI-Bench)。這些結果表明,該方法不僅讓模型掌握了深度排序這一特定技能,同時也有效增強了其整體的三維空間感知與推理能力。

結語

Visual Jigsaw提供了一種以視覺為中心的輕量、可驗證、無需標註的新型自監督後訓練範式,為 MLLMs 的視覺感知注入了全新活力。團隊希望這一工作不僅展示了視覺拚圖任務的潛力,更能啟發學界設計更多聚焦視覺信息本身的自/弱監督任務,讓多模態大模型能夠更好地感知和理解各類視覺信息。

論文鏈接:https://arxiv.org/abs/2509.25190

項目主頁:https://penghao-wu.github.io/visual_jigsaw/

數據和模型HF鏈接:https://huggingface.co/collections/craigwu/visual-jigsaw-68d92d6aca580f3dc7e3cf36

代碼倉庫鏈接:https://github.com/penghao-wu/visual_jigsaw

本文來自微信公眾號「量子位」,作者:VisualJigsaw團隊,36氪經授權發佈。