多模態也做到了強推理,工業界首個開源的R1V,讓視覺思考進入o1時代
DeepSeek-R1 問世後,我們一直在期待能「強推理、慢思考」的大模型進化成多模態模式。如果能在視覺等各領域複刻強化學習(RL)在文本上的突破,AI 應用勢必會將更多領域推入新的範式。
毫無疑問,這也是眾多科技公司正在探索的方向。
3 月 18 號,崑崙萬維正式發佈 Skywork R1V(以下簡稱 R1V)系列模型,實現了 SOTA 級別的視覺推理和強大的通用推理能力。隨著新模型的到來,崑崙萬維成為了國內第一家開源多模態思維鏈推理模型的企業。
目前,崑崙萬維已經開源了 R1V 的模型權重和技術報告。
- Hugging Face 地址:https://huggingface.co/Skywork/Skywork-R1V-38B
- Github 地址:https://github.com/SkyworkAI/Skywork-R1V
- 技術報告地址:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
具體表現如何呢?從多項基準測試來看,R1V-38B 相比較文本推理模型,已經在數學推理、代碼生成等任務中達到了領先水平,在部分任務上接近了更大尺寸的閉源模型。相比較傳統多模態模型(如 OpenAI 4o、Claude 3.5 Sonnet),R1V 的推理能力更是遙遙領先,相比多模態開源大模型 DeepSeek V3 也有所提升。
在推理能力方面,R1V-38B 同樣可以達到頂尖水平。在權威的 MATH500 和 AIME 數學推理基準測試中,R1V 分別取得了 94.0 和 72.0 的高分,並在邏輯推理和數學問題求解上展現出了人類專家級水準,從而在行業內眾多主流模型中脫穎而出。
而在視覺能力方面,R1V 成功實現了強文本推理能力的多模態遷移,在視覺推理任務上表現出色,憑藉著創新的跨模態遷移技術與優化框架,R1V 在 MMMU 與 MathVista 等視覺推理基準中分別取得了 69 和 67.5 的成績,不僅超越了多個開源競品模型,更達到了與更大規模閉源模型媲美的水準。
更值得關注的是,R1V 成為全球範圍內首個在數學推理能力上接近 OpenAI o1 的開源多模態模型。
最近一段時間,DeepSeek 的突破讓我們看到了在大模型上引入強化學習的潛力。現在,崑崙萬維的實踐似乎也已經給多模態打開了方向。
多模態喜獲「強推理」,AI 應用格局打開
崑崙萬維表示,R1V 視覺推理模型可以同時處理文本與視覺信息,擁有強大的跨模態推理能力,可輕鬆應對複雜的邏輯推理、數學問題、科學分析以及醫學影像診斷等場景。
因為多模態 + 強推理的能力,大模型「睜開了眼睛」,因此也拓展了一大堆新的應用方向。
我們蒐羅了一些不同學科(包括數學、化學、醫學等)的題目,對 R1V 的解題推理能力來了一波考察。
先來一道 2025 考研數學題目:

很快,R1V 的完整解題思路和正確答案就展現了在我們面前:

接著讓 R1V 分析下圖化學分子式描述的是哪種立體幾何構型:

這類題目要求多模態推理模型熟練、準確地判斷、區分各類化學分子圖,經過了抽絲剝繭的推理過程,R1V 給出了正確答案。

R1V 的知識面還不止於此,它甚至還略懂醫學影像,看看它是如何診斷這張 CT 圖片的。當然,分析結果僅供參考,最終的診斷和治療還是要交給醫生,由他們根據實際情況來做出。

最後,我們還測試了 R1V 的其他視覺推理能力,比如柱狀圖的數值分析:
可見,無論是數學等不同學科的一般性問題,還是一些更需要「眼力見」的視覺場景,R1V 都可以應付自如。
三大核心技術創新,讓開源視覺思考模型成功「上位」
為什麼到了 R1V 的程度,多模態上的強推理就能跑通了?在 R1V 發佈的技術報告中,我們可以瞭解到其中的技術創新。
視覺多模態的特殊性決定了其推理與數學、邏輯等自然語言推理的不同,前者要解決跨模態對齊等一系列挑戰。儘管當前的視覺語言模型(VLM)在描述性任務(比如為圖像生成連貫且上下文相關的文本描述)方面表現出色,但它們在幾何證明、科學問答等涉及深度邏輯的多模態任務中仍然不如單模態系統。

圖片來自英偉達博客:https://developer.nvidia.com/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/
對此,學界提出將具有推理能力的語言模型集成到 VLM 中來增強後者的推理能力。雖然這一方案很有潛力,但實現過程中也面臨挑戰。比如,推理任務的獨特性要求在訓練時使用專門的推理格式的數據,然而當前的 VLM 數據集主要由非推理內容組成,即使是一些包含 VLM 思維鏈的示例,往往缺乏高級推理任務所需的複雜性。
此外,VLM 的推理能力提升也依賴多模態表徵學習、知識增強、模塊化架構設計等技術層面的協同進步。顯然,崑崙萬維的 R1V 在這些方面做出了突破。
作為一個 VLM 推理模型,R1V 採用高效的多模態遷移方法,最大程度保留了文本推理能力,同時優化視覺任務表現。同時,R1V 提出通過混合優化策略來加強視覺文本對齊,顯著提升了跨模態集成效率。最後,R1V 引入自適應長度思維鏈蒸餾方法來生成推理數據。
正是有了這三大核心技術的支撐,R1-V 才取得了領先的多模態推理性能。我們接下來一一來解析。
一,高效多模態推理能力遷移。該工作首次提出了利用輕量級 Skywork-VL 視覺投影器,使 R1V 模型實現了無縫多模態適應。這樣一來,無需重新訓練基礎語言模型或視覺編碼器,就能高效地將文本推理能力遷移到視覺任務中,同時將原有優秀的推理文本能力保留了下來。
二,多模態混合式訓練,具體來講是將迭代監督微調(Iterative SFT) 與 DeepSeek-R1 的核心 RL 算法群組(相對策略優化,GRPO)相結合,分階段地對齊視覺 – 文本表徵,達成跨模態任務的高效融合,將跨模態任務的表現提升了一大步。
其中在迭代監督微調階段,對於利用獎勵模型從全部數據中挑選出的高質量數據以及在前序訓練過程中模型未能正確處理的難點數據,進行反復迭代微調,讓 R1V 持續地鞏固自身知識並自我糾錯,穩步提升視覺推理能力。
在GRPO 強化學習階段,不額外引入評判器,僅對 R1V 生成的不同答案進行組內對比學習,最終大幅提升多模態推理的穩定性、精度和泛化表現。
如下為混合優化框架的示意圖,包括了三個細化步驟:基於完整數據集的原始訓練、利用自定義數據的迭代訓練以及強化學習。三個階段共同作用,成為 R1V 多模態推理能力提升的關鍵。

三,自適應長度思維鏈蒸餾(AL-CoTD)。R1V 引入了一種基於視覺 – 文本複雜度的自適應推理鏈長度控制機制,可以對模型的推理過程進行動態優化,在提升推理效率的同時避免模型過度思考。此外結合多階段自蒸餾策略,提升了數據生成與推理過程的質量,確保模型在複雜多模態任務中依然有不俗的表現。
下圖為具體的流程,包括了質量和難度評估模塊(QDAM),從視覺評分和文本評分兩個主要維度來系統地評估圖像 – 文本查詢對;視覺 – 文本集成分析器(VTIA),通過句法和語義分析確定跨模態集成所需要的深度,並根據圖像 – 文本查詢中的模式識別來計算集成評分;動態推理長度控製器(DRLC)以及在此基礎上形成的多階段自蒸餾 pipeline。

除了整體技術方案的優化,R1V 的創新性還特別體現在訓練過程中,通過「三階段方法」將文本端強大的推理能力高效遷移至視覺任務上。
首先是視覺語言表徵的初始對齊。訓練時首先使用輕量級的視覺適配器(MLP)連接視覺編碼器(ViT)與語言模型,在已有的 200 萬條常規多模態數據上進行訓練,使 MLP 初步學習如何將圖像特徵映射至語言空間。這一階段僅訓練 MLP 適配器,在保持視覺編碼器和語言模型的數凍結不變的情況下,快速、高效地達成視覺與語言表徵初步對齊的目的。
其次是推理能力遷移。基於第一階段訓練好的 MLP 適配器,直接將視覺編碼器與原始的強推理語言模型(R1-distilled-Qwen-32B)連接,形成 R1V 視覺推理模型。雖然此時語言模型的參數發生了改變,但得益於語言模型架構的高度相似性和 MLP 的泛化能力,重組後的模型已能表現出一定的視覺推理能力,初始性能即達到了業內同等規模的先進水平。
最後是視覺與文本模態精準對齊,即上面提到的「混合優化框架」,結合迭代監督微調和 GRPO 進一步精準對齊視覺和語言模態表徵。
結果顯而易見,高效的訓練策略帶來了 R1V 視覺推理任務的突破性進展,在跨多學科的不同公開評測基準中達到或超過了現有領先模型的性能,具體可見下表 1(與開源近似尺寸橫向對比)、圖 1 (與開源同等及更大尺寸模型對比)和圖 2 (與開源大尺寸模型以及閉源專有模型對比)。

表 1:與開源近似尺寸模型橫向對比


在開源 R1V 模型並公開方法之後,崑崙萬維希望能夠推動全球範圍內的學術研究與產業應用探索。不僅如此,崑崙萬維 Skywork 團隊正在進行從視覺多模態跨越到全模態的技術探索,將包括「文本、視覺、語音」在內所有環節打通並開源。
為此,該團隊設計了一種在 R1V 模型中靈活擴展語音模態的方式,從而構建了一個全模態思考大模型,不僅在單個模型中同時實現了圖像、影片、語音的全模態理解能力,還在語音和視覺理解評測中取得多項 SOTA 成績。未來將公佈相關評測成績並同樣開源這一全模態思考大模型。
結語
從今年 1 月 DeepSeek-R1 的提出,到人們開始在多模態大模型、甚至自動駕駛的 VLM 中加入 GRPO,僅僅過去了不到兩個月。我們可以看到在這一波開源的浪潮下,AI 領域的發展肉眼可見地再次加速,下一次突破可能已近在眼前。
不過在這股浪潮中,能算得上引領潮流的團隊只是少數。
進入大模型時代之後,崑崙萬維在多模態領域的探索一直引人關注。過去三年,崑崙萬維在音樂大模型、文本大模型和影片模型等方向取得了一系列成績,建立了自己的 AI 產品矩陣,包括懂金融、學術的天工 AI 搜索、全球首個 AI 音樂創作平台 Mureka、AI 短劇平台 SkyReels、AI 社交產品 Linky 等等。
今年 2 月,崑崙萬維發佈世界模型 Matrix-Zero 系列,把探索延伸到了 AI 領域最前沿的方向。在可以模擬物理世界的 AI 模型中,我們可以運行許多實驗和仿真任務,或是完成不同以往的影視創作。再加上今天開源出來的 R1V 大模型,在讓大模型實現多模態強推理之後,AI 面對物理世界獲得了更強大的理解、推理、交互能力。
此舉也彰顯了崑崙萬維在 AI 時代始終秉持的開源初心。過去幾年,這家「All in AGI」的 AI 科技公司在推出前沿大模型及技術的同時,一直通過開源回饋社區與開發者,先後開源了百億級「天工」Skywork-13B 系列、2 千億參數稀疏大模型 Skywork-MoE 和國內首個面向 AI 短劇創作的影片生成模型 SkyReels-V1 等。這些舉措在擴大自身技術影響力的同時,無疑也對開源社區、開發生態和整個 AI 行業的健康發展起到了積極作用。
一面是技術前沿的開拓,一面是更多樣化的整合與落地,崑崙萬維已經形成了「AI 前沿基礎研究 —— 基座模型 ——AI 矩陣產品 / 應用」的產業鏈。
似乎已經可以隱隱聽到 AGI 的腳步聲了。
本文來自微信公眾號「機器之心」(ID:almosthuman2014),作者:杜偉、澤南,36氪經授權發佈。