多模態版DeepSeek-R1:評測表現超GPT-4o,模態穿透反哺文本推理能力!北大港科大出品,已開源
Align-DS-V團隊投稿
量子位 | 公眾號 QbitAI
如果把DeepSeek-R1震撼矽谷的深度推理表現,運用到多模態場景,那會怎樣?
此前DeepSeek自家的Janus-Pro-7B沒有結合推理能力,但現在,國內有研究團隊先做到了——
基於自研全模態框架Align-Anything,北大聯合港科大團隊推出多模態版DeepSeek-R1:
Align-DS-V,它在部分視覺理解表現評測集上超越GPT-4o。
當圖文結合地詢問它減肥時更適合喝哪一款飲品時,Align-DS-V精確地指出圖中飲品的款數、飲品名稱,以及減脂時最適合飲用的是「低糖原味豆奶」。
不僅如此,它還額外指出,圖中的原味豆奶同樣適合減脂期飲用。

更重要的是,在讓DeepSeek-R1「長眼睛」的過程中,研究人員還發現了模態穿透對於模型文本模態推理能力的提升效果。
具體來說,團隊在DeepSeek-R1的全模態化嘗試中發現,多模態訓練之後,模型不僅在文本模態任務上的表現有所提升,在科學任務、複雜推理、數學代碼等方面的表現亦均有提升。
尤為顯著的是,在ARC-Challenge(5-shot)上,成績從單模態的21.4提升到了多模態的40.5。

基於此,團隊認為當下多模態大模型已具備強大的跨模態穿透與融合的感知能力,能夠通過結合世界知識與上下文學習能力,實現多種模態(如圖像、文本、音頻、影片等)的高效推理與協同輸出。
通過深度融合世界知識,模型在文本模態下的推理邊界得以拓展。
全模態對齊Align-Anything,湧現模態穿透能力
人類在日常生活中接收到的信息往往是全模態的,如何將「強推理慢思考」從單文本模態進一步推廣到更多模態甚至是全模態場景,不可否認是大勢所趨。
在此基礎上,如何將全模態大模型與人類的意圖相對齊,也是一個極具賽前分析性且至關重要的挑戰。
在單一文本模態場景下,許多複雜推理任務可以通過基於規則的獎勵提供監督信號,作為人類意圖和偏好的載體。
而當從文本模態擴展到多模態甚至全模態場景下時,許多問題會隨之浮現:
-
隨著模態數量增加,傳統二元偏好或規則獎勵是否能夠捕捉人類意圖的多元偏好或層次化偏好?
-
當多模態擴展到全模態空間,模態交互更加複雜,RL方法需要做哪些改進?
-
不同模態下,模態特有與模態共有的信息如何統一在獎勵信號建模中?
-
……
輸入輸出空間的分佈更加廣泛,幻覺現象加劇,這都使得全模態對齊變得更加複雜。
為進一步促進多模態對齊研究,研究團隊提出了Align-Anything框架,致力於使全模態大模型與人類意圖和價值觀對齊。
這裏的全模態包括文生文、文生圖、文圖生文、文生影片等任意到任意的輸入與輸出模態。
總體而言,框架設計了具備高度的模塊化、擴展性以及易用性的對齊訓練框架,支持由文本、圖片、影片、音頻四大基本模態衍生出的任意模態模型對齊微調,並驗證了框架對齊算法的實現正確性。
該框架具有以下特點:
-
高度模塊化:對不同算法類型的抽像化和精心設計的API,用戶能夠為不同的任務修改和定製代碼,以及定製化模型與數據集註冊等高級擴展用法;
-
支持跨任意模態模型的微調:包含對如LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion等跨越多種模態生成與理解的大模型的微調能力;
-
支持不同的對齊方法:支持任意模態上的多種對齊算法,既包括SFT、DPO、PPO等經典算法,也包括ORPO, SimPO和KTO等新算法;
-
支持多種開、閉源對齊評估:支持了30多個多模態評測基準,包括如MMBench、VideoMME等多模態理解評測,以及如FID、HPSv2等多模態生成評測。

也就是說,Align-Anything團隊從數據集、算法、評估以及代碼庫四個維度貢獻了開源力量:
-
數據:200k包含人類語言反饋和二元偏好的數據集,包含圖、文、影片、語音全模態。
-
算法:從語言反饋中學習的合成數據範式,大幅提升RLHF後訓練方法的表現。
-
評估:面向全模態模型的模態聯動與模態選擇評估。
-
代碼庫:支持圖、文、影片、語音全模態訓練與評估的代碼框架。
同時,為了促進對全模態對齊模型的進一步開發,研究團隊發佈首個全模態人類偏好數據集Align-Anything。
與專注於單個模態且質量參差不齊的現有偏好數據集不同,Align-Anything提供了高質量的數據,包括了輸入和輸出中的任何模態。
這旨在提供詳細的人類偏好註釋以及用於批評和改進的精細語言反饋,從而實現跨模態的全面評估和改進。

多模態場景加持的Deepseek-R1:Align-DS-V
接下來,團隊開始攻堅多模態場景加持下的Deepseek-R1會有怎樣的表現。
借鑒LLaVA的訓練思路,通過訓練投影層(Projector),Align-Anything團隊將視覺編碼器(Vision Encoder)輸出映射到語言表徵空間,從而擴展了DeepSeek-R1的視覺模態。
在Align-Anything庫中,團隊開源了訓練的全部流程。
首先,基於Deepseek-R1系列模型,構建「文本 + 圖片-> 文本」架構。例如以下腳本:

在新的多模態模型中,輸入圖像Xv經過視覺編碼器提取特徵,生成中間表示Zv,然後通過投影層進行映射,得到視覺表徵Hv。
與此同時,語言指令Xq經過處理,生成語言表徵Hq。
這些視覺和語言特徵共同輸入到語言模型,語言模型將兩種信息結合進行推理,最終生成文本回覆。
在構建好模態擴展的DeepSeek-R1架構後,具體的訓練分成兩個步驟:
第一步,凍結除投影層Projector外所有模型參數,對投影層Projector進行預訓練,使得投影層Projector能夠將經過視覺編碼器的視覺表徵映射到語言表徵空間。

第二步,同時微調投影層Projector和大語言模型,激發語言模型多模態推理能力。

訓練成功後,研究人員將多模態版本的DeepSeek-R1系列模型命名為Align-DS-V。
以下是Align-DS-V在不同視覺理解表現評測集上的表現(對比GPT-4o)。
可以看到,Align-DS-V在部分評測集(如llava-bench-coco)上的表現超過了GPT-4o。

除此之外,更重要的是團隊還發現了模態穿透對於模型文本模態推理能力的提升效果。
具體來說,團隊在DeepSeek-R1的全模態化嘗試中發現,經過多模態訓練之後,模型在文本模態任務上的表現有所提升,在科學任務、複雜推理、數學代碼等方面的表現均有提升。
尤為顯著的是,在ARC-Challenge(5-shot)上,成績從單模態的21.4提升到了多模態的40.5。

由此團隊認為,基於「慢思考強推能力」的持續自我進化,模型能力已經突破了單一模態的局限性,跨模態穿透深度顯著提升。
通過深度融合世界知識,模型在文本模態下的推理邊界得以拓展。
為驗證全模態推理大模型在垂域應用的能力,研發團隊對Align-DS-V面向進行香港地區價值觀的本地化對齊,令Align-DS-V適應粵語/英語/普通話混合語言輸入。
這一過程深度整合港鐵動態、颱風預警及八達通繳費等香港本土生活場景。
在面對包含繁體字的圖文數學問題時,Align-DS-V能夠準確聯動圖文模態信息。
如圖所示,它逐步使用嚴密的數學推導展示求解過程,展示了被應用於教育等行業的可信前景。

北大&港科大聯合開發、開源、維護
Align-Anything和Align-DS-V由北京大學聯合香港科技大學開發。
目前,Align-Anything框架,以及DeepSeek-R1的多模態版本Align-DS-V,均已開源,團隊將攜手對其進行長期維護(文末附地址直通車)。
聯合研究團隊中的北京大學對齊團隊,專注於人工智能系統的安全交互與價值對齊。
團隊指導老師為北京大學人工智能研究院助理教授楊耀東。
聯合研究團隊中的香港生成式人工智能研發中心(HK Generative AI R&D Center,HKGAI)成立於2023年10月,致力於推動香港人工智能生態系統的發展。
由香港科技大學首席副校長,郭毅可院士領銜擔任中心主任。

量子位瞭解到,在Align-DS-V的基礎上,北大-靈初聯合實驗室已經著手在VLA(Vision Language Action Model,視覺語言動作模型)領域方面做更深度的探索。
靈初正在研發的VLA模型,在大腦端利用多模態大模型進行對齊和微調,並向小腦端的控製器輸出action token;而後,小腦端的控製器再根據輸入的token和其他模態的信息,輸出具體的機器人控制指令。
這兩個過程都需要運用針對多模態大模型的後訓練(post-training)和微調(fine-tuning)技術。
北大-靈初聯合實驗室表示,Align-DS-V的多模態強推理能力是VLA模型大腦端的核心,接下來的研究訓練計劃,是利用多模態推理模型的跨模態穿透能力,實現action穿透,最終實現真正高效的VLA模型。
同樣的後訓練技術也可以應用於小腦端控製器的微調,實現更高的成功率、泛化性和魯棒性。
Align-Anything框架開源地址:
https://github.com/PKU-Alignment/align-anything
Align-DS-V開源地址:
https://huggingface.co/PKU-Alignment/Align-DS-V