智源研究院:原生多模態世界模型Emu3發佈, 實現視頻、圖像、文本大一統

新浪科技10月23日下午消息,智源研究院近日宣佈原生多模態世界模型Emu3發佈。該模型實現了視頻、圖像、文本三種模態的統一理解與生成。據悉,Emu3只基於下一個token預測,無需擴散模型或組合式方法,便能把圖像、文本和視頻編碼為一個離散空間,在多模態混合序列上從頭開始聯合訓練一個Transformer,展現了其在大規模訓練和推理上的潛力。

在圖像生成、視覺語言理解、視頻生成任務中,Emu3的表現超過了 SDXL 、LLaVA-1.6、OpenSora等知名開源模型。在圖像生成任務中,人類評估得分Emu3高於SD-1.5與SDXL;在視覺語言理解任務中,12 項基準測試的平均得分,Emu3領先於LlaVA-1.6與LlaVA-1.5;在視頻生成任務中,VBench基準測試得分,Emu3優於OpenSora 1.2。

下一token預測被認為是通往AGI的可能路徑,但這種範式在語言以外的多模態任務中沒有被證明。此前,多模態生成任務仍然由擴散模型(例如 Stable Diffusion)所主導,而多模態理解任務則由組合式的方法(例如 CLIP視覺編碼器與LLM結合)所主導。智源研究院院長王仲遠表示:“Emu3證明了下一個token預測能在多模態任務中有高性能的表現,這為構建多模態AGI提供了廣闊的技術前景。Emu3有機會將基礎設施建設收斂到一條技術路線上,為大規模的多模態訓練和推理提供基礎,這一簡單的架構設計將利於產業化。未來,多模態世界模型將促進機器人大腦、自動駕駛、多模態對話和推理等場景應用。”

目前,智源研究院已將Emu3的關鍵技術和模型開源至國際技術社區。相關技術從業者表示:“對於研究人員來說,Emu3意味著出現了一個新的機會,可以通過統一的架構探索多模態,無需將複雜的擴散模型與大語言模型相結合。這種方法類似於transformer在視覺相關任務中的變革性影響。”(文猛)