智源發佈原生多模態世界模型Emu3

10月22日 22:49 新浪網 news-china-auto-hilite

據智源研究院，下一token預測已在大語言模型領域實現了 ChatGPT 等突破，但是在多模態模型中的適用性仍不明確，多模態任務仍然由擴散模型(如Stable Diffusion)和組合方法(如結合 CLIP視覺編碼器和LLM)所主導。

2024年10月21日，智源研究院正式發佈原生多模態世界模型Emu3。該模型只基於下一個token預測，無需擴散模型或組合方法，即可完成文本、圖像、影片三種模態數據的理解和生成。

Emu3在圖像生成、影片生成、視覺語言理解等任務中超過了 SDXL 、LLaVA、OpenSora等知名開源模型，但是無需擴散模型、CLIP視覺編碼器、預訓練的LLM等技術，只需要預測下一個token。

Emu3提供了一個強大的視覺tokenizer，能夠將影片和圖像轉換為離散token。這些視覺離散token可以與文本tokenizer輸出的離散token一起送入模型中。與此同時，該模型輸出的離散token可以被轉換為文本、圖像和影片，為Any-to-Any的任務提供了更加統一的研究範式。而在此前，社區缺少這樣的技術和模型。

此外，受益於Emu3下一個token預測框架的靈活性，直接偏好優化(DPO)可無縫應用於自回歸視覺生成，使模型與人類偏好保持一致。

Emu3研究結果證明，下一個token預測可以作為多模態模型的一個強大範式，實現超越語言本身的大規模多模態學習，並在多模態任務中實現先進的性能。通過將複雜的多模態設計收斂到token本身，能在大規模訓練和推理中釋放巨大的潛力。下一個token預測為構建多模態AGI提供了一條前景廣闊的道路。