智源發佈原生多模態世界模型Emu3

據智源研究院,下一token預測已在大語言模型領域實現了 ChatGPT 等突破,但是在多模態模型中的適用性仍不明確,多模態任務仍然由擴散模型(如Stable Diffusion)和組合方法(如結合 CLIP視覺編碼器和LLM)所主導。

2024年10月21日,智源研究院正式發佈原生多模態世界模型Emu3。該模型只基於下一個token預測,無需擴散模型或組合方法,即可完成文本、圖像、影片三種模態數據的理解和生成。

Emu3在圖像生成、影片生成、視覺語言理解等任務中超過了 SDXL 、LLaVA、OpenSora等知名開源模型,但是無需擴散模型、CLIP視覺編碼器、預訓練的LLM等技術,只需要預測下一個token。

Emu3提供了一個強大的視覺tokenizer,能夠將影片和圖像轉換為離散token。這些視覺離散token可以與文本tokenizer輸出的離散token一起送入模型中。與此同時,該模型輸出的離散token可以被轉換為文本、圖像和影片,為Any-to-Any的任務提供了更加統一的研究範式。而在此前,社區缺少這樣的技術和模型。

此外,受益於Emu3下一個token預測框架的靈活性,直接偏好優化(DPO)可無縫應用於自回歸視覺生成,使模型與人類偏好保持一致。

Emu3研究結果證明,下一個token預測可以作為多模態模型的一個強大範式,實現超越語言本身的大規模多模態學習,並在多模態任務中實現先進的性能。通過將複雜的多模態設計收斂到token本身,能在大規模訓練和推理中釋放巨大的潛力。下一個token預測為構建多模態AGI提供了一條前景廣闊的道路。