全球首個多模態世界模型Emu3來了！智源王仲遠：為多模態大模型訓練範式指明新方向｜鈦媒體AGI

智源Emu3生成的 AI 影片案例

全球首個原生多模態世界模型來了。

鈦媒體App獲悉，10月21日，北京 AI 領域新型非營利研究機構北京智源人工智能研究院（以下簡稱「智源研究院」，BAAI）發佈採用了自回歸（autoregressive）技術路線的原生多模態世界模型Emu3，並同步上線技術文檔、開源關鍵技術等供產業界進一步探索。

據悉，Emu3參數量為8B（80億），只基於下一個token（輸入數據的基本單位）預測，無需擴散模型或組合式方法，把圖像、文本和影片編碼為一個離散空間，在多模態混合序列上從頭開始聯合訓練一個Transformer模型。該模型實現了影片、圖像、文本三種模態的統一理解與生成，傳統模型則只能處理一種類型。而在圖像生成、視覺語言理解、影片生成任務中，Emu3的表現超過了圖像生成模型Stable Diffusion SDXL 、視覺語言理解模型LLaVA、影片生成模型OpenSora等國內外主流開源模型，展示了國際領先的 AI 技術。

智源研究院院長王仲遠向鈦媒體App等表示，Emu3證明了下一個token預測能在多模態任務中有高性能的表現，這為構建多模態AGI提供了廣闊的技術前景。Emu3有機會將基礎設施建設收斂到一條技術路線上，為大規模的多模態訓練和推理提供基礎，這一簡單的架構設計將利於產業化。未來，多模態世界模型將促進機器人大腦、自動駕駛、多模態對話和推理等場景應用。

王仲遠強調，行業一定會有一個統一的多模態模型。

「智源會堅持做原始創新。我們認為原生大一統的多模態大模型，是整個大模型發展技術路線上必須要去攻克的一個技術方向。Emu3是全球首個基於該技術路線的原生多模態世界模型，並面向國際社區進行了開源。」王仲遠坦言，中國在大模型的技術路線上要有自己的核心技術，而Emu3能為多模態大模型訓練範式指明新的方向。

圖像文本影片大一統，王仲遠：原生多模態世界模型處在「GPT-3時刻」

智源研究院成立於2018年11月，是全球最早開展 AI 大模型的中國非營利性新型研究機構，也是北京市繼腦科學與類腦研究中心、量子信息科學研究院之後，著力建設的又一個重要的新型研發機構。

智源研究院為了加快 AI 前沿技術落地，圍繞大模型、類腦脈衝芯片、認知知識圖譜、安全人工智能、疾病腦電、智能信息處理等領先技術的成熟化、工程化建立創新中心，推動 AI 原創成果轉化及產業化。

2024年2月，智源研究院宣佈王仲遠博士擔任新任院長，全面負責研究院各項工作。在此之前，王仲遠在 AI 學術及產業領域深耕長達15年以上，曾在微軟、Facebook（現Meta）、美團、快手等多家頭部公司任職過。

Emu3所使用的自回歸技術路線的核心思想是利用序列數據中的上下文依賴性來預測未來的數據點。該類型模型中，不同模態數據共享同一套參數，可實現跨模態的關聯和生成，無需人工設計的特徵工程。同時因自回歸技術路線的特點，在生成數據時模型必須按順序進行，限制了並行計算的能力，導致生成速度較慢。也會遇到長期依賴問題，即模型難以捕捉序列中較遠距離的依賴關係。

所謂「世界模型」是目前技術流派中難度最高的一種，其特點在於讓機器能夠像人類一樣對真實世界有一個全面而準確的認知，不僅包括對事物的描述和分類，還包括對事物的關係、規律、原因和結果的理解和預測，從而進行推理和決策，而「世界模型」也被認為是通往AGI的最優解。

同期，Google與麻省理工學院（MIT）何愷明團隊聯合推進了一個新研究項目，推知名為Fluid的圖像自回歸模型，採用連續token生成方式和隨機順序生成單張圖片；圖靈獎得主、Meta首席AI科學家楊立昆（Yann LeCun）領導的Meta AI團隊曾推出V-JEPA世界模型，一種通過觀看影片來教機器理解和模擬物理世界的方法；李飛飛提到的所謂「空間智能」也是世界模型的一種技術方向；而在國內，智源研究院也率先推出自回歸路線多模態世界模型Emu3。

王仲遠認為，Emu3的發佈意味著大模型能夠通過更多維度的數據來理解、學習真實世界。

具體來看，根據智源研究院9月底發佈的技術報告，Emu3模型參數量為80億，包括了文字、圖片和影片原始數據，並將視覺數據Token化從而在統一的架構下進行訓練，可以生成文字、多樣化風格的圖片和最長為5秒的影片，並且能持續預測下一個Token詞元。

評測結果顯示，英文提示詞下，該模型圖片生成得分為70.0分，領先於Stability AI於2023年7月推出的SDXL的66.9，落後於OpenAI於2023年8月推出的DALL E3的73.4分；文生影片得分則為81.0分，領先於今年6月開源的OpenSora 1.2的79.6分；語言能力，技術報告未提供相關測評數據，主要由於Emu3語言類數據佔比小，參數遠小於市面上其他的語言大模型，因此目前語言能力並不在第一梯隊，但Emu3模型詞彙量達184622，上下文長度達到131072，具有很多語言模型的技術能力。

王仲遠認為，目前採用自回歸架構構建統一的多模態世界模型仍處在應用爆發前的「GPT-3時刻」，如今的多模態領域還處於非常早期，因此Emu3只是在前沿技術層面證明了該路線的可能性，未來仍需和產業界合作進一步擴大訓練規模，並將Emu3推向大眾能夠觸及的應用。

算力、數據、生態仍是當前多模態世界模型的挑戰

事實上，近期關於「OpenAI研發的 AI 模型技術是否是未來通用人工智能（AGI）的方向」爭議頗多。其中，蘋果公司內部員工承認「生成式AI技術落後競品兩年以上」，外部直接質疑OpenAI o1的AI推理能力較差，無法解決部分小學數學題內容；而楊立昆則直言，今天的AI大模型比貓還笨，甚至認為Sora並不能真的理解物理世界，這樣的影片生成與世界模型的因果預測仍然存在巨大差異。

對此，王仲遠向鈦媒體App坦言，他部分認同楊立昆的說法，確實需要多模態世界模型通往AGI目標，但不一定要借鑒生物大腦設計多個可以類比的自主性 AI 系統子功能模塊這種方案。

「楊立昆提的關於現在大模型比貓還笨，很重要的一個論點是他認為純語言模型無法抵達AGI。我們也認為純語言模型是不夠的，因為僅從文本層面無法完全理解世界。事實上，一些科學家，包括謝賽寧博士，在嘗試通過視覺信號直接觸發智能能力的技術路線。語言是重要的，但只有語言是不夠的。如果要理解感知、推理這個世界，首先要看得到、感覺到世界，才能把不同模態的信息進行交互理解。這恰恰是Emu3統一多模態技術路線的重要貢獻。但另一方面，對於楊立昆提出來仿照人腦設計自主AI系統模塊，我認為應該永遠鼓勵和支持不同的技術路線的探索，統一多模態世界模型就是其一。」王仲遠表示。

Keras之父Francois Chollet也認為，大模型通過提示使用時，無法理解與訓練數據中情況大相逕庭的情況，因此不具備通用智能，而大模型的主要作用是作為實際AGI的知識和程序存儲，它們是一種記憶形式，而智能不僅僅是記憶。

不過，當前Emu3這種原生多模態世界模型依然存在諸多「局限性」，比如整個訓練數據規模不夠大，低於Emu2的370億參數和人類的860萬億-1000萬億神經元規模，使得語言效果無法達到GPT-o1水平；算力規模不夠大，目前智源的AI異構算力平台與行業最大規模的算力集群規模依然有一定距離；另外，當前世界模型路線沒有生態和實踐者，亟待更多企業和大公司進行商業落地，從而驗證這條路線的正確性。

「我們需要更多資源，例如，Emu3參數擴大10倍所需的算力、工程化的能力是指數級增加的，所以需要合作夥伴和我們一起訓練下一代的模型。」王仲遠對鈦媒體App表示。

談及預訓練大模型不再訓練時，王仲遠強調，在技術路線收斂的趨勢下，廠商會更積極地探索模型的落地場景。從樂觀的角度來看，說明基礎大模型已經達到一定的能力水平。另從謹慎的角度來說，訓練轉推理說明僅靠市場驅動，會令廠商陷入「追隨者」的境地，不利於原始技術創新。

「我們一直強調智源的定位，是做原始創新，做企業不願意做，高校做不了的事情，所以這使得我們必須做下一代 AI 技術探索，做未來3年-5年可能被行業認可的技術路線。在多模態方向上，智源需要為整個行業指明一個方向。」王仲遠稱。

以下是智源研究院團隊與鈦媒體App等部分對話交流整理：

問：相比Emu 2，Emu3模型參數量減少，幻覺會不會更嚴重？

智源研究院：首先簡單介紹Emu3 和 Emu 2的技術區別。Emu2 視覺用的還是embedding 的方式，Emu3 變成了離散的token。Emu1，Emu 2 是概念驗證加探索迭代。當時用了預訓好的語言模型和擴散的decoder，快速驗證統一的生成式是否能走通，智源是國際上最早做的探索。因為不需要訓練語言模型，基於已有的，成本會比較低。Emu3我們是完全從頭訓練，是為影片圖像文本原生多模態設計的。

問：Emu3影片好像最多 5 秒 24 的FPS，這與其他預測模型的區別？

智源研究院：下一個 token 天然的好處是本身就可以續寫，看到前面的 token預測後面的token，可以無限續下去。只是如果在一個場景續寫，看到的長影片都是一個場景，意義不大。現在整體的續寫能力還沒有突破長的有情節的影片生成。Emu3這套框架的獨特優勢就是因果性，可以基於前面發生的事情預測後面發生的事情，而不是基於一堆噪聲去想像。Emu3現在可以 5 秒一直續寫。

問：有沒有計劃在科學計算上的應用？

智源研究院：AI for Science 多模態是非常必須的。GPT 3 到ChatGPT 花了兩年半的時間，Emu3好比當年的 GPT3，Emu3是一個中間的milestone（里程碑），下一個期待類似 ChatGPT 的的milestone。

問：智源未來三到五年之內的重點是什麼？

智源研究院：繼續研發原生多模態世界模型Emu系列，解決更大規模的數據、算力以及訓練。統一多模態基座大模型是人工智能進入到物理世界非常重要的基座。多模態具身大腦也是研究院正在做的研究。今年我們也看到了盧保的物理學獎給了Hinton教授，化學獎是給了DeepMind團隊。AI for Science 也是智源非常關注的重要研究方向。