國內首個自研MoE多模態大模型，揭秘騰訊混元多模態理解

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯繫報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

以 GPT 為代表的大型語言模型預示著數字認知空間中通用人工智能的曙光。這些模型通過處理和生成自然語言，展示了強大的理解和推理能力，已經在多個領域展現出廣泛的應用前景。無論是在內容生成、自動化客服、生產力工具、AI 搜索、還是在教育和醫療等領域，大型語言模型都在不斷推動技術的進步和應用的普及。

然而，要推動通用人工智能向探索物理世界邁進，第一步便是解決視覺理解問題，即多模態理解大模型。多模態理解讓人工智能能夠像人類一樣，通過多種感官獲取和處理信息，從而更全面地理解和互動世界。這一領域的突破將使人工智能在機器人、自動駕駛等方面取得更大的進展，真正實現從數字世界到物理世界的跨越。

去年 6 月 GPT-4V 發佈，但相較於大型語言模型，多模態理解模型的發展顯得較為緩慢，尤其是在中文領域。此外，不同於大語言模型的技術路線和選型相對確定，業界對於多模態模型的架構和訓練方法的選型還沒有完全形成共識。

大模型從認知空間走向物理世界的發展路徑

近期，騰訊混元推出了基於 MoE 架構的多模態理解大模型。該模型在架構、訓練方法和數據處理方面進行了創新和深度優化，顯著提升了其性能，並能支持任意長寬比及最高 7K 解像度圖片的理解。與大部分多模態模型主要在開源基準測試中進行調優不同，騰訊混元多模態模型更加註重模型的通用性、實用性和可靠性，具備豐富的多模態場景理解能力。在近期發佈的中文多模態大模型 SuperCLUE-V 基準評測中（2024 年 8 月），騰訊混元斬獲國內排名第一，超越了多個主流閉源模型。

方法介紹：MoE 架構

騰訊混元語言大模型，在國內率先採用混合專家模型 (MoE) 架構，模型總體性能相比上一代提升 50%，部分中文能力已追平 GPT-4o，在「時新」問題的回答表現上，數學、推理等能力上均有較大提升。早在今年年初，騰訊混元就將該模型應用於騰訊元寶。

騰訊混元認為，能夠解決海量通用任務的 MoE 架構，也是多模態理解場景的最佳選擇。MoE 能夠更好地兼容更多模態和任務，確保不同模態和任務之間是互相促進而非競爭的關係。

依託騰訊混元語言大模型的能力，騰訊混元推出了基於MoE架構的多模態理解大模型，在架構、訓練方法和數據處理方面進行了創新和深度優化，性能得到顯著提升。這也是國內首個基於MoE架構的多模態大模型。

騰訊混元多模態模型架構示意圖

簡單可規模化

除了採用 MoE 架構外，騰訊混元多模態模型的設計還遵循簡單、合理、可規模化的原則：

支持原生任意解像度：與業界主流的固定解像度或切子圖方法相比，騰訊混元多模態模型能夠處理原生任意解像度的圖片，實現了首個支持超過 7K 解像度和任意長寬比（例如 16:1，見下文例子）圖片理解的多模態模型。
採用簡單的 MLP 適配器：相較於此前主流的 Q-former 適配器，MLP 適配器在信息傳遞過程中損失更小。

這種力求簡單的設計，使得模型和數據更容易擴展和規模化。

SuperClue-V 榜單國內排名第一

2024 年 8 月，SuperCLUE 首次發佈了多模態理解評測榜單 ——SuperClue-V。

SuperCLUE-V 基準包括基礎能力和應用能力兩個大方向，以開放式問題形式對多模態大模型進行評估，包含 8 個一級維度 30 個二級維度。