通義萬相登頂權威榜單，全面超越國內外主流開閉源影片生成模型

1 月 9 日消息，阿里雲通義萬相迎來重磅升級，推出萬相 2.1 影片生成模型，在大幅度複雜運動、物理規律遵循、藝術表現等方面全面提升。根據權威評測榜單 VBench 的信息顯示，新版通義萬相登上榜首位置，超越混元、海螺 AI、Gen3、Pika 等國內外影片生成模型。

通義萬相登頂 VBench 榜單

VBench 是影片生成領域的權威評測集，它一共有 16 個評分維度，從整體一致性、動作流暢度、畫面穩定性等方面對模型進行全方位評估。VBench 榜單顯示，通義萬相在運動幅度、多對象生成、空間關係等關鍵能力上拿下最高分，並以總分 84.7% 的成績斬獲第一。

精準理解和模擬物理世界是當下影片生成模型的核心難題，現有模型生成的影片在大幅運動、物理複雜場景表現較差，容易生成肢體扭曲、違背物理定律的影片。針對這一難題，通義萬相團隊採用自研高效的 VAE 和 DiT 架構，有效增強時空上下文關係建模能力。

在 DiT 的設計中，全新通義萬相使用時空全注意機制，這一機制讓模型能夠更準確地模擬現實世界的複雜動態；團隊還引入了參數共享機制，不僅提升了模型的性能，還有效降低了訓練成本；此外，針對文本的嵌入進行優化，實現更優的文本可控性的同時也減少了計算需求。

在影片 VAE 方面，通義萬相設計了一種創新的影片編解碼方案。通過將影片拆分成若干塊（Chunk）並緩存中間特徵的方式，代替直接對長影片的 E2E 編解碼過程，實現顯存的使用與原始影片長度無關，從而能夠支持無限長 1080P 影片的高效編解碼，這一關鍵技術為任意時長影片的訓練提供了新的路徑。

在全新架構下，通義萬相在大幅度的肢體運動和肢體旋轉場景的影片生成上表現更穩定，即便是花樣滑冰、游泳、插水等運動影片也能保持肢體協調並符合正常運動軌跡。通義萬相在文字影片生成上實現了突破，成為首個支持中文文字生成能力、且同時支持中英文文字特效生成的影片生成模型，可滿足廣告設計、短影片等領域的創作需求。

例如，用戶輸入「平拍一位女性花樣滑冰運動員在冰場上進行表演的全景。她穿著紫色的滑冰服，腳踩白色的滑冰鞋，正在進行一個旋轉動作。她的手臂張開，身體向後傾斜，展現了她的技巧和優雅」，通義萬相即可精準理解語義，並生成一段接近專業滑冰運動員的影片。