阿裡通義萬相 2.1 模型宣佈升級:首次實現中文文字影片生成功能,支持無限長 1080P 影片的高效編解碼

感謝IT之家網民 Skyraver 的線索投遞!

IT之家 1 月 10 日消息,阿里旗下通義萬相宣佈推出 2.1 版本模型升級,影片生成、圖像生成兩大能力均有顯著提升。

在影片生成方面,通義萬相 2.1 通過自研的高效 VAE 和 DiT 架構增強了時空上下文建模能力,支持無限長 1080P 影片的高效編解碼,首次實現了中文文字影片生成功能,登上 VBench 榜單第一。

據介紹,通義萬相 2.1 支持中英文影片,都可以一鍵生成藝術字,還提供多種影片特效選項,以增強視覺表現力,例如過渡、粒子效果、模擬等等。

▲ Prompt:以紅色新年宣紙為背景,出現一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進行,水墨在紙上呈現「福」字,墨色從深到淺過渡,呈現出獨特的東方韻味。背景高級簡潔,雜誌攝影感。

IT之家注意到,通義萬相 2.1 還支持複雜運鏡,可還原碰撞、反彈、切割、擠壓等真實世界的物理規律,例如雨滴落在傘上會濺起浪花。

▲ Prompt:一對穿著正式晚禮服的夫婦在回家途中遭遇大雨,他們撐著黑色雨傘。平拍鏡頭下,男士穿著黑色西裝,女士穿著白色長裙。他們在雨中緩緩行走,雨水沿著傘面滴落。鏡頭跟隨他們的步伐平穩移動,展現出他們在雨中的優雅姿態。

圖片生成方面,通義萬相 2.1 支持文生組圖,採用了 IC-LoRA 圖像生成訓練方法,利用 DiT 架構,增強文本到圖像的上下文能力;對多張圖像進行拚接與聯合描述即可實現關聯圖像間的組合生成,並保持特徵穩定連續。

▲ Prompt:浪漫的公園里,一對青年男女在溫馨的擁抱交談▲ Prompt:浪漫的公園里,一對青年男女在溫馨的擁抱交談

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。