港大字節最新影片生成模型刷屏!網民直接RIP市場營銷,Sora也不香了
量子位 | 公眾號 QbitAI
剛剛,港大字節聯手發佈最新影片生成模型,讓歪果網民直呼瘋狂。
有人甚至直接RIP市場營銷、TikTok用戶和YouTube創作者。

你敢信,下面這一幕不是來自歐巴電視劇,而是AI生成的!

造出它的新模型名為Goku(悟空),是一系列基於rectified flow Transformer的模型,專為圖像和影片聯合生成而設計,支持文生影片、圖生影片、文生圖。
另外還有Goku+,是影片廣告基礎模型,官方更是直言「它能以比原來低100倍的成本創建廣告影片」。

Goku生成商品廣告手拿把掐,無論是展示食物還是化妝品都很逼真自然,人物神情也很難看出破綻:


以下生成的吃播影片更是讓人分不出真假:

再拿出一張白底的皮鞋照片,毫不費力就能將其搬到展台上展示:

甚至能僅憑一張商品圖+文字prompt,就生成帶人物的交互講解影片。
prompt:
The woman stands behind a colorful Minnie Mouse product, her head gently swaying left and right as she speaks animatedly. Her hands rest on the table, framing the product, while her mouth opens and closes with noticeable emphasis, conveying her enthusiasm and detailed explanation. The camera remains steady, capturing her expressive gestures and the vibrant design of the product in front of her.(女士站在一個色彩繽紛的米妮老鼠產品後面,她的頭部輕輕地左右擺動,邊說邊展現生動的表情。她的手搭在桌子上,框住了產品,同時她的嘴巴張開合上,明顯強調著,傳達出她的熱情和詳盡的解釋。攝像機保持穩定,捕捉到她富有表現力的手勢和她面前產品的鮮豔設計。)

各種場面都能hold住,時裝秀也不在話下:

在定性和定量評估中,Goku文本到圖像生成GenEval得分0.76和DPG-Bench得分83.65;文本到影片生成VBench得分84.85,一舉拿下新SOTA。
網民們這下都坐不住了,紛紛稱Goku和Goku+是顛覆性的。
將AI影片推向下一個level!

手裡的Sora真真兒不香了。

基於流的影片生成基礎模型
論文介紹,Goku是基於流的影片生成基礎模型。

具體來說,Goku採用了校正流(Rectified Flow)Transformer實現圖像和影片的聯合生成。
其核心組件包括,圖像-影片聯合VAE、Transformer架構和校正流公式——
先用圖像-影片聯合VAE將圖像和影片壓縮到共享的潛在空間,再用全注意力Transformer對潛在表示進行建模,實現圖像和影片的統一生成。
校正流公式基於RF(rectified flow)算法,將其應用於圖像-影片聯合生成,相比擴散模型展現出了更快的收斂速度和更強的理論性質。

訓練方面,Goku採用了多階段訓練策略。
首先進行圖文語義對齊預訓練,再進行圖像-影片聯合訓練,最後針對不同模態進行微調,逐步提升模型生成能力。
值得關注的是,為了訓練Goku,研究人員還準備了大規模高質量數據集和高效的訓練基礎設施。
數據方面,研究人員構建了約3600萬影片和1.6億圖像的大規模數據集,並採用多種數據過濾和增強技術來提高數據質量。
為此,他們提出了一個全面的數據處理流程,包括基於美學評分的影片和圖像過濾、基於OCR的內容分析及主觀評價。
他們還採用多模態大語言模型來為影片、圖像數據生成信息密集且語境一致的標題,並用額外的大語言模型繼續細化,以提高其準確性、流暢性和描述豐富性。
基礎設施優化則包括並行策略、細粒度激活檢查點技術、容錯機制以及豆包大模型團隊和港大之前聯合提出的ByteCheckpoint技術——
與基線方法相比,ByteCheckpoint在Checkpoint保存上性能提升高達529.22倍,在加載上,性能提升高達3.51倍。
為適應不同計算需求和性能要求,研究團隊提供了三種規模的模型:實驗用的Goku-1B、標準版Goku-2B、Goku-8B。

不過遺憾的是,官方目前只放出了技術報告,暫時還不能玩,網民已經迫不及待了~

項目主頁:https://saiyan-world.github.io/goku/
參考鏈接:
[1]https://huggingface.co/papers/2502.04896
[2]https://x.com/ai_for_success/status/1888821141495844991