事件相機+AI影片生成,港大CUBE框架入選ICIP,無需訓練實現可控影片生成

CUBE團隊 投稿

量子位 | 公眾號 QbitAI

在這個信息爆炸的時代,如何讓AI生成的影片更具創意,又符合特定需求?

來自香港大學的最新研究《基於事件、無需訓練的可控影片生成框架 CUBE》帶來一個全新的解決方案。

這一框架利用了事件相機捕捉動態邊緣的能力,將AI生成的影片帶入了一個新的維度,精準又高效。論文原標題是「Controllable Unsupervised Event-based Video Generation」,

發表於圖像處理盛會ICIP並被選為Oral(口頭報告),並受邀在WACV workshop演講。

什麼是事件相機?

在深入瞭解CUBE框架之前,先來認識一下事件相機。

不同於傳統相機的定時捕捉,事件相機模仿生物的視覺系統,只捕捉像素點亮度變化的「事件」,就像是只記錄畫面的精華部分。

這樣不僅可以有效減少冗餘數據,還可以顯著降低耗能

尤其是在高速動態或光線變化大的場景下,事件相機比傳統相機更有優勢。而這些獨特的「事件數據」正是CUBE框架的核心。

△左:普通相機拍的;右:事件相機拍的左:普通相機拍的;右:事件相機拍的

簡單說,事件相機和普通相機不同,捕捉的是物體邊緣的動態細節,就像你腦中一閃而過的靈感,節省了大量帶寬還能省電。

CUBE框架結合了這些「閃現」的邊緣數據和文字描述,無需訓練就能合成符合需求的影片!這不僅能讓你生成的場景更「合胃口」,還能讓影片質量、時間一致性和文本匹配度都蹭蹭上漲。

為什麼要用CUBE?

其他方法或是需要大量訓練數據,或是生成效果欠佳。CUBE框架不僅解決了這些問題,還在多項指標上表現出色。

無論是視覺效果文本匹配度還是幀間一致性,CUBE都表現優異。

可以這樣想:CUBE就像給事件相機配上了智能「濾鏡」,讓生成的影片不僅生動還符合描述,比如讓鐵人也能在馬路上跳起月球舞步!

CUBE框架是如何工作的?

CUBE的全稱是「Controllable, Unsupervised, Based on Events」,直譯過來就是「可控的、無需訓練的、基於事件的」影片生成框架。

它通過提取事件中的邊緣信息,再結合用戶提供的文字描述生成影片。在方法上,CUBE主要依賴擴散模型生成技術。

擴散模型通過向圖像添加隨機噪聲並逐步還原來生成圖片,但團隊進一步優化了這個過程,能讓它根據「事件」提供的邊緣數據生成影片。

CUBE的核心方法

1. 邊緣提取:事件流記錄了物體運動的軌跡,而CUBE的首要任務就是將這些事件轉換成邊緣信息。團隊設計了一個邊緣提取模塊,把事件數據分成多個時間段,提取出關鍵的空間位置,從而形成精確的邊緣圖。這些邊緣圖不僅保留了運動物體的輪廓,還能讓影片生成更流暢。

2. 影片生成:有了邊緣數據之後,CUBE結合了文字描述生成影片。通過擴散模型的逐步還原過程,可以生成多個與描述相匹配的圖像幀,並用插幀技術讓影片更加平滑一致。這個過程不需要大量的訓練數據,因為CUBE直接調用了預訓練的擴散模型來實現高質量生成。

3. 控制性與一致性:採用了ControlVideo框架,這一框架具有優秀的可控性,通過文字描述來控制生成的影片內容,使每幀的生成都符合特定的要求。ControlVideo和CUBE的組合解決了傳統方法中影片生成一致性不足的問題,讓內容更生動、更貼合描述。

CUBE的性能表現

在實驗中,CUBE的表現遠超現有方法。在影片質量、文本匹配度和時間一致性等多個指標上,CUBE都取得了優異的成績。

定量實驗顯示,CUBE生成的幀間一致性和文本匹配度都比ControlNet、ControlVideo等方法更優。此外,團隊還做了用戶偏好測試,結果顯示參與者普遍更喜歡CUBE生成的影片。

未來展望

當然,CUBE還有提升的空間。未來團隊希望將邊緣信息和紋理信息結合,使影片更具細節和真實感,同時探索更多領域適用性,甚至將其應用在實時場景中。這一技術不僅適合電影、動畫生成等領域,還可以用於自動駕駛、監控等需要快速識別動態環境的場景。

CUBE不僅是一項技術,更是一次在事件相機與AI生成影片領域的新探索。

如果你也對AI生成影片感興趣,可進一步參考完整論文和開源代碼。

論文地址:

https://ieeexplore.ieee.org/abstract/document/10647468

代碼已開源:

https://github.com/IndigoPurple/cube