何愷明等新作大道至簡,瞬時速度改為平均速度,一步生成表現提升70%
白交 發自 凹非寺
量子位 | 公眾號 QbitAI
何愷明等團隊新作新鮮出爐,再次大道至簡——
他們引入平均速度,實現「一步生成」新SOTA。

CMU博士生耿正陽一作,何愷明的學生丹恩明揚、白行健參與。
他們提出的模型是從頭開始訓練的,沒有任何預訓練、蒸餾或課程學習,最終實現了3.43的FID值,明顯優於之前最先進的一步擴散/流模型。

一步生成框架:引入平均速度
一次生成模型,指的是只需一步計算就產生高質量的結果,而無需多次迭代。
團隊提出了一個原則性強且有效的單步生成框架MeanFlow。其核心思想是引入平均速度的概念來表徵流場,這與流匹配方法所模擬的瞬時速度截然不同。

平均速度被定義為位移與時間間隔的比率,位移由瞬時速度的時間積分給出。

根據這一定義,這說明平均速度和瞬時速度之間定義明確的內在聯繫,這自然成為指導網絡訓練的原則基礎。

我們的方法被稱為MeanFlow模型,它自成一體,無需預先訓練、提煉或課程學習。
演示1:通過jvp計算只需要一次後向傳遞,類似於神經網絡中的標準反向傳播,開銷不到總訓練時間的20%。

演示2提供了偽代碼。雖然一步采樣是這項工作的重點,但團隊要強調的是,根據下面的公式,幾步采樣也是很簡單的。
他們在256×256解像度下生成的ImageNet上進行了主要實驗,並對函數評估次數(NFE)進行了檢驗,並研究了預設情況下的1-NFE生成。
它在從零開始訓練的ImageNet 256×256上通過1-NFE達到了3.43的FID,這一結果以50%到70%的相對優勢明顯優於同類中以前的先進方法。
1-NFE ImageNet 256×256 生成的消融研究。

MeanFlow模型在256×256 ImageNet在模型大小方面表現出良好的可擴展性。

與其他生成模型對比,從零開始訓練的1-NFE和2-NFE擴散/流動模型。

該研究大大縮小了一步式擴散/流模型與其多步式前身之間的差距。
從廣義上講,這項工作所考慮的情況與物理領域的多尺度模擬問題有關,這些問題可能涉及空間或時間上的一系列尺度、長度和解像度。進行數值模擬本身就受到計算機分辨尺度範圍能力的限制。他們的模擬涉及在更粗的粒度水平上描述基本量,這是物理學中許多重要應用的共同主題。團隊希望他們工作能為相關領域的生成建模、模擬和動力系統研究架起一座橋樑。
MIT&CMU團隊
這一成果由MIT&CMU團隊共同完成。

其中一作耿正陽,CMU計算機博士生,導師是Zico Kolter,在MIT交流時完成此成果。此前在北大當研究助理,此外還曾在Meta Reality Labs實習,致力於識別、理解和開發自組織複雜系統的動力學。
此外還有何愷明的兩位學生:丹恩明揚、白行健。
丹恩明揚本科也是在MIT讀數學和計算機科學。目前他的研究重點是機器學習,特別是理解和推進生成式基礎模型,包括擴散模型和大型語言模型。
白行健,他擁有牛津大學數學與計算機科學碩士和學士學位。研究方向為經典算法與深度學習的交叉領域,涵蓋物理啟髮式生成模型和學習增強算法等主題。更廣泛地說,致力於那些具有科學影響力和啟發性的研究。
論文鏈接:
https://arxiv.org/abs/2505.13447v1