擴散模型失寵?端側非自回歸圖像生成基礎模型Meissonic登場,超越SDXL!

新智元報導  

編輯:LRST

【新智元導讀】剛剛,一款專為消費級顯卡設計的全新非自回歸掩碼圖像建模的文本到圖像生成模型——Meissonic發佈,標誌著圖像生成即將進入「端側時代」。

最近,YouTube和Reddit上出現了一個引起廣泛討論的圖像生成模型,來自日本、南韓、美國、印度、中東和英國的網民們紛紛參與討論。

Youtube熱烈討論
Youtube熱烈討論Youtube熱烈討論

那麼,這到底是怎麼回事呢?讓我們一起來看看吧。 

近年來,大語言模型在自然語言處理領域取得了巨大的突破,以LLaMA和Qwen等為代表的模型展現了強大的語言理解和生成能力。

但是,圖像生成技術的突破主要得益於擴散模型,如Stable Diffusion XL在圖像質量、細節和概念一致性方面設立了事實標準。

然而,這些擴散模型與自回歸語言模型的工作原理和架構顯著不同,導致在視覺和語言任務上實現統一生成方法面臨挑戰。這種差異不僅使這些模態的整合變得複雜,還凸顯了需要創新的方法來彌合它們之間的差距。

自回歸文本到圖像模型(如LlamaGen)通過預測下一個token生成圖像,但由於生成的圖像token數量龐大,自回歸模型在效率和解像度上也面臨瓶頸,難以應用到實際場景。於是,一些Masked Image Modeling(MIM)技術,例如MaskGIT和MUSE被提出。這些方法展現了高效圖像生成的潛力。

儘管MIM方法具有一定的前景,它們仍面臨兩個關鍵限制:

1. 解像度限制

當前的MIM方法只能生成最大解像度為512×512像素的圖像。這一限制阻礙了它們的廣泛應用和進一步發展,尤其是在文本生成圖像的社區中,1024×1024解像度逐漸成為標準。

2. 性能差距

現有的MIM技術尚未達到領先擴散模型如SDXL所表現的性能水平,特別是在圖像質量、複雜細節和概念表達等關鍵領域表現不佳,而這些對實際應用至關重要。

這些挑戰需要探索新的創新方法,Meissonic的目標是使MIM能夠高效生成高解像度圖像(如1024×1024),同時縮小與頂級擴散模型的差距,並確保其計算效率適合消費級硬件。

Meissonic模型提出了全新的解決方案,基於非自回歸的掩碼圖像建模(MIM),為高效、高解像度的T2I生成設定了新標準。

論文鏈接: https://arxiv.org/abs/2410.08261論文鏈接: https://arxiv.org/abs/2410.08261

GitHub Code: https://github.com/viiika/Meissonic

Huggingface Model: https://huggingface.co/MeissonFlow/Meissonic

通過架構創新、先進的位置編碼策略和優化的采樣方法,Meissonic不僅在生成質量和效率上與領先的擴散模型(如SDXL)相媲美,甚至在某些場景中超越了它們。

此外,Meissonic利用高質量的數據集,並通過基於人類偏好評分的微觀條件進行訓練,同時引入特徵壓縮層,顯著提升了圖像的保真度與解像度。

以下是Meissonic在方法上的幾項重要技術改進:

1. 增強型Transformer架構

Meissonic結合了多模態與單模態的Transformer層,旨在捕捉語言與視覺之間的互動信息。從未池化的文本表示中提取有用信號,構建兩者之間的橋樑;單模態Transformer層則進一步細化視覺表示,提升生成圖像的質量與穩定性。研究表明,這種結構按1:2比例能夠實現最佳性能。

2. 先進的位置編碼與動態采樣條件

為保持高解像度圖像中的細節,Meissonic引入了旋轉位置編碼(RoPE),為queries和keys編碼位置信息。RoPE有效解決了隨著token數量增加,傳統位置編碼方法導致的上下文關聯丟失問題,尤其在生成512×512及更高解像度圖像時。

此外,Meissonic通過引入掩碼率作為動態采樣條件,使模型自適應不同階段的采樣過程,進一步提升圖像細節和整體質量。

3. 高質量訓練數據與微觀條件

Meissonic的訓練依賴於經過精心篩選的高質量數據集。為提升圖像生成效果,Meissonic在訓練中加入了圖像解像度、裁剪坐標及人類偏好評分等微觀條件,顯著增強了模型在高解像度生成時的穩定性。

4. 特徵壓縮層

為了在保持高解像度的同時提升生成效率,Meissonic引入了特徵壓縮層,使其在生成1024×1024解像度圖像時可以有效降低計算成本。

那麼,Meissonic到底有多強大呢?讓我們來看看它的表現:

在HPS V2.0基準測試中,Meissonic以平均0.56分的優勢超越了SDXL。

在圖像編輯能力評測數據集Emu-Edit上,Meissonic的Zero-shot圖像編輯性能甚至超越了經過圖像編輯指令微調後的模型。

在風格多樣性生成方面,Meissonic展現出超越SDXL的表現。

而這一切,都只需SDXL 1/3的推理時間和1/2的顯存佔用。值得注意的是,Meissonic可以在8GB顯存下運行,讓中低端顯卡的用戶也能受益。

此外,Meissonic還展現了超強的zero-shot圖像編輯能力,無需微調即可靈活編輯有mask和無mask的場景,提供了更多創作可能性。

高效推理與訓練的結合

在文本到圖像合成領域,Meissonic模型憑藉卓越的效率脫穎而出。該模型不僅在推理過程中實現了高效性,同時在訓練階段也顯著提升了效率。Meissonic採用了一套精心設計的四階段訓練流程,逐步提升生成效果。

階段一:理解圖像基礎概念

研究表明,原始LAION數據集的文本描述無法充分滿足文本到圖像模型的訓練需求,通常需要多模態大型語言模型(MLLM)進行優化,但這消耗大量計算資源。

為此,Meissonic在初始階段採用了更加平衡的策略,利用經過篩選的高質量LAION數據學習基礎概念,通過降解像度的方法提高效率,最終保留約2億張高質量圖像,並將初始訓練解像度設定為256×256。

階段二:實現文本與圖像對齊

第二階段的重點在於提升模型對長文本描述的理解能力。團隊篩選了審美分數高於8的圖像,構建了120萬對優化後的合成圖文對及600萬對內部高質量圖文對。此階段,訓練解像度提升至512×512,配對數據總量達到約1000萬對,從而顯著提升了Meissonic在處理複雜提示(如多樣風格和虛擬角色)以及抽像概念方面的能力。

階段三:實現高解像度圖像生成

在Masked Image Modeling(MIM)領域,生成高解像度圖像仍然是一個挑戰。Meissonic通過特徵壓縮技術高效實現了1024×1024解像度的圖像生成。引入特徵壓縮層後,模型能夠在較低計算成本下實現從512×512到1024×1024的平滑過渡,此階段的數據集經過進一步篩選,僅保留約600萬對高解像度、高質量的圖文配對,以1024解像度進行訓練。

階段四:精細化美學細節生成

在最後階段,Meissonic通過低學習率微調模型和文本編碼器,並引入人類偏好評分作為訓練條件,進一步提升了生成圖像的質量和多樣性。這一階段的訓練數據與第三階段保持一致,但更加註重對高解像度圖像生成的美學細節的打磨。

通過上述四個階段的訓練,Meissonic在訓練數據和計算成本上實現了顯著降低。具體而言,在訓練過程中,Meissonic僅使用210萬張圖像,相較於其他主流模型(如SD-1.5和Dall-E 2),訓練數據的使用量顯著減少。

在使用8個A100 GPU進行訓練的情況下,Meissonic的訓練時間僅需19天,顯著低於Würstchen、SD-2.1等模型的訓練時間。

廣泛影響

最近,移動設備上的端側文本到圖像應用如GooglePixel 9的Pixel Studio和蘋果iPhone 16的Image Playground相繼推出,反映出提升用戶體驗和保護隱私的日益趨勢。作為一種資源高效的文本到圖像基座模型,Meissonic在這一領域代表了重要的進展。

此外,來自史丹福大學的創業團隊Collov Labs在一週內就成功複現出同樣架構的Monetico,生成效果可以與Meissonic相媲美,推理效率更加高效,並榮登huggingface趨勢榜第一名。這也顯示出Meissonic架構在資源高效上的巨大潛力和應用價值。

參考資料:

https://arxiv.org/abs/2410.08261