Meta Token-Shuffle 登場:自回歸模型突破瓶頸,可 AI 生成 2048×2048 解像度圖像
IT之家 4 月 26 日消息,科技媒體 marktechpost 昨日(4 月 25 日)發佈博文,報導稱 Meta AI 創新推出 Token-Shuffle,目標解決自回歸(Autoregressive,AR)模型在生成高解像度圖像方面的擴展難題。
IT之家註:自回歸模型是一種用於時間序列分析的統計方法,主要用於預測數據序列中的未來值。該模型的核心思想是當前的值與過去的值之間存在線性關係,因此可以用變量自身的歷史數據來預測當前或未來的值。
在語言生成方面,自回歸模型大放異彩,近年來也被廣泛探索用於圖像合成,然而在面對高解像度圖像時,AR 模型遭遇瓶頸。
不同於文本生成僅需少量 token,圖像合成中高解像度圖片往往需要數千個 token,計算成本隨之暴增。這讓許多基於 AR 的多模態模型只能處理低中解像度圖像,限制了其在精細圖像生成中的應用。
儘管擴散模型(Diffusion Models)在高解像度上表現強勁,但其複雜的采樣過程和較慢的推理速度也存在局限。
Token-Shuffle 的核心機制與優勢
Meta AI 推出的 Token-Shuffle 方法直擊 token 效率問題。它通過識別多模態大語言模型(MLLMs)中視覺詞彙的維度冗餘,提出了一種創新策略:在 Transformer 處理前,將空間上相鄰的視覺 token 沿通道維度合併,推理後再恢復原始空間結構。
這種 token 融合機制大幅降低了計算成本,在保持視覺質量的同時,讓自回歸模型能夠高效處理最高 2048×2048 解像度的圖像。Token-Shuffle 無需改動 Transformer 架構,也無需額外預訓練編碼器,操作簡單且兼容性強。

具體而言,Token-Shuffle 包含 token-shuffle 和 token-unshuffle 兩個步驟。輸入準備階段,空間相鄰 token 通過 MLP(多層感知機)壓縮為單個 token,減少 token 數量。
以窗口大小 s 為例,token 數量可減少 s² 分之一,顯著降低 Transformer 的計算量(FLOPs)。此外,該方法還引入了針對自回歸生成的 classifier-free guidance(CFG)調度器,動態調整引導強度,優化文本-圖像對齊效果。
實驗成果與未來潛力
Token-Shuffle 在 GenAI-Bench 和 GenEval 兩大基準測試中展現了強大實力。在 GenAI-Bench 上,基於 2.7B 參數的 LLaMA 模型,Token-Shuffle 在「困難」提示下取得 VQAScore 0.77,超越其他 AR 模型如 LlamaGen(+0.18)和擴散模型 LDM(+0.15)。

在 GenEval 中,其綜合得分為 0.62,為 AR 模型樹立了新標杆。用戶評估也顯示,儘管在邏輯一致性上略遜於擴散模型,但 Token-Shuffle 在文本對齊、圖像質量上優於 LlamaGen 和 Lumina-mGPT。
IT之家附上參考地址