文生圖參數量升至240億!Playground v3發佈:深度融合LLM,圖形設計能力超越人類

新智元報導  

編輯:LRS

【新智元導讀】Playground Research推出了新一代文本到圖像模型PGv3,具備240億參數量,採用深度融合的大型語言模型,實現了在圖形設計和遵循文本提示指令上甚至超越了人類設計師,同時支持精確的RGB顏色控制和多語言識別。

自去年以來,文本到圖像生成模型取得了巨大進展,模型的架構從傳統的基於UNet逐漸轉變為基於Transformer的模型。

Playground Research最近發佈了一篇論文,詳細介紹了團隊最新的、基於DiT的擴散模型Playground v3(簡稱PGv3),將模型參數量擴展到240億,在多個測試基準上達到了最先進的性能,更擅長圖形設計。

論文鏈接:https://arxiv.org/abs/2409.10695

數據鏈接:https://huggingface.co/datasets/playgroundai/CapsBench

與傳統依賴於預訓練語言模型如T5或CLIP文本編碼器的文本到圖像生成模型不同,PGv3完全集成了大型語言模型(LLMs),基於全新的深度融合(Deep-Fusion)架構,利用僅解碼器(decoder-only)大型語言模型的知識,來進行文本到圖像生成任務。

此外,為了提高圖像描述的質量,研究人員開發了一個內部描述生成器(in-house captioner),能夠生成不同詳細程度的描述,豐富了文本結構的多樣性,還引入了一個新的基準CapsBench來評估詳細的圖像描述性能。

實驗結果表明,PGv3在文本提示遵循、複雜推理和文本渲染準確率方面表現出色;用戶偏好研究表明,PGv3模型在常見的設計應用中,如表情包(stickers)、海報和logo設計,具有超越人類的圖形設計能力,還能夠精確控制RGB顏色和多語言理解。

PGv3模型架構

Playground v3(PGv3)是一個潛擴散模型(LDM),使用EDM公式進行訓練。像DALL-E 3、Imagen 2和Stable Diffusion 3等其他模型一樣,PGv3旨在執行文本到圖像(t2i)生成任務。

PGv3完全集成了一個大型語言模型(Llama3-8B),以增強其在提示理解和遵循方面的能力。

文本編碼器

Transformer模型中的每層捕捉到的表示不同,包含不同級別的單詞級和句子級信息,標準做法是使用T5編碼器或CLIP文本編碼器的最後一層輸出,或是結合倒數第二層的輸出,不過,研究人員發現選擇用於調節文本轉圖像模型的最佳層非常麻煩,特別是使用解碼器風格的大型語言模型時,具有更複雜的內部表示。

研究人員認為,信息流通過LLM每層的連續性是其生成能力的關鍵,而LLM中的知識橫跨了所有層,而不是被某一層的輸出所封裝,所以PGv3在設計時,複製了LLM的所有Transformer塊,可以從LLM的每個對應層中都獲取隱藏嵌入輸出。

這種方法可以充分利用LLM完整的「思考過程」,能夠引導模型模仿LLM的推理和生成過程,所以在生成圖像時,可以實現更好的提示遵循和一致性能力。

模型結構

PGv3採用了DiT風格的模型結構,圖像模型中的每個Transformer塊都設置得與語言模型(Llama3-8B)中的對應塊相同,僅包含一個注意力層和一個前饋層,參數也相同,如隱藏維度大小、注意力頭的數量和注意力頭的維度,並且只訓練了圖像模型部分。

在擴散采樣過程中,語言模型部分只需要運行一次,就可以生成所有中間隱藏嵌入。

與大多數傳統的基於CNN的擴散模型不同,Transformer模型將圖像特徵的自注意力與圖像和文本特徵之間的交叉注意力分開,然後進行聯合注意力操作,可以從圖像和文本值的組合池中提取相關特徵,並且能減少計算成本和推理時間,下面還有一些對性能提升有用的操作:

1. Transformer塊之間的U-Net跳躍連接。

2. 中間層的token下采樣,在32層中,在中間層將圖像鍵和值的序列長度減少了四倍,使整個網絡類似於只有一個下采樣的傳統卷積U-Net,略微加快了訓練和推理時間,而且沒有性能下降。

3. 位置嵌入,與llama3中的旋轉位置嵌入(RoPE)相同,由於圖像是二維的特徵,所以研究人員探索了2D版本的RoPE:

「插值-PE」(interpolating-PE)方法不管序列長度如何,保持起始和結束位置ID固定後,在中間插值位置ID,不過該方法在訓練解像度上嚴重過擬合,並且無法泛化到未見過的縱橫比。

相比之下,「擴展-PE」(expand-PE)方法按序列長度成比例增加位置ID,不使用任何技巧或歸一化,性能表現良好,沒有顯示出解像度過擬合的跡象。

新的VAE

潛擴散模型(LDM)的變分自編碼器(VAE),對於確定模型的細粒度圖像質量上限來說非常重要。

研究人員將VAE的潛通道數從4增加到16,增強了合成細節的能力,比如較小的面部和文字;除了在256×256解像度下進行訓練外,還擴展到512×512解像度,進一步提高了重建性能。

CapsBench描述基準

圖像描述評估是一個複雜的問題,目前的評估指標主要分為兩類:

1. 基於參考的指標,如BLEU、CIDEr、METEOR、SPICE,使用一個真實描述或一組描述來計算相似度作為質量度量,模型得分受到參考格式的限制;

2. 無參考指標,如CLIPScore、InfoMetIC、TIGEr,使用參考圖像的語義向量或圖像的多個區域來計算所提出描述的相似度指標,但缺點是,對於密集圖像和長而詳細的描述,語義向量不具備代表性,因為包含的概念太多。

一種新型的評估方法是基於問題的指標,從描述中生成問題,並使用這些問題評估所提出的描述,有助於全面評估文本到圖像模型。

受到DSG和DPG-bench的啟發,研究人員提出了一種反向的圖像描述評估方法,在17個圖像類別中生成「是-否」問答對:通用、圖像類型、文本、顏色、位置、關係、相對位置、實體、實體大小、實體形狀、計數、情感、模糊、圖像偽影、專有名詞(世界知識)、調色板和色彩分級。

在評估過程中,使用語言模型僅基於候選描述回答問題,答案選項為「是」、「否」和「不適用」。

CapsBench包含200張圖像和2471個問題,平均每張圖像12個問題,覆蓋電影場景、卡通場景、電影海報、邀請函、廣告、休閑攝影、街頭攝影、風景攝影和室內攝影。

實驗結果

研究人員對比了Ideogram-2(左上),PGv3(右上)和Flux-pro(左下),當以縮略圖形式查看時,3個模型的圖像看起來相似,定性差異很小。

當放大檢查細節和紋理時,就能看出明顯區別:Flux-pro生成的皮膚紋理過於平滑,類似於3D渲染的效果,不夠真實;Ideogram-2提供了更真實的皮膚紋理,但在遵循提示詞方面表現不好,提示詞很長的情況下,就會丟失關鍵細節。

相比之下,PGv3在遵循提示和生成真實圖像方面都表現出色,還展現出明顯優於其他模型的電影質感。

指令遵循

彩色文本代表模型未能捕捉到的具體細節,可以看到PGv3始終能夠遵循細節。隨著測試提示變長,并包含更多詳細信息時,PGv3的優勢變得尤為明顯,研究人員將這種性能提升歸功於我們集成了大型語言模型(LLM)的模型結構和先進的視覺-語言模型(VLM)圖像描述系統。

文本渲染

模型能夠生成各種類別的圖像,包括海報、logo、表情包、書籍封面和演示幻燈片,PGv3還能夠複現帶有定製文本的表情包,並憑藉其強大的提示遵循和文本渲染能力,創造出具有無限角色和構圖的全新表情包。

RGB顏色控制

PGv3在生成內容中實現了異常精細的顏色控制,超越了標準調色板,憑藉其強大的提示遵循能力和專業訓練,PGv3使用戶能夠使用精確的RGB值精確控製圖像中每個對象或區域的顏色,非常適合需要精確顏色匹配的專業設計場景。

多語言能力

得益於語言模型天生能夠理解多種語言,並構建出良好的相關詞表示,PGv3能夠自然地解釋各種語言的提示,並且多語言能力僅通過少量的多語言文本和圖像對數據集(數萬張圖像)就足夠了。

參考資料:

https://arxiv.org/abs/2409.10695