好玩!複旦與階躍星辰聯合發佈SVG矢量圖生成大模型OmniSVG!挑戰3萬Token極限

在日常生活中,SVG(可縮放矢量圖形)被廣泛應用於網頁設計、圖標、徽標等領域。SVG 圖形因其可縮放性和清晰度,在以下場景中得到了廣泛應用:

  • 網頁設計:用於製作響應式圖標、按鈕和裝飾元素,確保在不同設備上顯示清晰。

  • 品牌標識:企業徽標、品牌圖形等,保持高質量的視覺效果。

  • 用戶界面設計:應用程序和網站的界面元素,如導航欄、菜單圖標等。

  • 教育與培訓材料:用於製作插圖、流程圖和示意圖,幫助信息傳達。

然而,創建這些圖形通常需要專業的設計技能和工具。對非專業人士而言,存在一定的門檻。因此,開發自動化的 SVG 設計與生成工具顯得尤為關鍵。

現有基於優化的方法通過優化可微分的矢量圖形光柵化器,迭代地調整 SVG 參數。這些方法在生成 SVG 圖標方面有效,但在處理複雜樣本時計算開銷較大,且生成的輸出缺乏結構,存在冗餘的錨點。

在現有自回歸 SVG 生成方法中,存在兩個主要局限性:

上下文窗口長度限制:由於模型只能處理有限長度的輸入序列,這限制了其生成複雜 SVG 內容的能力,現有自回歸方法利用 Transformer 模型或預訓練的大型語言模型(LLM),直接生成表示 SVG 的 XML 參數或代碼,然而複雜 SVG 需要的上下文長度將超出現有 LLM 上下文窗口長度,從而限制了複雜 SVG 的生成;

複雜 SVG 數據匱乏:缺乏包含複雜 SVG 內容的大規模數據集,限制了模型的學習和生成能力。現有數據集通常包括 icon 級別的 SVG 或者較為簡單的插畫 SVG,目前角色複雜度級別的 SVG 數據集仍然是空缺。

項目中,OmniSVG 引入 SVG 參數化的表達方式,自回歸地生成高質量、複雜的 SVG。它通過多種生成模式展示了非凡的多功能性,包括文本到 SVG、圖像到 SVG 和角色參考生成 SVG,使其成為適用於各種創意任務的強大而靈活的解決方案。

  • 論文標題: OmniSVG: A Unified Scalable Vector Graphics Generation Model

  • 論文作者:Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang

  • 作者單位:複旦大學、階躍星辰

  • 論文地址:https://arxiv.org/pdf/2504.06263

  • 項目主頁:https://omnisvg.github.io/ 

  • 代碼地址:https://github.com/OmniSVG/OmniSVG

  • HuggingFace:https://huggingface.co/OmniSVG

值得一提的是,OmniSVG 在發佈的當天就成為 Huggingface daily paper upvoted 的第一名,併成為當週排名第二熱門的論文。OmniSVG 在 GitHub 上線 7 天,已經斬獲了 1.3k star,在國外媒體獲得廣泛關注。

Huggingface當週第二熱門論文Huggingface當週第二熱門論文

讓我們先來看一些生成效果:

1.統一的多模態複雜 SVG 生成框架

OmniSVG 是首個利用預訓練視覺語言模型(VLM)進行端到端多模態複雜 SVG 生成的統一框架。通過將 SVG 的坐標和命令參數化為離散的標記,OmniSVG 將結構邏輯與低級幾何信息解耦,緩解了代碼生成模型中常見的 「坐標幻覺」問題,生成生動且多彩的 SVG 結果。並且得益於下一標記預測的訓練目標,OmniSVG 能夠在給定部分觀測的情況下,生成多樣化的 SVG 內容。與傳統的自回歸 SVG 生成方法相比,OmniSVG 能夠處理長度高達 3 萬個token 的 SVG,促進了複雜高質量 SVG 的生成。基於預訓練的 VLM,OmniSVG 能夠理解視覺和文本指令,合成可編輯的高保真 SVG,適用於從圖標到複雜插圖和動漫角色等多種領域。

OmniSVG 基於預訓練的視覺語言模型 Qwen2.5-VL 構建,並集成了 SVG 分詞器。該模型將文本和圖像輸入分詞為前綴分詞,而 SVG 分詞器則將矢量圖形命令編碼到統一的表示空間中。

2.MMSVG-2M:包含 200 萬個 SVG 樣本

項目還開源了 MMSVG-2M 數據集和 MMSVG-Bench 評測平台。MMSVG-2M 是一個大規模的 SVG 數據集,包含了 200 萬個 SVG 樣本,涵蓋了網站圖標、插圖、平面設計、動漫角色等多種類型。MMSVG-2M 數據集的 SVG 樣本,涵蓋了網站圖標、插圖、平面設計、動漫角色等多種 SVG 類型,如下圖所示。

3. 實驗結果

為了進一步推動 SVG 生成技術的發展,MMSVG-Bench 評測平台專注於以下三個主要任務,分別是文本轉 SVG、圖像轉 SVG 以及角色參考生成 SVG

論文在 MMSVG-2M 數據集(圖標、插圖和角色)上將所提出的方法與 SOTA 文本轉 SVG 和圖像轉 SVG 均進行了比較。OmniSVG 在指令遵循性和生成的 SVG 的美觀性方面均優於現有的最佳方法。

OmniSVG 和最先進的文本轉 SVG 任務的比較結果。OmniSVG 和最先進的文本轉 SVG 任務的比較結果。
OmniSVG 和最先進的圖像轉 SVG 任務的比較結果。OmniSVG 和最先進的圖像轉 SVG 任務的比較結果。
通過使用自然角色圖像和 SVG 數據對進行訓練,OmniSVG 能夠通過圖像角色參考生成角色 SVG。通過使用自然角色圖像和 SVG 數據對進行訓練,OmniSVG 能夠通過圖像角色參考生成角色 SVG。

結論與局限性

綜上所述,OmniSVG 是一種統一的可縮放矢量圖形(SVG)生成模型,利用預訓練的視覺 – 語言模型(VLM)進行端到端的多模態 SVG 生成。通過將 SVG 命令和坐標參數化為離散標記,OmniSVG 有效地將結構邏輯與低級幾何信息解耦,提高了訓練效率,同時保持了複雜 SVG 結構的表現力。此外,OmniSVG 在多個條件生成任務中表現出色,顯示出其在專業 SVG 設計工作流中應用的巨大潛力。 

不過,在推理過程中,OmniSVG 會為複雜樣本生成數以萬計的標記,這不可避免地會導致相當長的生成時間。同時,在可預見的未來,將 SVG 風格的圖像和來源更豐富的自然圖像,融入協同訓練工作流,有望提升模型對輸入圖像風格的魯棒性。