好玩!複旦與階躍星辰聯合發佈SVG矢量圖生成大模型OmniSVG!挑戰3萬Token極限

在日常生活中,SVG(可縮放矢量圖形)被廣泛應用於網頁設計、圖標、徽標等領域。SVG 圖形因其可縮放性和清晰度,在以下場景中得到了廣泛應用:
-
網頁設計:用於製作響應式圖標、按鈕和裝飾元素,確保在不同設備上顯示清晰。
-
品牌標識:企業徽標、品牌圖形等,保持高質量的視覺效果。
-
用戶界面設計:應用程序和網站的界面元素,如導航欄、菜單圖標等。
-
教育與培訓材料:用於製作插圖、流程圖和示意圖,幫助信息傳達。
然而,創建這些圖形通常需要專業的設計技能和工具。對非專業人士而言,存在一定的門檻。因此,開發自動化的 SVG 設計與生成工具顯得尤為關鍵。
現有基於優化的方法通過優化可微分的矢量圖形光柵化器,迭代地調整 SVG 參數。這些方法在生成 SVG 圖標方面有效,但在處理複雜樣本時計算開銷較大,且生成的輸出缺乏結構,存在冗餘的錨點。
在現有自回歸 SVG 生成方法中,存在兩個主要局限性:
上下文窗口長度限制:由於模型只能處理有限長度的輸入序列,這限制了其生成複雜 SVG 內容的能力,現有自回歸方法利用 Transformer 模型或預訓練的大型語言模型(LLM),直接生成表示 SVG 的 XML 參數或代碼,然而複雜 SVG 需要的上下文長度將超出現有 LLM 上下文窗口長度,從而限制了複雜 SVG 的生成;
複雜 SVG 數據匱乏:缺乏包含複雜 SVG 內容的大規模數據集,限制了模型的學習和生成能力。現有數據集通常包括 icon 級別的 SVG 或者較為簡單的插畫 SVG,目前角色複雜度級別的 SVG 數據集仍然是空缺。
項目中,OmniSVG 引入 SVG 參數化的表達方式,自回歸地生成高質量、複雜的 SVG。它通過多種生成模式展示了非凡的多功能性,包括文本到 SVG、圖像到 SVG 和角色參考生成 SVG,使其成為適用於各種創意任務的強大而靈活的解決方案。

-
論文標題: OmniSVG: A Unified Scalable Vector Graphics Generation Model
-
論文作者:Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
-
作者單位:複旦大學、階躍星辰
-
論文地址:https://arxiv.org/pdf/2504.06263
-
項目主頁:https://omnisvg.github.io/
-
代碼地址:https://github.com/OmniSVG/OmniSVG
-
HuggingFace:https://huggingface.co/OmniSVG
值得一提的是,OmniSVG 在發佈的當天就成為 Huggingface daily paper upvoted 的第一名,併成為當週排名第二熱門的論文。OmniSVG 在 GitHub 上線 7 天,已經斬獲了 1.3k star,在國外媒體獲得廣泛關注。


讓我們先來看一些生成效果:



1.統一的多模態複雜 SVG 生成框架
OmniSVG 是首個利用預訓練視覺語言模型(VLM)進行端到端多模態複雜 SVG 生成的統一框架。通過將 SVG 的坐標和命令參數化為離散的標記,OmniSVG 將結構邏輯與低級幾何信息解耦,緩解了代碼生成模型中常見的 「坐標幻覺」問題,生成生動且多彩的 SVG 結果。並且得益於下一標記預測的訓練目標,OmniSVG 能夠在給定部分觀測的情況下,生成多樣化的 SVG 內容。與傳統的自回歸 SVG 生成方法相比,OmniSVG 能夠處理長度高達 3 萬個token 的 SVG,促進了複雜高質量 SVG 的生成。基於預訓練的 VLM,OmniSVG 能夠理解視覺和文本指令,合成可編輯的高保真 SVG,適用於從圖標到複雜插圖和動漫角色等多種領域。

OmniSVG 基於預訓練的視覺語言模型 Qwen2.5-VL 構建,並集成了 SVG 分詞器。該模型將文本和圖像輸入分詞為前綴分詞,而 SVG 分詞器則將矢量圖形命令編碼到統一的表示空間中。

2.MMSVG-2M:包含 200 萬個 SVG 樣本
項目還開源了 MMSVG-2M 數據集和 MMSVG-Bench 評測平台。MMSVG-2M 是一個大規模的 SVG 數據集,包含了 200 萬個 SVG 樣本,涵蓋了網站圖標、插圖、平面設計、動漫角色等多種類型。MMSVG-2M 數據集的 SVG 樣本,涵蓋了網站圖標、插圖、平面設計、動漫角色等多種 SVG 類型,如下圖所示。

3. 實驗結果
為了進一步推動 SVG 生成技術的發展,MMSVG-Bench 評測平台專注於以下三個主要任務,分別是文本轉 SVG、圖像轉 SVG 以及角色參考生成 SVG。
論文在 MMSVG-2M 數據集(圖標、插圖和角色)上將所提出的方法與 SOTA 文本轉 SVG 和圖像轉 SVG 均進行了比較。OmniSVG 在指令遵循性和生成的 SVG 的美觀性方面均優於現有的最佳方法。



結論與局限性
綜上所述,OmniSVG 是一種統一的可縮放矢量圖形(SVG)生成模型,利用預訓練的視覺 – 語言模型(VLM)進行端到端的多模態 SVG 生成。通過將 SVG 命令和坐標參數化為離散標記,OmniSVG 有效地將結構邏輯與低級幾何信息解耦,提高了訓練效率,同時保持了複雜 SVG 結構的表現力。此外,OmniSVG 在多個條件生成任務中表現出色,顯示出其在專業 SVG 設計工作流中應用的巨大潛力。
不過,在推理過程中,OmniSVG 會為複雜樣本生成數以萬計的標記,這不可避免地會導致相當長的生成時間。同時,在可預見的未來,將 SVG 風格的圖像和來源更豐富的自然圖像,融入協同訓練工作流,有望提升模型對輸入圖像風格的魯棒性。