性能媲美GPT-4o 和 Gemini2 Flash,階躍星辰開源通用圖像編輯模型Step1X-Edit
首創 MLLM 與 DiT 深度融合,階躍星辰發佈開源圖像編輯模型 Step1X-Edit。
整理 | 夢依丹
在圖像編輯領域,開源模型正在加速追趕頂級閉源模型。近日,階躍星辰正式發佈並開源了圖像編輯大模型 Step1X-Edit,在性能上達到當前開源體系的 SOTA 水平,且性能可與 GPT-4o 與 Gemini 2 Flash 等閉源模型相媲美。

Step1X-Edit:統一的圖像編輯模型在各種真實用戶指令上的效果
Step1X-Edit 由 19B 參數構成(7B 多模態語言模型 MLLM + 12B 擴散圖像 Transformer DiT),具備語義精準解析、身份一致性保持和高精度區域級控制三項核心能力。模型支持包括文字替換、風格遷移、材質變換、人物修圖在內的 11 類高頻圖像編輯任務,能夠靈活應對複雜的編輯指令。

在技術路徑上,Step1X-Edit 首次在開源體系中實現了多模態語言理解與擴散圖像生成的深度融合。模型能夠解析參考圖像與用戶編輯指令,提取潛在嵌入,並與擴散式圖像解碼器協同工作,生成符合預期的高質量編輯圖像。
為了有效支撐模型訓練,團隊自建了全新的高質量數據生成管道,自動生成由參考圖像、編輯指令與目標圖像組成的大規模三元組數據集,確保數據在多樣性、代表性與精度上的高標準,為模型的全面學習與泛化能力打下堅實基礎。
在科學評估方面,團隊構建了全新的 GEdit-Bench 基準,基於真實用戶指令進行設計。評測結果顯示,Step1X-Edit 在語義一致性、圖像質量與綜合得分等多項指標上,顯著優於現有開源圖像編輯模型,在開源體系中達到了新的性能高度。

根據官方論文介紹,Step1X-Edit 的整體架構由三個核心組件組成:多模態大型語言模型(MLLM)、連接模塊以及擴散 Transformer(DiT)。

在處理流程中,用戶的編輯指令與參考圖像一同輸入 MLLM(如 Qwen-VL),通過單次前向傳遞捕獲文本與視覺內容之間的深層語義關係。為突出與編輯任務直接相關的信息,模型在處理過程中有選擇地丟棄了與系統前綴相關的令牌嵌入,僅保留對齊於編輯指令的嵌入內容,確保後續處理聚焦於用戶需求。
提取後的嵌入隨後進入一個輕量級連接模塊(如令牌精煉器),該模塊將嵌入重組為更加緊湊的文本特徵,並替換至下遊 DiT 網絡中,取代傳統的文本編碼器嵌入。同時,系統會對所有輸出嵌入求平均,並經過線性層投影,生成全局視覺引導向量,進一步提升編輯的上下文感知能力。
為了有效訓練連接模塊並豐富跨模態條件理解,Step1X-Edit 參考了 FLUX-Fill 中的令牌連接機制:在訓練階段,系統同時輸入目標圖像與參考圖像,前者經過編碼與高斯噪聲擾動以增強泛化能力,兩者的潛變量再線性投影為圖像令牌,並在令牌長度維度上拚接,形成融合特徵作為最終視覺輸入。整個模型在聯合學習框架下進行訓練,連接模塊與 DiT 網絡同步優化,並採用 Qwen 與 DiT 文本到圖像模型的預訓練權重進行初始化,以實現更快收斂與更優性能遷移。
通過在統一框架內整合結構化語言引導、分詞級視覺建模與強大預訓練骨幹,Step1X-Edit 顯著提升了在多種複雜編輯指令下實現高保真、語義對齊圖像編輯的能力。
Step1X-Edit 相關體驗地址
Github:
-
https://github.com/stepfun-ai/Step1X-Edit
HuggingFace:
-
https://huggingface.co/stepfun-ai/Step1X-Edit
ModelScope:
-
https://www.modelscope.cn/models/stepfun-ai/Step1X-Edit/summary
技術 Report:
-
https://arxiv.org/pdf/2504.17761

風吹,萬物生,🌱
三大GPU算子挑戰上線:FP8 GEMM、MLA with ROPE、Fused MoE
💰10萬美元獎金等你來領!
🌍 全球開發者熱血競技,矽谷之約等你來赴~
