階躍星辰×光影煥像聯合打造超強3D生成引擎Step1X-3D!還開源全鏈路訓練代碼

階躍星辰攜手光影煥像發佈並開源 3D 大模型 ——Step1X-3D。Step1X-3D 模型總參數量達 4.8B(幾何模塊 1.3B,紋理模塊 3.5B),憑藉堅實的數據基礎與先進的 3D 原生架構,可生成高保真、可控的 3D 內容。

Step1X-3D 不止於視覺「好看」,更追求實現「好用」與「可控」,旨在為 3D 內容創作提供強大而可靠的技術引擎。這款模型可以廣泛應用在遊戲娛樂、影視與動畫製作、工業製造與設計等各種場景。

Step1X-3D 公佈了完整的數據清洗策略,數據預處理策略,以及 800K 高質量的 3D 資產,3D VAE、3D Geometry Diffusion 以及 Texture Diffusion 的全鏈路訓練代碼開源,助力 3D 生成社區發展。

  • 論文標題:Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

  • 作者:Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai,  Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan,Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

  • 代碼地址: https://github.com/stepfun-ai/Step1X-3D

  • 項目主頁:https://stepfun-ai.github.io/Step1X-3D

  • HuggingFace: https://huggingface.co/stepfun-ai/Step1X-3D

  • 技術報告: https://arxiv.org/pdf/2505.07747

歡迎大家上手體驗:

Online Demo(立即體驗):https://huggingface.co/spaces/stepfun-ai/Step1X-3D

核心特性與技術支撐

Step1X-3D 嘗試解決 3D 內容生成的關鍵挑戰,在數據、生成質量與可控性上進行了創新實踐。

1. 數據驅動與算法協同優化

好數據是好模型的基礎。Step1X-3D 對超 500 萬原始數據進行嚴格篩選與處理後,建立了包含 200 萬高質量、標準化的訓練樣本庫,有效克服了行業數據稀缺與質量參差的瓶頸。

數據處理流程示意圖數據處理流程示意圖

此外,Step1X-3D 通過增強型網格 – SDF 轉換技術等方法,從源頭保障了模型學習的精準性與最終生成的高效性,讓水密幾何轉換成功率提升了 20%,也讓 Step1X-3D 擁有了強大的泛化能力與細節捕捉力。

Step1X-3D 數據篩選與 SDF 轉換流程示意圖Step1X-3D 數據篩選與 SDF 轉換流程示意圖

2. 3D 原生生成:結構清晰、細節生動

Step1X-3D 採用先進的 3D 原生兩階段架構,解耦幾何與紋理表徵,確保生成的不僅是視覺「皮囊」,更是結構可靠、可供下遊應用的「骨架」,有效規避幾何失真,保證生成的準確性、真實感與一致性。

Step1X-3D 的原生 3D 架構Step1X-3D 的原生 3D 架構

基於 FLUX MMDiT 結構和 Rectified flow 算法直接對 3D 表示生成進行建模。

紋理生成模型基於預訓練的 Diffusion model,通過單視圖和 3D 幾何信息指導,生成多視角一致的紋理信息

2.1 幾何塑形更精準:

幾何生成的核心在於採用為 3D 特性深度優化的創新混合 VAE-DiT 架構。該架構負責生成水密(Watertight)的 TSDF 內部表示,確保產出的 3D 模型結構完整、無破面漏點;同時通過引入銳利邊緣采樣(Sharp Edge Sampling)等技術,精準捕捉並還原物體的豐富幾何細節。

幾何示例:覆蓋硬邊與曲面結構幾何示例:覆蓋硬邊與曲面結構

2.2 紋理細節更生動:

紋理生成則基於強大的 SD-XL 模型進行深度定製與優化。通過幾何條件(利用法線與位置信息)的精準引導,以及潛在空間多視圖同步技術,實現了與幾何模塊的高效協同。確保生成的紋理不僅色彩飽滿、質感生動逼真,更能跨越多視圖保持高度一致,與複雜三維表面精密貼合,有效避免常見的扭曲與接縫瑕疵。

紋理示例:呈現清晰一致的表面紋理紋理示例:呈現清晰一致的表面紋理

3. 控制簡單、效果可調

Step1X-3D 顯著提升了 3D 內容生成的可控性與易用性。其關鍵在於,VAE-Diffusion 整體架構在設計上與主流 2D 生成模型(如 Stable Diffusion)保持了高度一致性,從而能夠無縫引入並應用成熟的 2D 控制技術(如輕量化的 LoRA 微調)。

因此用戶可以對生成 3D 資產的對稱性、表面細節(如鋒利度、平滑度)等多種屬性進行直觀、精細的調控,讓創作更精準地符合用戶意圖。

對比圖 1:對稱性控制效果對比圖 1:對稱性控制效果
對比圖 2:表面細節控制效果(鋒利 / 平滑)對比圖 2:表面細節控制效果(鋒利 / 平滑)

性能評估

為了客觀評估 Step1X-3D 的實際效果,我們通過一個自建的綜合測試,對 Step1X-3D 進行了嚴格的定量與定性評估,同時與多款主流模型進行全面對比。

結果顯示:在自動評估中,Step1X-3D 在多項關鍵維度上均表現出色。

在與主流 3D 模型的對比評測中,特別是在衡量內容與輸入語義一致性的核心指標 CLIP-Score 上,Step1X-3D 取得了當前所有對比模型中的最高分,為開源社區提供了極具競爭力的 3D 生成方案。

不同 3D 模型測評對比數據不同 3D 模型測評對比數據

團隊介紹

階躍星辰 Step1X-3D 團隊和光影幻像 LightIllusions 團隊。階躍星辰以實現 AGI為目標,規劃了從單模態到多模態、再到多模理解與生成統一的技術路徑,最終構建世界模型的大模型公司。光影煥像是一家專注於 3D AIGC 和空間智能技術的人工智能初創公司,公司致力於通過 AI 解放 3D 內容生產力。公司自設立之後便迅速建立了算法研發和產品落地並重的海內外人才梯隊,擁有一批 3D AIGC 領域頂尖人才,迄今已經發表過多個 3D AIGC 代表性工作,彙集了來自港科大博士、字節、美團等具有頂級研發能力和豐富技術產品化經驗的同學。 公司目前持續重點投入 3D 和空間智能相關的 AI 底層模型的研發,打造 3D 空間智能大腦,同時積極推進 3D 內容商業化落地。

官網:https://www.lightillusions.com/