階躍星辰 Tech Fellow 段楠:Step-Video 系列模型的關鍵技術解讀

4 月 18-19 日,由 CSDN&Boolan 聯合舉辦的「2025 全球機器學習技術大會」將在上海虹橋西郊莊園麗笙大酒店隆重舉行,本次大會共設 12 大技術專題,雲集院士、IEEE Fellow、頂尖學者、一線科技企業技術實戰專家組成的超 50 位重磅嘉賓。他們將以獨特的視角,解讀智能體、聯邦學習、多模態大模型、強化學習等前沿議題。
在 4 月 18 日下午,走在多模態研究前沿的階躍星辰 Tech Fellow,多模態基礎模型領域專家段楠博士將在「多模態大模型前沿」專場帶來《影片生成基礎模型進展、挑戰和未來》的主題分享,分享其在影片生成基礎模型方面的最新研究成果和賽前分析性思考。
段楠博士擁有深厚的學術背景和豐富的產業經驗。他長期深耕自然語言處理、代碼智能、多模態基礎模型和智能體等領域,是中國科學技術大學和西安交通大學兼職博導,天津大學兼職教授。在加入階躍星辰之前,段楠博士曾在微軟亞洲研究院擔任資深首席研究員及自然語言計算團隊研究經理長達十二年,對自然語言處理和多模態技術的發展做出了卓越貢獻。

Step-Video-T2V & Step-Audio:開源多模態模型的巔峰之作
據相關技術報告評測,階躍星辰開源的兩款具有突破性的 Step-Video-T2V 和 Step-Audio 模型都處於世界領先水平;而 Step-Audio 則是業內首款產品級的開源語音交互模型 。
-
Step-Video-T2V:https://github.com/stepfun-ai/Step-Video-T2V
-
Step-Audio:https://github.com/stepfun-ai/Step-Audio
Step-Video-T2V 是全球領先的影片生成模型,參數量高達 300 億,可生成長達 8-10 秒的 540P 高質量影片,確保內容信息密度和時空一致性,支持文生影片、圖生影片等多種任務,覆蓋複雜運動和電影級鏡頭語言等 11 類內容生成需求,並原生支持中英雙語輸入。
此外,Step-Audio 是全球首個可直接應用於工業級的開源語音交互模型,支持多語種語音生成與理解,具有實時性和高保真音質,適用於智能客服和跨語言翻譯等場景。Step-Video-T2V 在多項指標上超越現有開源模型,並已應用於自動駕駛和影視創作等領域,展現了強大的應用潛力。
在 2025 全球機器學習技術大會上,段楠博士將圍繞階躍星辰開源的 Step-Video 系列模型,深入剖析當前影片生成基礎模型的最新進展,涵蓋文生影片和圖生影片等關鍵任務。此外,段楠博士還將系統總結現有影片生成模型面臨的主要挑戰,並與參會者共同探討未來可能的發展方向,為開發者和研究者提供極具價值的參考和啟發。
無論你是科研學者、技術專家,還是行業從業者,都將在這裏收穫前沿洞見和實踐經驗,共同推動 AI 時代的技術變革與應用落地。

ML Summit 2025 創新展區:與您攜手探索 AI 新篇章
2025 全球機器學習技術大會(ML Summit 2025)不僅是技術領域的深度交流平台,更是推動 AI 生態融合、促進行業協同創新的重要契機。此外,延續往年傳統,本次大會將繼續在主會場外繼續設置與 AI 有關的企業創新展區。屆時,將有眾多 AI 產業鏈上的優秀企業帶來技術產品方案展示。目前展位已所剩不多,歡迎申請。

我們誠邀全球 AI 產業參與者積極加入,共同捕捉前沿趨勢,探索產業升級路徑,推動 AI 走向更廣闊的應用場景。期待在 ML Summit 2025,與每一位同行者攜手見證 AI 時代的新篇章!