智譜AI公佈清影新升級：影片生成步入「有聲」時代

新京報貝殼財經訊（記者羅亦丹）今年以來，Sora帶火的AI生成影片吸引了許多人的關注，年內各式各樣的AI影片大模型層出不窮，但有一點是一致的：所有AI生成的影片都是一段無聲的「默片」。不過這一點即將迎來改變。

11月8日，「新AI六小龍」之一的北京AI大模型公司智譜宣佈，其影片生成工具清影進行了重要升級，新清影在以下5個方面實現了提升：模型能力上，在圖生影片的質量、美學表現、運動合理性以及複雜提示詞語義理解方面能力明顯增強；支持生成 10s、4K、60 幀超高清影片；支持任意比例的圖像生成影片，包括超寬畫幅；新增同一指令/圖片可以一次性生成4個影片的多通道生成能力；以及最重要的——新清影可以生成與畫面匹配的音效，其音效功能將在本月上線公測。

根據智譜AI展示的影片，新清影生成的影片有著各式各樣的音效，如出現賽車影片時的引擎轟鳴聲，主角飛到空中時風颳過衣領獵獵作響的聲音，以及拉小提琴時可以貼合手部動作的琴聲等。

智譜AI演示影片截圖，圖中拉小提琴的影片為AI生成，且有聲音。

智譜披露的技術博客文檔顯示，為影片增添聲音的是其開發的多模態模型家族音效模型 CogSound，基於GLM-4V的影片理解能力，CogSound 能夠準確識別並理解影片背後的語義和情感，並為無聲影片添加與之相匹配的音頻內容，甚至可以生成更加複雜的音效，如爆炸、水流、樂器、動物叫聲、交通工具聲等。

具體來看，CogSound 的音效生成能力主要得益於採用潛空間擴散模型（Latent Diffusion Model），將音頻生成過程從高維的原始空間轉移到低維潛空間，降低了計算複雜度，同時保持了生成音頻的高質量和高效率；引入分塊時序對齊交叉注意力（Block-wise Temporal Alignment Cross-attention）機制，優化了影片長序列與音頻特徵之間的特徵匹配；整合了旋轉位置編碼技術，通過為序列中的每個位置提供唯一標識並捕捉位置間的相對關係，讓每個影片幀的位置都擁有獨特的「坐標」，在音頻生成中有效提升了時序一致性，確保音頻序列的連貫性和過渡自然性。

「當前，AI生成影片用於影視創作仍需要多種不同的創作工具串聯使用，但基於我們多模態的最新成果，實現這種一站式原生多模態工作流，這樣的前景無疑是激動人心的。」智譜方面表示。

校對吳興發