智譜AI公佈清影新升級:影片生成步入「有聲」時代

新京報貝殼財經訊(記者羅亦丹)今年以來,Sora帶火的AI生成影片吸引了許多人的關注,年內各式各樣的AI影片大模型層出不窮,但有一點是一致的:所有AI生成的影片都是一段無聲的「默片」。不過這一點即將迎來改變。

11月8日,「新AI六小龍」之一的北京AI大模型公司智譜宣佈,其影片生成工具清影進行了重要升級,新清影在以下5個方面實現了提升:模型能力上,在圖生影片的質量、美學表現、運動合理性以及複雜提示詞語義理解方面能力明顯增強;支持生成 10s、4K、60 幀超高清影片;支持任意比例的圖像生成影片,包括超寬畫幅;新增同一指令/圖片可以一次性生成4個影片的多通道生成能力;以及最重要的——新清影可以生成與畫面匹配的音效,其音效功能將在本月上線公測。

根據智譜AI展示的影片,新清影生成的影片有著各式各樣的音效,如出現賽車影片時的引擎轟鳴聲,主角飛到空中時風颳過衣領獵獵作響的聲音,以及拉小提琴時可以貼合手部動作的琴聲等。

智譜AI演示影片截圖,圖中拉小提琴的影片為AI生成,且有聲音。智譜AI演示影片截圖,圖中拉小提琴的影片為AI生成,且有聲音。

智譜披露的技術博客文檔顯示,為影片增添聲音的是其開發的多模態模型家族音效模型 CogSound,基於GLM-4V的影片理解能力,CogSound 能夠準確識別並理解影片背後的語義和情感,並為無聲影片添加與之相匹配的音頻內容,甚至可以生成更加複雜的音效,如爆炸、水流、樂器、動物叫聲、交通工具聲等。

具體來看,CogSound 的音效生成能力主要得益於採用潛空間擴散模型(Latent Diffusion Model),將音頻生成過程從高維的原始空間轉移到低維潛空間,降低了計算複雜度,同時保持了生成音頻的高質量和高效率;引入分塊時序對齊交叉注意力(Block-wise Temporal Alignment Cross-attention)機制,優化了影片長序列與音頻特徵之間的特徵匹配;整合了旋轉位置編碼技術,通過為序列中的每個位置提供唯一標識並捕捉位置間的相對關係,讓每個影片幀的位置都擁有獨特的「坐標」,在音頻生成中有效提升了時序一致性,確保音頻序列的連貫性和過渡自然性。

「當前,AI生成影片用於影視創作仍需要多種不同的創作工具串聯使用,但基於我們多模態的最新成果,實現這種一站式原生多模態工作流,這樣的前景無疑是激動人心的。」智譜方面表示。

校對 吳興發