智譜AI影片大模型上線排隊30秒生成6秒影片 記者現場實測

Sora引爆公眾對大模型生成影片能力的期待後,國內企業也紛紛開啟了文生影片領域的探索,繼短影片企業快手推出影片模型可靈之後,專注於大語言模型的智譜AI也官宣進軍影片模型領域。

7月26日,智譜AI CEO張鵬在智譜Open Day上宣佈,AI生成影片模型清影(Ying)正式上線智譜清言,新京報貝殼財經記者實測了清影的影片生成能力,並現場採訪了張鵬。

記者實測:等待時間在1分鐘以內 影片可選擇4種風格

張鵬「官宣」清影發佈後,新京報貝殼財經記者登錄智譜清言首頁發現,出現了一個「清影智能體-AI生影片上線啦!」的彈窗,點擊進入並申請內測體驗後,申請幾乎被「秒通過」,隨後進入了清影的界面。

記者發現,清影分文生影片與圖生影片兩種模式,其中文生影片可以通過輸入不超過1000個文字的方式進行影片生成,進階參數還包括影片風格、情感氛圍、運鏡方式等,每一個參數又有不同的子選單,如影片風格包括3D卡通、黑白老照片、油畫、電影感等。

記者輸入完畢並點擊生成後,清影顯示「預計排隊1分鐘」,實際不到一分鐘,就生成了記者描述的「草原上背對鏡頭的牛仔」的畫面(智譜官方表示生成6秒影片只需要30秒的時間)。此前,記者也以類似的提示詞在可靈上生成了一段影片,下圖為二者的對比。

清影生成的影片截圖。清影生成的影片截圖。
可靈生成的影片截圖。可靈生成的影片截圖。

可以看出,兩個大模型都生成了記者描述的場景,不過風格有所不同。此外,相比清影不足1分鐘的等待時間,目前可靈的排隊時間較長,記者今日向可靈提交了一個影片生成要求後,被告知需要等待近300分鐘。

作為一個剛剛上線的AI生影片大模型,清影也有需要完善的地方,如記者輸入「潘長江和姚明打籃球」的提示詞,在等待了1分鐘後被提示「影片生成失敗」。對此,張鵬十分坦誠地表示,自己也有生成失敗的經歷,「目前是收集Bug的過程,歡迎大家反饋。」

據瞭解,清影能夠生成1440×960清晰度的高精度影片。「清影底層的影片生成模型是CogVideoX,它能將文本、時間、空間三個維度融合起來,參考了Sora的算法設計,它也是一個DiT架構,通過優化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。我們將繼續努力迭代,在後續版本中,陸續推出更高解像度、更長時長的生成影片功能。」張鵬說。

免費使用但需排隊 付費5元「加速」一天

在實測中,貝殼財經記者注意到,C端用戶使用清影是免費的,只不過要想在排隊中「加速」需要支付費用,費用為24小時5元,一年199元。此外,影片生成能力也接入了API,定價為價格為0.5元/次。

對於為何選擇這一價格,張鵬告訴貝殼財經記者,目前AI生成影片還處在初級嘗試階段,所以採用了人人可用付費加速的模式。值得注意的是,包括Sora在內,目前許多AI生成影片模型並未把能力開放給公眾。在張鵬看來,成本可能是其不開放的原因之一,「頂不住很多人來用」。

而對於清影的開放上線,張鵬表示,「這是為了讓大家體驗一下目前影片生成在每人可用的前提下能做到什麼程度,而不是關在實驗室里。現階段,無論是to C還是to B,純粹走向大規模商業化還比較早。」

在他看來,AI生成影片是未來實現AGI(通用人工智能)必須要走的路徑,而從產品上來說,清影未來是否會獨立商業化,「只要市場有需求,我們就會做。收費策略目前是早期嘗試,後會調整。」

目前技術仍存局限性 成本夠便宜AI生影片才會爆發

張鵬表示,影片生成非常依賴於數據,因此智譜AI通過合作夥伴,以及公開數據集的方式一起完成了數據積累。

另一方面,目前AI生成影片也依舊存在多種局限性,如人物面容不穩定等,每次生成都有隨機性等問題。對此,張鵬在接受記者採訪時表示,目前AI生成影片已經可以滿足某些特定的需求,包括廣告短片、演示影片、創意概念表達等,對於要求時間、效率非常快,且對細節要求不嚴苛時,AI生影片產品能夠幫助用戶快速降低成本和週期。

對於清影目前有哪些「短板」,張鵬表示,目前雖然模型的指令遵從能力非常強,但是當輸入細節非常多時還會遺漏一些細節,遵從能力和可控性上需要繼續提高。此外,在幀和幀之間,或者說整個動態展示之間有些細節還存在優化提升的空間,從這個角度來說,一是數據的原因,二是算法上、方法上還有改進的地方。

在被問到如何看待生成式影片技術發展的前景時,張鵬回覆貝殼財經記者稱,「當生成式影片的成本已經便宜到大家都無所謂了,這個事情就會大規模應用,過程中也會產生其他的商業化的方式,成本收益之間也在持續動態變化。」

記者聯繫郵箱:luoyidan@xjbnews.com

新京報貝殼財經記者 羅亦丹 編輯 陳莉 校對 穆祥桐