生數科技朱軍:影片模型下一步是高可控,中國影片大模型引領全球

「在大語言模型領域,DeepSeek在提升效率上有獨特的認知,而效率的優化的理念在影片模型領域已經紮根,因此大概率不會出現這種一下子‘遙遙領先’的模型,我們期待影片模型更可控、更好用、每個人都能用到。」清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍告訴新京報貝殼財經記者。

3月27日至31日,2025中關村論壇年會舉行。在去年的中關村論壇上,朱軍發佈了對標Sora的首個國產自研影片大模型Vidu,受到了廣泛關注。而2025中關村論壇上,朱軍在主題演講中發佈了業內首個高可控影片大模型Vidu Q1,並在會後接受了新京報貝殼財經記者的採訪。

朱軍在2025中關村論壇上發表演講 新京報貝殼財經記者 羅亦丹 攝朱軍在2025中關村論壇上發表演講 新京報貝殼財經記者 羅亦丹 攝

Q代表「質量」 高可控背後是基礎模型能力提升

本次回歸中關村論壇,朱軍帶來了更為強大的 Vidu Q1模型,他告訴記者,Q代表「Quality(質量)」,即高質量、高可控,這本身實際上是基礎模型能力的提升,「目前階段投入基礎模型的收益還是最大的,加上基礎模型之上的一些技術創新,從後端可以更好地實現高一致性和高可控的結果。」

貝殼財經記者通過影片演示發現,Vidu Q1模型在位置、運動佈局、音頻等多個領域實現了可控升級。以多主體細節可控為例,在語義指令的基礎上,通過融入參考圖的視覺指令,Vidu Q1支持對所有動作行為(出場、退場、坐立姿態、行動路線)進行精準調整,從而用更低的抽卡率實現更高質量的可控生成。

朱軍介紹,Vidu在商業化方面一直是C端與B端並重,不過目前C端由於面向全球,增長速度很快,因此影片模型的技術突破可以更好地服務廣大用戶。而B端則面向國內市場,目前已經看到了對MaaS(模型即服務)的廣泛需求,今年也會繼續同步推進兩種業務。

「去年,Vidu在中關村論壇開幕前一週時實現了技術突破,因此也被邀請來到這樣一個高端平台上進行展示。而今年是論壇一週年,也是Vidu大模型的一週年,因此也想在這裏傳達一些進展。」朱軍告訴新京報貝殼財經記者。

影片模型最重要的是效率 中國影片模型引領全球

朱軍表示,目前大語言模型領域有能力非常領先的頭部公司,但影片模型領域完全不同,「現在可以認為中國的影片模型在全球,於很多方面是處於引領地位的。」

「另外,影片模型的商業化路徑會更快,大家對影片模型的消費和需求非常廣闊,所以影片和文字的賽道不一樣。目前頭部的影片大模型各自都有特色、差異化的商業化的路徑,並沒有像語言模型處於紅海狀態。」朱軍說。

在他看來,影片大模型的發展,更重要的還要看團隊能否持續創新,行業上公司的密度還比較稀疏,大概率不會出現一家獨大的情況。

另外,新京報貝殼財經記者注意到,今年以來DeepSeek引領起了大模型的開源浪潮,阿里雲也推出了開源版本的影片模型。對此,朱軍回應稱,DeepSeek最打動用戶的點還是效果好、效率高,「我們認為從影片模型的角度來說,用戶最關心的還是質量和效率。」

記者聯繫郵箱:luoyidan@xjbnews.com

新京報貝殼財經記者 羅亦丹

編輯 寇德娜

校對 王心