生數科技朱軍：影片模型下一步是高可控，中國影片大模型引領全球

「在大語言模型領域，DeepSeek在提升效率上有獨特的認知，而效率的優化的理念在影片模型領域已經紮根，因此大概率不會出現這種一下子‘遙遙領先’的模型，我們期待影片模型更可控、更好用、每個人都能用到。」清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍告訴新京報貝殼財經記者。

3月27日至31日，2025中關村論壇年會舉行。在去年的中關村論壇上，朱軍發佈了對標Sora的首個國產自研影片大模型Vidu，受到了廣泛關注。而2025中關村論壇上，朱軍在主題演講中發佈了業內首個高可控影片大模型Vidu Q1，並在會後接受了新京報貝殼財經記者的採訪。

朱軍在2025中關村論壇上發表演講新京報貝殼財經記者羅亦丹攝

Q代表「質量」高可控背後是基礎模型能力提升

本次回歸中關村論壇，朱軍帶來了更為強大的 Vidu Q1模型，他告訴記者，Q代表「Quality（質量）」，即高質量、高可控，這本身實際上是基礎模型能力的提升，「目前階段投入基礎模型的收益還是最大的，加上基礎模型之上的一些技術創新，從後端可以更好地實現高一致性和高可控的結果。」

貝殼財經記者通過影片演示發現，Vidu Q1模型在位置、運動佈局、音頻等多個領域實現了可控升級。以多主體細節可控為例，在語義指令的基礎上，通過融入參考圖的視覺指令，Vidu Q1支持對所有動作行為（出場、退場、坐立姿態、行動路線）進行精準調整，從而用更低的抽卡率實現更高質量的可控生成。

朱軍介紹，Vidu在商業化方面一直是C端與B端並重，不過目前C端由於面向全球，增長速度很快，因此影片模型的技術突破可以更好地服務廣大用戶。而B端則面向國內市場，目前已經看到了對MaaS（模型即服務）的廣泛需求，今年也會繼續同步推進兩種業務。

「去年，Vidu在中關村論壇開幕前一週時實現了技術突破，因此也被邀請來到這樣一個高端平台上進行展示。而今年是論壇一週年，也是Vidu大模型的一週年，因此也想在這裏傳達一些進展。」朱軍告訴新京報貝殼財經記者。

影片模型最重要的是效率中國影片模型引領全球

朱軍表示，目前大語言模型領域有能力非常領先的頭部公司，但影片模型領域完全不同，「現在可以認為中國的影片模型在全球，於很多方面是處於引領地位的。」

「另外，影片模型的商業化路徑會更快，大家對影片模型的消費和需求非常廣闊，所以影片和文字的賽道不一樣。目前頭部的影片大模型各自都有特色、差異化的商業化的路徑，並沒有像語言模型處於紅海狀態。」朱軍說。

在他看來，影片大模型的發展，更重要的還要看團隊能否持續創新，行業上公司的密度還比較稀疏，大概率不會出現一家獨大的情況。

另外，新京報貝殼財經記者注意到，今年以來DeepSeek引領起了大模型的開源浪潮，阿里雲也推出了開源版本的影片模型。對此，朱軍回應稱，DeepSeek最打動用戶的點還是效果好、效率高，「我們認為從影片模型的角度來說，用戶最關心的還是質量和效率。」

記者聯繫郵箱：luoyidan@xjbnews.com

新京報貝殼財經記者羅亦丹

編輯寇德娜

校對王心