AGI-Eval團隊:AI影片生成模型年度橫評,Sora大餅落地,但國產模型仍然領先!
AGI-Eval團隊 投稿
量子位 | 公眾號 QbitAI
說到2024年AI圈的熱門話題,當然不能錯過影片生成模型了!
即使是在12月,國內外影片模型的更新腳步依舊沒有放緩。其中以Sora、可靈AI為代表。
12月9日,OpenAI正式推出影片產品Sora。用戶可以創建任意長寬比例的解像度高達1080p(最長 20 秒)的影片,可接收文本、圖像和影片輸入並生成新影片作為輸出。
12月19日,可靈AI宣佈基座模型再升級,影片生成推出可靈1.6模型,文本響應度、畫面美感及運動合理性,均有明顯提升,畫面更穩定更生動,同時支持標準和高品質模式,特別是1.6模型的圖生影片,內部評測比 1.5 模型整體效果提升195%。
影片模型競爭激烈,評測榜單也變得尤為重要。
AGI-Eval通過構建上百條評測數據和專家級人工評測團隊,對Sora 、及國產頭部影片生成模型進行了更深度的專業評測。
主要結論有以下3個:
結論1
與國內頭部大模型(國內前三)相比,Sora在影片-文本一致性維度、影片質量上均有小幅落後。總體來看,國內大模型仍保持領先水平。
結論2
Sora在運動質量維度表現略好於可靈1.6,即生成的影片畫面在動態過程中的主體一致性和動態幅度更自然。
結論3
在影片-文本一致性維度上,Sora存在文本理解有誤、指令遵循不符的問題,即生成的影片內容與提示詞的描述不符的現象。
詳細的榜單排名如下,評測維度包括影片-文本一致性 、影片質量(含真實性、合理性) 、運動質量等,確保評測結果反饋模型真實水平。
註:以上數據為示例,具體評分請參考AGI-Eval評測社區平台的最新數據。
榜單數據經過歸一化處理,與原始分值有所區別,但排名一致。
詳細評測對比:Sora VS 國內影片生成模型
一起來看看詳細的測評結果。
從影片生成的整體效果來看,Sora在影片質量、創作自由度、風格支持等方面的表現更優,尤其是在動態場景下五官的呈現上更為細緻。
示例對比
【示例1】:文本一致性
Prompt: 地上放著一個籃球、麵包和背包,鏡頭跟隨勞累的運動員來到物品面前,拿起一樣物品用來補充能量。
英文prompt:There is a basketball, a loaf of bread, and a backpack on the ground. The camera follows the exhausted athlete as he approaches the items and picks up one of them to replenish his energy.
該prompt本身較為複雜,同時存在多個實體、人物狀態表現,且需要模型進行正確的推理,考察的能力更加全面。
Sora-1080P
該維度打分:2分
分析:要求生成的實體中,背包缺失,麵包表現較差,丟失實體特徵;人物動作」拿起「不符合,無法判斷是否符合推理正確的物體。
可靈1.6
該維度打分:2.67分
分析:要求生成的實體中,麵包缺失,」拿起「的動作有趨勢但表現較差,同樣無法判斷是否符合推理正確的物體。
Pixverse-V3
該維度打分:3.5分
分析:要求生成的實體及人物動作「拿起」均滿足,也能達成正確的推理,理解需要拿的是麵包,但不符合鏡頭跟隨和人物動作「來到」,相對來說已經表現得不錯。
MiniMax-Video-01
該維度打分:3分
分析:要求生成的實體中,麵包缺失,「拿起」動作不符合,但推理正確,理解需要拿的是麵包。
Prompt:高溫變色馬克杯廣告。一個黑色高溫變色馬克杯正被加入熱水,逐漸變成白色的過程。重點需要突出馬克杯的變色能力。
英文prompt:High-temperature color-changing thermos advertisement. A black high-temperature color-changing thermos cup is being filled with hot water, gradually transforming into white. The key focus is to highlight the thermos cup’s color-changing capability.
該prompt實體較簡單,但傾向於考察水流、熱氣、顏色漸變等細節,流暢的細節變化通常來說較為困難。
Sora-1080P
該維度打分:2.67分
分析:忽略prompt要求的重點,未體現出變色的過程。
可靈1.6
該維度打分:4分
分析:變色過程不完全符合要求,但相對來說較好。
Pixverse-V3
該維度打分:3分
分析:未體現正在加水,變色有體現,但不符合逐漸變白的要求。
MiniMax-Video-01
該維度打分:2.67分
分析:同樣未體現出變色的過程,也無法看出是熱水。
【示例2】:物品生成穩定性(突然出現或消失)
Prompt: 一款創意蛋糕的宣傳廣告。一把餐刀切開了蛋糕,從蛋糕的切口處湧出了草莓醬。
英文prompt:An advertisement for a creative cake. A dining knife slices through the cake, and strawberry sauce flows out from the cut.
該prompt重在考察運動細節及實體之間的交互,模型在「切口處湧出了草莓醬」上表現得各有差異。
Sora-1080P
該維度打分:2.5分
分析:該影片中果醬多次忽然出現和忽然消失,蛋糕忽然出現缺口,僅針對穩定性較差。
可靈1.6
該維度打分:3.5分
分析:能看到刀的動作導致蛋糕出現切口,果醬的出現比較突兀不合理。
Pixverse-V3
該維度打分:3.5分
分析:果醬和刀的形態穩定,蛋糕的切口出現較為突兀。
MiniMax-Video-01
該維度打分:3分
分析:刀和蛋糕的形態較穩定,符合切開的狀態,但果醬忽然大量出現不合理。
【示例3】:實體畸形
Prompt: 生成一個動畫風格的影片,內容是一個女孩正在巴黎旅行,她的面前是埃菲爾鐵塔。
英文prompt:Generates an animated-style video of a girl traveling in Paris with the Eiffel Tower in front of her.
Sora-1080P
該維度打分:2.67分
分析:背景鳥群出現明顯畸形及不合理滯空,背景行人有粘連及行走姿態明顯不合理,整體觀感上較為明顯。
可靈1.6
該維度打分:4分
分析:主體人物及建築物整體的形態均較好,部分背景人物出現輕微畸形,整體對觀感影響較小。
Pixverse-V3
該維度打分:3分
分析:主體人物手指有輕微粘連形變,背景建築物發生形變,觀感上稍有不合理。
MiniMax-Video-01
該維度打分:3.5分
分析:主體人物手指輕微形變,左側出現的背景人物面部有輕微扭曲,觀感上稍有不合理。
Prompt: 同事們正在辦公室門前交談。
英文prompt:Colleagues are talking in front of the office door.
Sora-1080P
該維度打分:2.5分
分析:人物有明顯的穿模,門發生的形變也較明顯,影響嚴重。
可靈1.6
該維度打分:3.5分
分析:人物整體形象較好,無明顯畸形,部分鏡頭中人物手部存在形變,造成一定的影響。
Pixverse-V3
該維度打分:3分
分析:人物手指形變持續存在且較嚴重,較影響視覺效果。
MiniMax-Video-01
該維度打分:3.5分
分析:人物整體形象較好,無明顯畸形,部分鏡頭中人物手部存在形變,造成一定的影響。
【示例4】:鏡頭技巧
Prompt: 創意影片,升鏡拉鏡結合,鏡頭從一座繁忙的城市拉升到空中、太空、宇宙外,需要展示出地球是其他宇宙高維生命手中的玻璃球
英文prompt:A creative video combining zoom-in and zoom-out techniques, with the shot pulling up from a bustling city to the sky, into space, and beyond the universe, revealing Earth as a glass ball in the hands of higher-dimensional beings from another universe.
Sora-1080P
該維度打分:3分
分析:拉鏡有所表現,但升鏡體現較差,影片整體鏡頭表現較單一。
可靈1.6
該維度打分:4分
分析:影片能較好的體現升鏡、拉鏡,場景變化的過度比較自然,整體流暢。
Pixverse-V3
該維度打分:3.5分
分析:升鏡體現較好,但拉鏡未明確表現,影片整體場景轉化較流暢。
MiniMax-Video-01
該維度打分:3分
分析:拉鏡有所表現,但升鏡體現較差,影片整體效果較為突兀。
是怎麼評測的?
針對基礎模型,AGI-Eval採用了不同的評測方法及不同的評測方式,包含人工主觀評測、模型打分(modeleval)、眾包評測三種方式,考察模型在不同版本下是否有能力下降、風格等影響導致榜單結果差異,反饋模型綜合能力。
人工評測
評測說明:
給定prompt的影片,人工從影片文本一致性、影片質量、運動質量等維度綜合給被測影片打1-5絕對值分,並標註出被測影片的錯誤標籤;影片採用多輪標註的方式,2人打分結果相同則為該prompt結果,若2人打分diff則進入3標,最終3人平均為被測影片最終分數。
評測思路:
影片文本一致性:是否按照prompt的要求生成影片,包括對物體、人物、場景、風格、運動細節等所有相關要素的描述是否完整遵循。
影片質量:
合理性:影片在邏輯、結構、設計、運動軌跡等維度是否符合常規,即,是否符合物理規律。
真實性:影片具有逼真效果,無明顯AI痕跡。
運動質量:影片中的運動表現是否流暢、連貫、動態效果是否豐富。
評測集介紹:
根據一致性、運動質量、畫面質量等關鍵性能指標,構建了包含500條中英文對照樣本的黑盒測試集,覆蓋了從動作生成到情緒生成多種複雜場景和能力項及應用場景;在構建中也結合到了物理常識和百科知識,評估生成影片的真實感和邏輯性。
評測案例:
任務類型:相互影響多實體生成
Prompt:一隻貓叫醒了正在睡覺的主人。
模型答案:
評測分析:
影片綜合打分:3分
一致性:4分,實體生成符合要求,但對於「叫醒」的動作過程體現不完整。
影片質量:3分,運動過程中人物肢體、貓面部都呈現出變形。
運動質量:3分,運動基本連貫,最後貓爪收回動作不自然,機械感較明顯。
任務類型:實體&動作生成
Prompt:插水運動員們正在熱身。
模型答案:
評測分析:
影片綜合打分:1分
一致性:1分,要求的實體及動作完全未體現。
影片質量:1分,視覺中心的主體畸形,場景下方也存在變形不連貫。
運動質量:2分,下方憑空出現實體,運動連貫性、動態效果、運動幅度均差。
AGI-Eval評測平台
鑒於傳統評測方式難以充分反映模型的真實水平,AGI-Eval創新性地提出了人機協作評測模式,探索建設高質量評測社區建設。
在這種模式下,參與者可以與最新的大模型共同完成任務,既有助於提高任務完成度又便於建立更加直觀的區分度。
基於前期的一些用戶實驗表明,通過這種方式不僅可以獲得更為簡潔、完善的推理過程描述,還可以進一步提升用戶與大模型之間的互動體驗。
未來,隨著更多類似平台的出現和發展,相信人機協作將成為評測領域的一個重要發展方向。
人機社區鏈接:https://agi-eval.cn/llmArena/home
AGI-Eval 平台基於真實數據回流、能力項拆解等方式,自建萬量級私有數據,並經過多次質檢保證準確率。
黑盒100%私有化數據,可保證評測數據不可「穿越」。
從數據建設到模型評測,實現全層級能力項目,一級能力涵蓋指令遵循、交互能力、認知能力(含推理、知識、其他認知能力等);完美實現自動與人工評測相結合。
對於Chat模型,平台官方榜單結合主觀、客觀評測結果,中英文權重分佈均衡。
客觀評測基於模型打分,可處理具有一定自由度問題,準確率95%+;主觀評測基於三人獨立標註,並記錄細分維度標籤結果,全面診斷模型問題。
想要申請文生影片測評的朋友可以直接聯繫AGI-Eval團隊。
AGI-Eval團隊介紹
AGI-Eval是由上海交通大學、同濟大學、華東師範大學、DataWhale等高校和機構合作發佈的大模型評測社區,以「評測助力,讓AI成為人類更好的夥伴」為使命。平台旨在打造公正、可信、科學、全面的評測生態,號召大眾共同投入到大模型評測工作,參與數據構建及豐富有趣的人機協作比賽,與大模型協同完成複雜任務,實現評測方案共建。
AGI-Eval多模態評測可承接全模態(any toany)模型評測(部分榜單待上線),歡迎各位模型廠商提報評測合作交流。
文生影片測評申請方式:
請使用單位郵箱,將測評研究目的、計劃,研究機構、申請者介紹和聯繫方式(手機或微信),發送到郵箱。郵箱:agieval17@gmail.com,標題是:AGI-Eval文生影片測評申請