科技

CVPR 2025：長Prompt對齊問題也能評估了！當前最大AIGC評估數據集，模型評分超越當前SOTA

03月14日 19:23 新浪網 tech-auto-hilite

AGI-Eval團隊投稿

量子位 | 公眾號 QbitAI

今年，CVPR共有13008份有效投稿並進入評審流程，其中2878篇被錄用，最終錄用率為22.1%。

錄用論文上來看，多模態相關內容仍是關注重點。

上海交通大學-美團計算與智能聯合實驗室發佈的論文也被錄用，論文提出了Q-Eval-100K數據集與Q-Eval-Score評估框架。

論文致力於解決以下問題：

現有的文本到視覺評估數據集存在關鍵評估維度缺乏系統性、無法區分視覺質量和文本一致性，以及規模不足等問題；
評估過程複雜、結果模糊，難以滿足特定評估需求，限制了基於大模型的評估模型在實際場景中的應用

相關實驗也表明數據集和方法在評估結論和泛化性方面都做到的當前業界的領先水準。

在下表中可以看到數據集Q-Eval-100K的實例數量和人工標註數量遠超其他數據集，可以說Q-Eval-100K是當前最大的AIGC評估數據集。

同時跨數據集驗證顯示，在Q-Eval-100K上訓練的模型在GenAI-Bench數據集上表現出色，遠超當前先進方法，充分證明了Q-Eval-100K數據集的泛化價值。

數據集Q-Eval-100K開啟了文本到視覺內容評估的新時代，同時Q-Eval-Score提供一個開源的較為準確客觀的AIGC打分框架，可用於對AIGC圖片影片生成類模型的評估。

Q-Eval-100K數據集共計包含了100K的AIGC生成數據（其中包含60k的AIGC圖片以及40k的AIGC影片）。

接下來，將對Q-Eval-100K數據集與Q-Eval-Score評估框架進行詳細介紹。

數據集構建

在數據集構建上，團隊確保遵循三個原則：

1）保證數據多樣性。為了收集到接近真實場景下多樣性的數據集，團隊從三個大的維度出發構建了對應的prompt集，這三個大的維度可以被劃分為實體生成（people，objects,animals,etc.），實體屬性生成（clothing,color,material,etc.），交叉能力項（backrgound，spatialrelationship,etc.），通過對於不同維度數據的比例控制，確保了prompt數據的多樣性。同時，團隊還使用了當前SOTA開源或者API的AIGC模型進行數據生成，從而確保了生成數據的高質量。這些AIGC模型包括FLUX，Lumina-T2X，PixArt，StableDiffusion 3，CogVideoX，Runway GEN-3，Kling等。

2）高質量的數據標註。團隊招募了200多名經過培訓的人員進行人工打分標註，從這些人員手中收集了超過960k條相關數據的打分信息。經過人工嚴格的篩選和過濾後，最終得到了這100k AIGC數據以及其對應的一致性/質量標註數據。通過這樣的方式，可以確保標註數據與人類偏好的高度一致性，從而提升了Q-Eval-Score評估框架的一致性與泛化能力。

3）視覺質量和文本一致性解耦標註。團隊觀察到當前對於AIGC模型質量的研判主要聚焦於視覺質量和文本一致性兩個方面，因此，在數據集構建的過程當中將兩個維度拆分開標註，以確保Q-Eval-Score可以同時對這兩個維度進行評估。如下圖所示，在統計了多個AIGC模型的視覺質量和文本一致性mos分後，團隊發現兩個維度上模型的表現存在一定的差異性，因此也說明了將兩個維度解耦的必要性。