英偉達版Sora被曝違規抓取大量數據,官方表示不服

白交 發自 凹非寺

量子位 | 公眾號 QbitAI

英偉達版Sora曝光——

代號Cosmos,研究副總裁劉洺堉擔任負責人。

不過隨著幾份內部文件的泄露,他們還被曝非法抓取數據。

(確實這也不是一次兩次了……)(確實這也不是一次兩次了……)

員工被默許每天在網絡上抓取任何未經授權、未經同意數據,比如YouTube、奈飛等等這種平台上。

合起來,每天抓取的幾乎是一個人80年能感知到的視覺數據。

結果英偉達回應稱:我們這做法,完全合法!

英偉達版Sora曝光:代號Cosmos

據404Media所獲取的泄密文件顯示,英偉達每天都會抓取非法數據來訓練新模型。

Cosmos的目標是構建一個最先進的影片基礎模型。據泄露的郵件顯示該模型集合了光傳輸、物理和智能的模擬,以解鎖對各種下遊應用。

△圖源:404 Media△圖源:404 Media

比如被用到Omniverse 3D 世界生成器、自動駕駛汽車系統和數字人產品。

英偉達研究副總裁Ming-Yu Liu(劉洺堉)擔任Cosmos的項目負責人。

他同時也是IEEE Fellow。他帶領英偉達Deep Imagination研究小組,推出了NVIDIA Picasso [Edify]、NVIDIA Canvas [GauGAN]和NVIDIA Maxine [LivePortrait]等產品。

此前5月份的一封電子郵件中顯示:

我們正在完成 v1 數據管道並確保必要的計算資源,以構建一個影片數據工廠,該工廠每天可以產生相當於人類一生視覺體驗的訓練數據。

△圖源:404 Media△圖源:404 Media

這張圖中顯示英偉達首席科學家 Francesco Ferroni給了個表格鏈接,裡面彙集了各種影片數據集,包括 MovieNet(一個包含 60,000 個電影預告片的數據庫)、WebVid、 InternVid-10M,以及幾個內部捕獲的影片遊戲鏡頭數據集。

如今據一位前員工爆料稱,員工會被要求從YouTube、奈飛等來源來抓取數據。

他們會使用一個名為yt-dlp的開源YouTube影片下載器,它能使用虛擬機來刷新IP地址,以避免被YouTube屏蔽。

為此,英偉達向404 Media回應稱:

我們尊重所有內容創作者的權利,並相信我們的模型和研究工作完全符合版權法的條文和精神。

版權法保護特定的表達方式,但不保護事實、想法、數據或信息。任何人都可以自由地從其他來源瞭解事實、想法、數據或信息,並用它來表達自己的觀點。合理使用還保護將作品用於變革性目的的能力,例如模型訓練。」

而Google則是扔給404 Media一個鏈接,今年4月YouTube CEO表示,如果OpenAI用YouTube影片來訓練Sora,那麼明顯違反YouTube的使用條款。

而奈飛則表示,他們並未與英偉達達成內容提取協議,而且該平台的服務條款不允許抓取內容。

有意思的是,同一天,YouTube博主正在尋求對OpenAI集體訴訟,指控該公司在未通知或補償影片所有者的情況下,使用數百萬條 YouTube 影片記錄來訓練其生成式 AI 模型。

而此前這些大廠被曝非法抓取數據的事情也屢見不鮮。

不過必須要說的是,這種原始數據真的很有用…

之前英偉達還用遊戲影片,來改善訓練數據質量。

最近登上Nature封面的那篇研究顯示,這種用最初互聯網數據訓練的大模型,具有正選優勢,數據質量最好,對應的模型性能也最好。

之後隨著AI數據越來越氾濫,反而容易讓大模型崩潰。

Garbage in,Garbage out

對於這件事,你怎麼看呢?

參考鏈接:

[1]https://techcrunch.com/2024/08/05/youtuber-files-class-action-suit-over-openais-scrape-of-creators-transcripts/

[2]https://www.gamedeveloper.com/business/report-nvidia-used-scraped-video-game-footage-to-train-ai-products

[3]https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

[4]https://pivot-to-ai.com/2024/08/05/nvidia-caught-ingesting-as-much-of-youtube-as-possible/