影片生成界的大瓜:Runway 組織公司全員,把互聯網扒了個干乾淨淨

Runway 在 6 月發佈了 Gen-3 影片生成模型,效果震撼整個影片生成領域。

隨後 7 月 Runway 又被曝出正在進行新一輪融資,估值 40 億美元,預計融資 4.5 億美元。

這家毫無疑問的影片生成賽道頭部創業公司,剛剛被曝出一份內部文件。

一個簡單的 Excel 表格,巨詳細地羅列著 Runway 動員全公司上下在互聯網上收集的高質量影片資源,累積條目數萬條。

其中 YouTube 上的影片佔據了一大部分,光是「推薦油管頻道」就有 3968 個。還有 14 個在線影視資源網站(就是常見的 Watch Movie/Anime Online for FREEEEE!!! 那種盜版網站)

油管母公司 Google,是 Runway 上一輪融資的投資方,但顯然收集 YouTube 影片數據的工作由 Runway 獨立完成。除了油管以外,它還收集了迪士尼、Netflix、索尼等超級版權公司的影片內容。

爆料媒體用 Gen-3 測試了相關 prompt,非常匹配表格里的數據,細節到直接去生成油管主播各自風格的影片。且相關 prompt 僅在 Gen-3 上能生成匹配的效果,Gen-2 不行。

以下內容來自爆料媒體 404media(以下簡稱 4m),經 Founder Park 編輯整理。

一、油管高質量影片全扒下來了,為了怕被封還買代理下載

據 Runway 前員工向 4m 的爆料,Runway 公司里幾乎是全員都會在這個表格里錄入數據,用來訓練他們自家的模型。表格里蒐集的油管影片,他們是用開源軟件 YouTube-DL 下載的,為了防止被 Youtube 封禁,Runway 還找供應商買了專門的代理,用這些代理 IP 地址來下載影片。

可以說準備工作做得很足了。

泄露的文件包含 14 個電子錶格。其中一個表格里有一百多個影片關鍵詞,比如「海灘」、「醫生」、「雨」等等,每個關鍵詞旁邊寫著負責搜索相關內容的 Runway 員工的名字。

泄露文件截圖(右側為翻譯後內容)泄露文件截圖(右側為翻譯後內容)

爆料人說,這些人要麼是被派去找影片的員工,要麼是員工自己標記的他們正在處理的關鍵詞。在「彩虹」這個詞和員工名字旁邊,有人寫了一條備註:「沒有專門的頻道或播放列表,但找到了適合微調(finetuning)的好影片。」

文件中的註釋顯示,Runway 正在尋找特定主題、攝影風格和多樣化人群的影片。「高相機運動」表格包含了 177 個 YouTube 頻道的鏈接,包括《使命召喚》的官方頻道、電影製作人 Josh Neuman 的頻道、虛幻引擎和 Vans 的頻道。

一個名為「電影傑作」的電子錶格列出了 206 個鏈接,是一些高質量的油管頻道和影片,包括動畫短片和學生電影。在這個表格中,DEFY Studio YouTube 頻道的鏈接旁邊有一條註釋寫著「迄今為止汽車電影的牛逼作品都在這兒了」。

「單個優秀影片(用於微調)」是另外 253 個影片的集合,旁邊還有一列主題,比如「修眉」、「冰雕」、「微笑」和「尖叫」。

二、盜版資源網站也沒能倖免

今年推出的 Gen-3 因為生成影片質量高、很適合照視製作等備受好評。產品功能中有相機控制、導演模式,還可以實現對結構、風格和動作的精細控制。

可能也正因此,很多電影在線網站,尤其是知名的盜版電影網站也是 Runway 重點收集數據的來源。

一個名叫「非 YouTube 來源」的表格包含 14 個網站鏈接,其中包括經常被投訴的盜版動畫網站 kisscartoon.sh,在專門記錄互聯網上內容刪除請求的 Lumen 數據居里,有上千個針對這個網站的版權投訴。

「非 YouTube 來源」表中還包含一個宮崎駿電影檔案鏈接、幾個動漫盜版網站、一個 XBox 遊戲剪輯的粉絲網站,以及一個現在已下線的名為 AZiMovies 的盜版電影網站,Runway 的某位員工在上面註釋:「這裡面有很多好內容。」

文件里還有一個包含 17112 個詞的列表,包括「手工洗車」、「拳擊」、「打破彩罐」、「扭脖子」、「亂穿馬路」等幾十個詞。每個詞都對應著一些相關的 YouTube 熱搜,比如「如何正確洗車」、「如果你被抓到亂穿馬路會發生什麼」和「自己扭脖子的危險」。

還有一個「推薦頻道」的列表裡,里麵包含 3967 個 YouTube 頻道的鏈接,其中很多是大品牌和大媒體的頻道,比如比基斯、Glamour、CBS 紐約、蒙特雷灣水族館、AMC 影院,還有多個官方迪士尼頻道,比如迪士尼 XD 和迪士尼 Plus。

迪士尼是重點監控公司

三、Prompt 里帶上博主名字,幾乎可以生成原影片

目前還不確定是不是表格里統計的每個影片都喂給了大模型,但 4m 用表格里的關鍵詞在 Gen-3 里測試了下,發現其中很多生成的影片都跟表格里的影片特別像。

真人影片方面,雖然生成的影片沒法完美複製,但用表格里出現的知名油管博主進行測試時,生成的影片跟真人很接近。

比如,關鍵詞里如果帶上「Mark Wiens」,這是油管一個超千萬人關注的美食博主,生成的影片里的確會有一個小夥子在自拍吃東西的畫面,這跟他本人發的很多影片都很像。

PROMPT(GEN-3ALPHA):”MARKWIENS”

但是如果用 Gen-2 試驗相同的 Prompt,生成的影片就跟這位博主沒什麼關繫了,生成了一個穿西裝的大眾臉。

PROMPT (GEN-2): 「MARK WIENS」

巧的是,4m 聯繫 Runway 詢問這件事之後,Gen-3 就不能再生成包含 Mark Wiens 和其他幾位 YouTuber 名字的影片了。

換一個Prompt,油管博主 Jon Olsson 在他的 Vlog 1054 里的形象。Gen-3 生成了一個穿滑雪夾克戴滑雪帽的白人男性,和作者在影片中的穿著非常像。

原版 Vlog 截圖,這位博主戴著藍色頭盔在雪裡翻了個跟頭。原版 Vlog 截圖,這位博主戴著藍色頭盔在雪裡翻了個跟頭。

PROMPT(GEN-3ALPHA):「油管博主JonOlsson在他的VLOG1054里的形象」

跟上面的截圖確實很像。

Prompt:一段DEFYProductions風格的賽車影片

Gen-3 生成的影片中,賽車尾巴上有「DEFY」字樣,跟 @DEFYstudio Logo 的字體很像。

真·@DEFYstudio Logo,裡面的字母「E」是鏡像的

如果輸入一個這樣的 prompt:以油管博主 Benjamin Hardman 的旅行影片風格呈現。Gen-3 生成了一個看起來像是無人機拍攝的影片,鏡頭跟隨遠處的一位看起來很像 Hardman 的男人,在懸崖邊徒步,和油管原影片相差無幾。

博主本人喜歡捧著攝影機去極地拍冰川,影片的風格是這樣的:

生成的影片長這樣:

PROMPT(GEN-3ALPHA):「以油管博主BenjaminHardman的旅行影片風格呈現」

PROMPT(GEN-3ALPHA):”BENJAMINHARDMAN”

四、OpenAI、Anthropic、Nvidia,都在偷偷用油管影片訓模型

最近幾個月,因為偷偷用創作者的內容來訓練模型,生成的影片、文本或者音樂與原作很類似,很多 AI 公司都因為這個被罵。《紐約時報》起訴 OpenAI 違法使用他們的新聞報導,然後是 4 月份,200 多名音樂人發公開信,要求大公司停止幹這種事,「太沒下限了」。

同樣是 4 月,《紐約時報》報導 OpenAI 和Google通過轉錄 YouTube 影片來訓練他們的模型,連Google自己都沒能忍住……不過也有可能他們的用戶協議里允許了。

7月份,Proof News 爆了一份大料,包括 Anthropic、Nvidia、蘋果和 Salesforce 在內的公司,都在偷偷使用了超過 48000 個頻道的 YouTube 影片和字幕文件。

這個數據集也很豐富,從學習影片到訪問節目,可以說是應有盡有。

  • 學習影片:可汗學院、麻省理工學院和哈佛大學的教育影片。

  • 新聞報導:《華爾街日報》、美國國家公共電台和英國廣播公司的影片

  • 綜藝:「史提芬·高爾伯特晚間秀」「約翰·奧利弗上週今夜秀」和「占美·坎摩亞直播秀」。

  • 網紅:MrBeast(2.89 億訂閱,用於訓練的兩個影片),Marques Brownlee(1900 萬訂閱,七個影片),Jacksepticeye(近 3100 萬訂閱,377 個影片)和PewDiePie(1.11 億訂閱者,337 個影片)

Proof News 還發現,這裡面竟然還有宣揚「地平說」之類的陰謀論影片!

這玩意真的能拿來喂 AI 嗎?

雖然媒體都這麼報導了,但 OpenAI 官方還沒承認,CTO Mira Murati 最近在接受《華爾街日報》採訪時是這麼說的,她不知道 Sora 的訓練數據是否包括來自 YouTube、Instagram 和 Facebook 的影片。OpenAI 用的是公開可用的數據和授權數據。

油管對此很生氣。

YouTube CEO Neal Mohan 對彭博表示,這種做法是不允許的:「從創作者的角度來看,創作者把他們的勞動成果上傳到我們的平台時,他們是有預期的,服務條款最起碼不能違反。我們不允許轉錄或下載影片片段,這些是我們平台上內容的規則。」

「我希望這些爆料,能讓大家知道有多少科技公司背地裡在幹這個事,以及他們所謂的為了生成那些看起來很厲害的影片都做了什麼‘努力’。」

感謝 4m 和這名勇敢的爆料者。

參考文章:

https://www.404media.co/email/e3836b26-6914-4c1c-a102-bf9735adc3de/

https://www.proofnews.org/apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai/

本文來自微信公眾號:Founder Park,作者:Founder Park