舉報人「自殺」，OpenAI表示震驚，NYU教授髮長文悼念：警鍾仍在迴響

12月17日 16:35 新浪網 tech-auto-hilite

幾天前，消息曝出，曾在OpenAI工作四年，指控公司侵犯版權的Suchir Balaji，上月底在舊金山公寓中被發現死亡，年僅26歲。

Suchir Balaji曾參與了ChatGPT後訓練、GPT-4預訓練，以及o1推理的研發工作。

今年10月，他在自己的一篇博文和「紐約時報」的專訪中指出，OpenAI在使用新聞和其他網站的信息訓練其AI模型時，違反了「合理使用」原則。

補充閱讀：26歲OpenAI舉報人疑自殺！死前揭ChatGPT訓練黑幕

目前，OpenAI的發言人已經證實了Balaji的離世，並在郵件中表達了沉痛的哀悼。

而正與OpenAI CEO奧特曼陷入法律糾紛的馬斯克，則在X平台上發了一個耐人尋味的「Hmm」。

在消息曝出當日，馬庫斯迅速在X上發帖悼念：

「Suchir Balaji是個很好的年青人。」

「這是悲劇。」

第二天，他專門撰寫了一篇博客，來紀念Suchir Balaji。

紀念Suchir Balaji（1998 – 2024）

11月初，馬庫史東斯過Zoom與畢業於伯克利的前OpenAI員工Suchir Balaji，進行了一次富有啟發性的交談。

讓人痛心的是，他在短短三週之後，便離開了這個世界。

根據警方報告，這似乎是一起自殺事件。

馬庫斯表示，關於二人的通話內容，可以不違背保密原則地說：「Suchir Balaji對OpenAI和版權問題表示擔憂；而正是由於這些共同的顧慮，他們才得以相識。」

在10月的個人博客里，Balaji發表了一篇文章，探討了我們這個時代最重要的問題之一：生成式AI是否符合「合理使用」（fair use）的標準？

博文地址：https://suchir.net/fair_use.html

博文地址：https://suchir.net/fair_use.html

在這篇博文中，Balaji詳細分析了美國《1976年版權法》第107條中定義的四個合理使用因素，特別關注了以下兩個因素：

1. 使用的目的和性質：Balaji指出，ChatGPT等生成式AI模型的商業性質可能不利於被視為合理使用。

2. 對受版權保護作品潛在市場或價值的影響：他引用了一些研究，論證ChatGPT的出現可能對某些在線知識社區（如Stack Overflow）的流量和用戶參與度產生負面影響，進而影響這些平台的市場價值。

其實，AI訓練數據的版權問題早已存在。一年前，當《紐約時報》起訴OpenAI並證實了其輸出內容與網站上的部分報導高度相似時，OpenAI在文本和版權方面的問題就已經開始凸顯。

類似的現象也出現在圖像和影片生成領域。今年一月，馬庫斯和Reid Southen在《IEEE Spectrum》上揭示了圖像生成軟件（如Midjourney和DALL-E）存在的類似問題。

他們發現的最令人震驚的現像是，即便沒有直接點名，系統也會產生類似抄襲商業角色的複製品。

比如，輸入「意大利水管工」就會生成任天堂的馬利歐角色，而指令里完全沒有提到馬利歐這個名字。

相比之下，真正的藝術家理應會創造一個全新的、原創的水管工形象。

將近一年過去了，明顯的侵權問題依然存在。

OpenAI最新發佈的影片生成模型Sora與其他AI一樣，顯然是在大量受版權保護的材料上進行了訓練。

與前代產品相似，它也會不時產生缺乏創意、近似抄襲的輸出，就像Southen生成的這些例子：

超級英雄復仇的電影場景

一個有意大利人的橫版遊戲

無獨有偶，TechCrunch也在幾天前指出了相同的問題。報導稱，OpenAI從未公開Sora所使用的訓練數據來源，但從目前的結果來看，至少有部分數據可能來自Twitch直播和電子遊戲實況。

法律專家警告：OpenAI疑似將遊戲內容用作Sora訓練數據恐將引發法律爭議

法律專家警告：OpenAI疑似將遊戲內容用作Sora訓練數據恐將引發法律爭議

比如，它可以生成類似於使命召喚和反恐精英風格的第一人稱射擊遊戲片段。

還有充滿90年代《忍者神龜》風格的街機格鬥遊戲片段。

Sora似乎還對Twitch直播的格式有所瞭解。下面這張影片截圖中可以看到，大體的佈局和細節都得到了還原。

Sora似乎還對Twitch直播的格式有所瞭解。下面這張影片截圖中可以看到，大體的佈局和細節都得到了還原。

甚至，這張截圖中出現了著名Twitch主播Raúl Álvarez Genes（網名Auronplay）的影像，甚至連他左臂的紋身都被「複刻」了出來。

這些版權問題的嚴重性已經不言而喻。Suchir的擔憂確實切中要害。

然而，挑戰既定觀念總是要付出代價的。

正如《印度時報》所指出的，Suchir「對OpenAI涉嫌侵犯版權的公開批評…使他的離世備受關注，引發人們對敢於反對強大科技企業的人所承受的壓力和挑戰的深思」。

雖然我們無從得知他離世的真正原因，但願人們不會忘記Suchir的擔憂和他展現的勇氣。

加州SB-1047舉報人保護法案被否決令人遺憾。社會確實需要採取更多措施來保護像Suchir Balaji這樣的人。

最後，讓我們引用Suchir在十月份博客結論中的一段話作為結尾：

在合理使用的四個構成要素中，似乎沒有任何一項支持ChatGPT可以合理使用其當前的訓練數據。

然而，這些論據本質上並非僅針對ChatGPT，類似的論點同樣適用於各個領域中的眾多生成式AI產品。

參考資料：

https://garymarcus.substack.com/p/generative-ais-continuing-copyright?r=8tdk6

https://x.com/GaryMarcus/status/1867726533026353261

本文來自微信公眾號「新智元」，作者：新智元，編輯：好睏靜音，36氪經授權發佈。