OpenAI吹哨人之死:ChatGPT的陰暗面
被稱為「OpenAI吹哨人」的Suchir Balaji,11月26日被發現死在舊金山的一間公寓中,終年26 歲,當局裁定他的死亡為自殺。
據外媒報導,Suchir Balaji在加利福尼亞州庫比蒂諾長大,一直對人工智能很著迷。2013年,DeepMind的進步激發了他對此的興趣,促使他進入加州大學伯克利分校攻讀計算機科學,並於2021年畢業。同年他加入OpenAI,很快就參與到GPT-4的開發工作中,他的工作是幫助OpenAI蒐集和組織大量的互聯網數據,用以訓練ChatGPT大模型。
最早,他也如同其他人一樣被人工智能的前景所吸引,認為神經網絡可以解決從治癒疾病到應對氣候變化一系列人類最關心的問題。可以說,對Suchir Balaji而言,人工智能不僅僅是一串串代碼,而是一種煉金術、一種將想像變成現實的工具。
但隨著他目睹越來越多針對生成式人工智能的投訴案發生,他的觀點慢慢發生了變化。
Suchir Balaji在個人博客上詳細闡述了他的觀點:OpenAI 在數據的使用方面存在不合理性,因為它未經許可就使用受版權保護的材料訓練其模型,所以侵犯了從程序員到記者等無數原創作者的知識產權。這相當於在原創者作品的基礎上生成了「替代品」,並拿走了屬於原創者的利益。
馬斯克在X上分享了這一新聞,圖源:馬斯克X帳號截圖
生成式AI因何而侵權?
Balaji所言非虛,無論是ChatGPT還是其他生成式AI應用,它們都是通過從互聯網上抓取大量數據(包括受版權保護的內容)來構建自己的算法模型。
我們總結類似OpenAI一類大模型的常規訓練過程就會發現,其一般包括三個步驟:
步驟一:OpenAI從互聯網上收集大量文本,包括博客、文章和書籍等等。其中部分數據是公開的,但大部分數據受版權保護。
步驟二:AI分析這些數據以學習如何生成人類理解的文本。
步驟三:當你向ChatGPT提問時,它不會告訴你被訓練時的原始數據,但它的回答通常會大量借鑒原始數據中的信息。
為什麼說OpenAI會拿走屬於原創者的利益?舉一個不那麼準確的比方,當你向ChatGPT發問之後,如果它能生成一個類似知乎專業大V的回答,那麼知乎也就失去了存在的意義,大V們也再無存在的必要,整個生態就坍塌了。
回溯歷史,OpenAI曾針對Balaji的呼籲為自己辯護,聲稱其使用的公開數據符合版權法。OpenAI表示:「我們正使用公開數據構建我們的人工智能模型,這一行為合理合法……並且這對創新者來說是必要的,對美國的科技競爭力更為重要。」
一個事實是,生成式AI發展至今,除了Balaji以外,還有大量批評者認為生成式AI將造成大量的道德困境,他們呼籲監管層出台相關法律。
外媒指出,Balaji在AI倫理問題上的直言不諱贏得了人們的欽佩和批評,且反映了創新與責任之間存在的緊張關係,「Balaji的離世留下了一個核心問題——生成式人工智能的倫理困境」。
此外,還有部分外媒指出,Balaji掌握的信息可能會在針對OpenAI的訴訟中發揮關鍵作用。
更大的倫理困境
巴拉吉並不是唯一一個發起控訴的人。2023年年底,《紐約時報》曾對OpenAI及其合作夥伴微軟提起訴訟,指控他們非法使用數百萬篇原創文章來訓練他們的大模型。《紐約時報》辯稱「這種未經授權的使用直接損害了他們的業務」。
從更深遠的影響來看,《紐約時報》認為在ChatGPT能夠生成與傳統新聞機構質量相當的內容之後,下一步將會是人工智能取代傳統新聞業。
再往前看,2022年年底也曾有三位藝術家組團起訴多個生成式人工智能平台,理由是人工智能未經許可使用他們的原創作品來訓練他們的大模型,而用戶用AI生成的作品與藝術家現有的作品極其相似,藝術家認為這些應該被認定為「未經授權的衍生作品」。其結果是,如果法院認定AI生成的作品未經授權且為衍生作品,那麼就適用嚴厲的侵權處罰。
在國內也有類似的案例,最流行的是「魔改」——利用AI普通人能夠將經典影視劇中的角色和場景「移植」到全新的場景中,這在各大短影片平台十分常見。
北京市兩高(鄭州)律師事務所副主任張博在接受央廣網採訪時指出,無論是換臉、改台詞還是加入新情節,都是對原影視劇內容的再創作。但是,在追逐流量的同時,也滋生了很多新型侵權行為。
張博認為,AI「魔改」影片涉及影視演員的形象,比如利用AI工具改變演員的動作、表情和台詞,涉嫌侵犯了演員的肖像權和名譽權。
此外,在第八屆中國網絡版權保護與發展大會上,一眾專家也對AI帶來的版權風險進行了探討。北京大學國際知識產權研究中心主任易繼明指出,大部分情形下,AI研發企業並未獲得版權人的授權,潛藏著侵犯他人版權的法律風險。
在此背景下,產業界迫切需要法律與公共政策能夠明確提供關於使用語料的合法性指引,創作者與公眾也需要高度關注自身利益能否得到有效保障,AI大模型訓練中使用語料的合法性及合理性問題,成為AI時代亟待研究的重大課題。
但這一問題該如何解決?目前看來還十分困難,難點一是在人工智能侵權行為難以界定,二是規範性的法律文件很難界定。
具體而言,著作權法保護的是具有獨創性的作品,但AI生成的內容是否具備獨創性,以及如何判斷其獨創性,是一個複雜且爭議的問題,不同國家對此有不同看法。例如美國版權局明確表示AI自動生成的作品不受版權法保護,而中國法院則在一系列案例中認定,只要AI生成內容能體現出自然人獨創性智力投入,就應當被認定為作品,受到著作權法保護。
其次,傳統的著作權法體系下,作品的作者是具有法律人格的自然人或法人。但AI作為生成內容的主體,其法律地位並不明確,無法直接作為作者享有著作權。這導致在立法時需要重新考慮作者身份的認定問題。
最後,立法者還需要在保護著作權人權益和促進AI產業發展之間找到平衡點。過於嚴格的法律可能會抑制AI技術的創新和應用,而過於寬鬆的法律則可能損害著作權人的利益。「管就死,放就亂」這也是監管難推進的原因之一。
但我們必須意識到的一個問題是,生成式AI的發展大概率將一去不回頭,而人們對AI生成內容與人類生成內容的判斷邊界也將越來越模糊,最終走向混亂。
或許,另一位Balaji的預測將解決這一問題,他是一位「80後」印度裔創業者兼投資人,其在《巴拉吉預言:技術、真相和構建未來的指南》(此書被稱為「解讀矽谷創業家思想「右轉」的入門讀本」)中指出,新興技術「區塊鏈」之不可篡改的「真實」才是可信的「真實」;以加密貨幣在工作流中加入激勵機制,通過智能合同來推動協作,才是未來可能的工作方式。
國內也曾有專家學者指出,相關部門的機構應開發更高效的數字指紋技術和使用區塊鏈技術,讓每個人工智能參與創作的作品享有獨特的數字身份,可追溯人工智能生成文本的來源,保證人類原創作品和人工智能創造作品的版權。
以未來視角看現在,Suchir Balaji的離世或許只是AI倫理問題被揭開的「第一章」,技術的流向並不以人類意志為轉移,我們唯一能期待的是AI成為人類的工具,而非人類成了AI的奴隸。