ChatGPT給我們帶來的信息安全風險

我們生活在一個信息爆炸的時代,各類官方媒體和自媒體以文本、圖片、視頻等形式的報導鋪天蓋地,讓人應接不暇。現代人的信息困境早已不是無法獲取信息,而是無法甄別、篩選有用的信息。但是,你知道嗎,ChatGPT等AI工具的出現將進一步加劇信息爆炸的程度。2021年,《華爾街日報》就曾報導了一個使用類似ChatGPT的自然語言處理技術的公司自動化生成假新聞和虛假內容,以欺騙讀者。ChatGPT技術的廣泛應用可能很快會給我們帶來信息安全方面的風險,如信息偏差、數據泄露等。

人們使用ChatGPT人們使用ChatGPT

信息偏差的誘導

在ChatGPT答案生成、引導答案、使用答案的過程中,數據的質量和準確性很可能本身就存在信息偏差或誤導性信息。因此,如果有心人濫用ChatGPT,便可能會產生發佈誤導信息、散佈謠言、煽動仇恨等負面影響,從而干擾公眾的判斷和決策。如圖6.4所示。

誤導內容

我們沒必要對ChatGPT這一新的事物給予溢美和拔高,它雖然很厲害,但也存在一定的問題,如它生成回答流暢自然,但是仔細看就會發現答非所問。相比人類的寫作過程,ChatGPT只是模仿人類的寫作風格,但不能提供高質量的內容。例如,在2022年12月,知名程序技術問答網站StackOverflow暫時禁止使用ChatGPT。因為網站的版主發現,“網友們”的回帖格式標準、邏輯合理,實際上卻是由系統生成的看似正確的答案。這種答案一旦多起來,對StackOverflow來說無疑是一場災難。

政治爭議

隨著科技的發展,持續演進的AI技術深度嵌入政治、經濟等眾多領域,對ChatGPT這一技術潛在的政治和安全風險的思考日益緊迫。在西方,濫用者可能使用ChatGPT生成虛假的政治言論或選民意見調查,從而影響政治選舉、政策製定的議程。涉及政治敏感話題時,ChatGPT難以將大數據中的情感因素和偏見完全排除,這將導致其回答失之偏頗或具有誤導性。而這些內容是否會被某些政治派別或利益集團利用,從而引發政治爭議和矛盾呢?

2023年1月9日,新西蘭技能與技術學院教授戴維·羅紮多(David Rozado)對ChatGPT進行了15次政治傾向測試,發現ChatGPT在15項測試中的14項出現了明顯的政治偏見。為了減少ChatGPT出現信息偏差,戴維給出了以下的建議。

(1)面向公眾的AI系統不應該表現出明顯的政治偏見,否則會加劇社會兩極分化。

(2)AI系統應該對大多數描述性問題保持中立。

(3)AI系統尋求的信息來源應可靠、平衡和多樣化。對有爭議的問題,AI應當保持開放的態度。

(4)社會應該思考AI系統在人類群體之間的歧視是否合理。

(5)應該提高AI系統內部工作的透明性,對具有偏見的、欺騙性的內容可以溯源。

種族主義

目前,儘管ChatGPT一直宣稱其訓練儘量保持中立和客觀,但其回答仍然受到人類編寫的文本和所蒐集數據的影響。這些數據中,有可能包含了性別歧視、種族歧視等信息,而應用廣泛並獲得人們信任的ChatGPT將會加劇偏見,造成更多的社會問題。

近期,英國媒體Insider(知情人)報導稱,ChatGPT的回覆有時充滿了種族主義和歧視性偏見。如圖6.5所示,提問者要求ChatGPT基於個人種族和性別的JSON描述編寫一個Python函數,判斷人們是否能成為優秀的科學家。然而,其生成的結果認為只有白人男性才滿足這一標準。這種偏見的產生源於數據集,因為在我們所知道的曆史中,大多數著名科學家都是男性,直到幾十年前,大多數著名科學家也都是白人。在過去的幾個世紀里,歐洲和北美洲的國家運用各種手段為白人科學家提供了更多的機會和資源,使其在科學研究和技術創新方面取得了顯著的優勢地位。ChatGPT數據源來自互聯網,而曆史上白人在科學、技術、知識上取得了傑出的成果,從而導致這樣的結果。

數據泄露的危險

ChatGPT這種大語言模型需要海量的數據作為訓練支撐,模型訓練的數據越多,生成答案的效果就越好、越合理。實際上,OpenAI已經為ChatGPT提供了約3000億個參數(源於互聯網上抓取的書籍、文章、網站和帖子等),其中也包括未經作者授權的內容。這也就意味著,如果你曾經寫過博客或產品評論等文章,那麼這些信息很有可能被ChatGPT抓取。除了早期學習內容,ChatGPT還在使用用戶輸入數據進行訓練,當用戶訓練它成為更利於自己工作的工具時,ChatGPT也在從用戶輸入的內容中學習用戶的習慣、數據、生活工作等。雖然ChatGPT表示它不會直接存儲用戶輸入或對話記錄,在每次對話結束後會丟棄對話數據以保護用戶隱私,但ChatGPT仍然存在數據泄露的危險,具體如下。

(1)服務器被攻擊

這是導致ChatGPT數據泄露的主要原因之一。如果ChatGPT運行在被黑客攻擊的服務器上,攻擊者將竊取聊天記錄或其他隱私數據,這可能是因為他們擁有合法的訪問憑證,利用了漏洞,從而導致數據泄露。

(2)開發者或管理員的失誤

ChatGPT的開發者或管理員在操作時可能會犯錯,比如錯誤地將數據文件或數據庫權限設置為公開訪問,從而導致數據泄露。

(3)用戶輸入的隱私信息

ChatGPT不會存儲用戶輸入的內容或對話記錄,但是如果用戶在聊天過程中提供了隱私信息,比如密碼、賬戶、聊天記錄、IP地址等,那麼這些信息將被記錄並存儲在服務器上。如果這些數據被竊取或泄露,就將導致個人隱私泄露和商業機密泄露等問題。

特別是在涉及大規模數據的場景下,信息泄露造成的影響更為嚴重。據美國網絡安全新聞網Dark Reading報導,黑客正在借ChatGPT竊取大型公司數據,微軟、貝寶、Google和網飛等著名跨國企業已經成為其目標。例如,亞馬遜的一名員工曾匿名表示,他看到ChatGPT生成的文本“非常”類似公司內部數據,而同時,亞馬遜的員工和整個行業的其他技術工作者已經開始使用ChatGPT輔助編程工具。除亞馬遜外,諸如摩根大通和威瑞森通信等公司同樣擔心ChatGPT存在數據泄露的風險,它們認為員工在ChatGPT中輸入客戶信息或源代碼的所有權,這個情況十分令人擔憂。

隨著ChatGPT越來越多地應用於社交媒體、電子郵件和其他領域,它的濫用問題也日益凸顯。濫用者使用ChatGPT生成偽造信息和網站,欺騙人們提供隱私信息,如登錄憑證、個人身份信息和信用卡信息等,導致個人隱私泄露,甚至給用戶的人身和財產帶來危害。

無獨有偶,美國網絡安全公司Vade於2023年2月9日發佈了一項令人擔憂的報告——《2022年第四季度網絡釣魚和惡意軟件報告》(Q4 2022 global phishing test reports),圖6.6展示了ChatGPT面市前後網絡釣魚郵件數量變化的情況。我們可以看到,在OpenAI推出ChatGPT後,釣魚郵件大幅增加,總數超過1.69億封,環比增長260%。

歐洲數據保護委員會(EDPB)專家支持庫成員亞曆山大·漢夫(Alexander Hanff)曾警告說:“如果OpenAI通過互聯網搜索獲得訓練數據,那就是非法的。”隨著ChatGPT在社會中的日益普及,保護用戶信息的安全尤為重要,這就需要技術和法律的雙重保護。

• 技術方面,OpenAI可以開發更加先進的算法和模型,以便ChatGPT能夠更準確地檢測和過濾不良信息,從而減少濫用。此外,OpenAI還可以與社交媒體和其他平台合作,加強對用戶信息的保護,建立更加安全的網絡環境。為了降低數據泄露的風險,至關重要的是謹慎選擇訓練數據集,使用正則化和交叉驗證等技術來降低過度擬合,或是採用差分隱私和模型提取等技術來保護模型免受攻擊。此外,要使用廣泛的測試數據進行徹底的評估,並對訓練數據和模型中的任何已知偏差保持透明。

• 法律方面,各國政府需要製定更加嚴格的法律法規,以打擊和禁止濫用ChatGPT的行為,確保公眾利益不受侵害。同時,監管機構需要加強對ChatGPT的監管,確保其合法使用。最重要的是,人們需要意識到ChatGPT的潛在風險,謹慎使用,以保護自己的信息安全。

本文摘自《ChatGPT——智能對話開創新時代》,澎湃新聞經出版方授權刊載,原章節題目為《信息安全風險》,現標題為編者所擬。

《ChatGPT——智能對話開創新時代》,成生輝/著,中信出版集團,2023年4月版《ChatGPT——智能對話開創新時代》,成生輝/著,中信出版集團,2023年4月版