我們正在大模型產品面前「裸奔」麼

作者|週一笑郵箱|zhouyixiao@pingwest.com

每天,全球有數億人在向AI產品傾訴他們的想法、困惑、創意,甚至秘密。但鮮有人意識到,這些對話正在以「幫助訓練下一代AI模型的」的名義,突破著過往移動互聯網產品的數據使用界限。

ChatGPT引發了這一輪的AI革命,也讓這種聊天對話的產品形態成了大模型產品們最流行的樣貌。而這種對話形態,在很多時候讓用戶「以為」自己在使用像微信這樣的社交產品,進而忽視了在數據使用上,它們與這些我們習慣了的產品大有不同,甚至完全相反。

事實上,幾乎所有主流AI產品都在用戶協議中明確寫道,用戶的輸入將被用於模型訓練,也就是,你的「聊天記錄」不是只屬於你的,而是被平台收集的。這種「數據採集」方式若放在移動互聯網的任一款產品上,都可以被認為是用戶在產品面前「裸奔」,很多時候是不被允許的,但大模型的狂奔中,它卻被人們忽視了。

在當前AI技術快速發展的背景下,用戶數據的收集與使用已經遠遠超出了傳統互聯網產品的範疇。你與AI助手的對話、上傳的圖片、甚至刪除的內容,都可能被用來訓練下一代的AI模型,而且一旦數據被用於訓練,即便用戶後悔也很難「撤回」——這些數據將永久地影響模型的行為。

圍繞近年來發生的典型案例,我們能更清晰地看到用戶數據與AI產品之間的敏感關係。

早在2023年4月,OpenAI的ChatGPT因隱私泄露問題在意大利被暫時封禁。調查發現,一些用戶的個人信息和聊天記錄因開源庫漏洞被錯誤展示。

2024年9月,愛爾蘭數據保護委員會(DPC)對X公司提起訴訟,指控其在未經用戶同意的情況下,自動收集了用戶的帖子、互動、輸入和結果,用於訓練生成式AI聊天機器人Grok的用戶數據,以提高其作為搜索和聊天人工智能的性能。最終,X公司同意永久停止處理歐盟用戶的個人數據。

2024年11月27日,路透社的一則報導揭示了用戶對微軟「連接體驗」功能的擔憂。部分用戶在社交媒體上指出,微軟要求用戶選擇退出該功能,並認為該功能被用於訓練AI模型。尤其是對於企業用戶來說,Microsoft 365中可能包含著重要的商業計劃、財務報表、客戶數據、產品設計等機密信息。如果這些數據被用於訓練AI模型,可能會導致商業機密泄露,對企業造成潛在的損失。

儘管微軟迅速否認了這一說法,強調其不會使用Microsoft 365消費者和商業應用程序的客戶數據來訓練基礎大型語言模型,但社交媒體上的討論依然顯示出公眾對於未經允許數據被用於AI模型訓練的普遍擔憂。類似的,國內的WPS AI也出現過「用戶文檔被用於AI訓練」的質疑。

那些你已同意但並沒有閱讀的隱私條款

我們能更清晰地看到用戶數據與AI產品之間的敏感關係。企業並不被要求披露他們用於訓練模型的數據來源,但根據一系列隱私法律的規定,他們需要說明如何使用客戶提供的數據。對比國內外主流AI產品的隱私條款,可以發現各家公司在用戶數據使用上的策略存在顯著差異。

Kimi

Kimi的《用戶隱私協議》中指出,他們會收集用戶在產品交互過程中輸入的文本數據信息,以及用戶選擇使用瀏覽器助手等功能時提供的網頁內容和上下文信息。收集到的信息將用於提供相關服務。在經過安全加密、嚴格去標識化且無法重新識別特定個人的前提下,Kimi可能會將這些信息用於提升和迭代其產品和服務。

豆包

豆包的隱私政策中提到,為了優化和改進服務體驗,他們可能會結合用戶對輸出內容的反饋以及使用過程中遇到的問題來改進服務。在經過安全加密技術處理、嚴格去標識化且無法重新識別特定個人的前提下,豆包可能會將用戶向AI輸入的數據、發出的指令以及AI相應生成的回覆、用戶對產品的訪問和使用情況進行分析並用於模型訓練。豆包為用戶提供了關閉「改進語音服務」的選項來撤回語音信息用於模型訓練的授權,並提供了聯繫方式供用戶撤回其他信息用於模型訓練和優化的授權。

智譜

智譜清言的隱私政策聲明中,沒有提到使用用戶的數據進行訓練。但提到了如果對個人信息採取技術措施和其他必要措施進行處理,使得數據接收方無法重新識別特定個人且不能複原,或進行匿名化的研究、統計分析和預測後,此類數據將不屬於個人信息範疇,其使用無需另行徵得用戶同意。

Google

Google Gemini的隱私條款顯示,對於免費服務,例如例Google AI Studio和Gemini API的免費額度,Google會利用用戶提交內容和生成的內容來改進和發展其產品和服務及機器學習技術,人工審核員可能會閱讀、標註和處理輸入和輸出。但會採取措施保護用戶隱私,包括在人工審核前將數據與用戶帳號等信息斷開關聯。

特別強調了請勿向免費服務提交敏感、機密或個人信息。

而對於付費服務,例如付費的Gemini API ,Google則承諾不會使用用戶的提示或響應來改進產品。此外,對於歐盟、瑞士或英國的用戶,無論是付費還是免費服務,均不會利用用戶提交和生成的內容。

Gemini App用戶則可以選擇對話是否被存儲,並可能用於訓練新模型。對於18歲及以上的用戶,此功能預設開啟;而對於 18 歲以下的用戶,預設關閉(可選擇自行開啟)。

Google旗下的 YouTube規則略有不同。YouTube在今年一篇博文中證實,它利用上傳到 YouTube 的內容來創建和改進其自身服務,包括用於開發 AI 產品。該公司也表示反對其他公司使用 YouTube 內容來訓練AI模型。

「多年來,我們一直利用上傳到 YouTube 的內容來提升 YouTube 及 Google 上創作者和觀眾的產品體驗,這包括通過機器學習和人工智能應用來實現。」 「這涵蓋了支持我們的信任與安全運營、改進推薦系統,以及開發如自動配音等新的生成式 AI 功能。」

OpenAI

預設情況下,ChatGPT Enterprise、ChatGPT Team 和 ChatGPT Edu 客戶的數據不會用於模型訓練。

對於通過API使用 OpenAI 服務的用戶也是如此。API 客戶可以選擇與OpenAI共享數據,以改進和訓練未來的模型。

對於個人用戶,無論是付費還是免費用戶,OpenAI允許用戶自己選擇是否允許使用自己的對話用於模型訓練,預設狀態是允許的。

此外,ChatGPT中的「臨時聊天」不會用於訓練 OpenAI 模型,並在30天后自動刪除。

蘋果已經與OpenAI達成協議,通過Apple Intelligence訪問 ChatGPT,在蘋果集成的ChatGPT的版本中,未登錄賬戶的對話僅由OpenAI處理以提供安全響應,OpenAI不會接收用戶的IP地址,存儲內容,或將其用於訓練AI模型。

對於關聯了ChatGPT帳號的用戶,將適用OpenAI的標準隱私政策。

Meta

Meta表示,它可以使用任何公開分享到Facebook和Instagram的數據來訓練其AI系統。

Meta 還表示,與AI功能的互動可用於訓練AI模型。例如,發送給AI聊天的消息、提出的問題以及要求 Meta AI 創建圖像。這也包括使用Meta Ray-Ban智能眼鏡拍攝的照片,這些照片被用於AI查詢。

值得注意的是,Meta也不允許客戶選擇退出其數據用於訓練,除了巴西和歐洲的用戶。但有一點:Meta允許用戶刪除與Meta AI 聊天機器人的對話數據。Meta表示,用戶刪除的Meta AI 對話或刪除的Facebook 和 Instagram的公開內容,都不會用於未來的訓練。

Anthropic

預設情況下,不會使用用戶信息來訓練模型,Anthropic保留了在某些情況下,使用提示和輸出來訓練其模型的權利。例如,在獲得許可的前提下,當有用戶點擊「讚」或「踩」時。

此外,如同行業慣例,Anthropic會自動掃瞄用戶的聊天內容來執行安全策略。但不會將這些數據用於訓練其模型。

從以上對比可以看出,不同公司在數據使用上的透明度、用戶選擇權以及數據保護措施上存在顯著差異。部分公司在預設情況下即使用用戶數據進行模型訓練,而部分公司則提供了相對清晰的選擇退出機制。

但我們面對的仍然是用戶在數據使用上的弱勢地位。

本質上,用戶是否允許平台使用其數據進行模型訓練,最終取決於平台的服務條款和隱私政策。無論平台現在是否聲明使用用戶與AI的聊天數據進行訓練,它們都只需簡單地更改條款,便可隨時調整數據使用策略。而令人擔憂的是,絕大部分用戶根本不會仔細閱讀這些冗長且專業的條款。

這就引出了一個潛在的風險:「我們用/不用你的數據來訓練AI。這些數據我們不會與任何人分享。(等到我們的服務條款下次更新時再看吧)」 隨時可能發生且難以被用戶察覺的條款變更,使得用戶對於自身數據的掌控顯得尤為脆弱。例如,X平台近期更新了其服務條款,允許使用用戶數據來訓練AI模型,除非用戶主動選擇退出。

另外一些平台,即使用戶想拒絕將個人數據用於模型訓練,卻往往沒有明確的功能或工具進行操作,這更凸顯了用戶在數據隱私方面的被動處境。

而這一切與傳統互聯網產品形成鮮明對比。拿微信的隱私條款來看,其隱私政策詳盡地列舉了每一項數據收集的具體場景、目的和範圍,甚至明確承諾「不會收集用戶的聊天記錄」。當年被嚴格管控的數據獲取行為,如今在AI產品中使用用戶數據卻成為一種常態。

這裏的問題在於,一方面,經過多年移動互聯網社交產品的「馴化」,用戶已習慣性忽視隱私條款,而新興的AI對話產品又酷似社交軟件,讓人下意識延續了這種疏忽。另一方面,當這些產品打著「大模型」的旗號出現時,儼然成了模型進步的試驗場。用戶數據不再被視為需要謹慎對待的隱私,而是模型進步的必需品。於是,用戶的個人信息被重新定義為「語料」,這種轉換,反而成了數據收集的「正當理由」。

收集用戶數據真的能提高模型能力麼

各大AI公司都在瘋狂「圈地」用戶數據,但一個尷尬的現實可能是:傳統互聯網產品的數據網絡效應,在大模型時代似乎並不成立。

這種數據狂熱的背後,一個被廣泛接受的理由是:用戶越多,數據越多,模型越強大,從而吸引更多用戶,形成正向循環。然而,這個看似合理的邏輯,真的適用於當前的AI大模型嗎?像 GPT-4 或 Stable Diffusion 這樣的基礎模型,真的能從持續的用戶數據輸入中獲得持續的性能提升嗎?

首先,大模型訓練的根基是公開數據,而非專有數據。ChatGPT背後的數據,更多來自域奇百科這樣的開放資源,而非用戶的獨家內容。其次,用戶與模型之間缺乏直接的反饋閉環,你的每一次對話可能被收集,但並不會立即改善模型表現。

比如,儘管ChatGPT已擁有超3億周活用戶,OpenAI的下一代模型卻遲遲未能問世。這個現像似乎在暗示,依靠用戶數據可能並不足以突破大模型訓練所面臨的「數據牆」問題。

那麼,為什麼各家AI公司仍堅持收集用戶數據?

這種現象背後有更深層的原因。表面上看,擁有海量用戶數據的AI公司似乎佔據優勢。但事實可能並非如此:

第一,用戶數據的質量參差不齊。日常對話中充斥著大量重覆、瑣碎甚至錯誤的信息,這些「噪音」未必能提升模型質量。反而可能帶來額外的數據清洗成本。

第二,預訓練階段完成後,模型的能力邊界已經基本確立。用戶的每一次對話即使被收集,也不會立即改善模型表現。

第三,商業模型的壁壘正在轉向場景深耕。比如醫療領域的AI需要專業醫療數據,而非泛泛的用戶聊天記錄。通用大模型收集的用戶數據,對特定領域的突破幫助有限。

所以,用戶雖然在使用過程中產生了數據,但他們並未直接創造這些模型所訓練的原始數據,這意味著用戶與模型之間缺乏直接的反饋回路,難以形成傳統意義上的數據網絡效應。

但用戶數據的價值依然存在,只是性質已經改變:它們不再是提升模型能力的關鍵。而是企業獲取商業利益的新工具。通過分析用戶對話,企業可以洞察用戶行為、發掘變現場景、定製商業功能,甚至和廣告商共享信息。

這個轉變也提醒我們:當AI公司聲稱「為了提升模型性能」而收集數據時,我們需要更謹慎地思考,在「預訓練終結」越來越成為行業共識的當下,這是推動技術進步的必要條件,還是商業訴求下對用戶數據的「濫用」?沒有人比AI公司更清楚這個問題的答案。

結語

大模型帶來的隱私挑戰,遠比數據泄露更為複雜。不僅可能泄露數據片段,還能通過參數化學習建立聯繫、進行推斷——無論準確與否,讓隱私問題更加難以捉摸。即使採取了數據脫敏措施,也未必能徹底消除風險。例如「奶奶漏洞」的出現:看似脫敏的數據,在與其他信息源結合後,仍可能通過獨特的文體風格等線索,重新識別出用戶,讓隱私無所遁形。

大模型並非直接存儲訓練數據,而是通過參數化的方式內化了數據的結構和規律。這種方式讓模型獲得了強大的能力,但也意味著我們無法像刪除文件一樣,簡單地擦除已經融入模型的信息,這也為隱私保護帶來了新的難題。

更令人擔憂的是,一個荒謬的現實正在上演,越來越像移動互聯網產品的新一代AI產品正在獲得比移動互聯網時代更大的數據採集和使用權限。

回溯社交媒體時代,科技行業構建起龐大的全球網絡,通過將用戶的帖子與點擊轉化為利潤,實現了個人數據的貨幣化。今天,那些曾經讓各大APP夢寐以求的用戶數據,在AI產品的用戶協議中,都變成了「理所當然」的條款,邊界被悄然拓寬了。

隨著模型技術的進步放緩,各個模型公司面對通過產品實現商業化的壓力時,會如何決策,變成了一件幾乎可以預料到的事情。

看起來現在是時候有更多更直接和更嚴肅的討論了。