合成數據的前景與風險
AI 是否有可能只使用另一個 AI 生成的數據進行訓練?這聽起來可能很愚蠢。但這種想法已經存在了相當長一段時間了——因為真實的新數據越來越難以獲得,所以這種想法也越來越受重視。
Anthropic 就使用一些合成數據來訓練他們其中的一個旗艦模型 Claude 3.5 Sonnet。Meta 也使用 AI 生成的數據對他們的 Llama 3.1 模型做了微調。據說,為了即將推出的 Orion,OpenAI 正在從其 「推理 」模型 o1 中獲取合成訓練數據。
但是,為什麼 AI 首先需要數據——它需要什麼樣的數據?這些數據真的能用合成數據代替嗎?
標註的重要性
AI 系統是統計機器。在使用大量實例進行訓練後,它們可以習得這些實例中的模式並據此做出預測,比如電子郵件中的 「to whom」通常會出現在 「it may concern」之前。
在這些示例中,標註是一個很關鍵的部分。這裏的標註通常是指一些文本,用來說明系統所獲取的數據的含義或部分內容。它們充當路標,「教會 」模型如何區分事物、地點和想法。
想像這樣一個場景:向一個圖片分類模型提供大量的標有 「廚房 」字樣的廚房圖片。在訓練過程中,模型會將 「廚房 」與廚房的一般特徵(如廚房裡有冰箱和檯面)聯繫起來。經過訓練後,提供一張不在初始示例集中的廚房照片,模型應該就能識別出來。(當然,如果廚房的照片被標註為 「奶牛」,模型也會將其識別為奶牛,這就凸顯了標註的重要性。)
對 AI 的需求以及為 AI 發展提供標註數據的需求,使得標註服務市場急劇發展。據 Dimension 市場研究公司估計,目前標註服務市場的價值為 8.382 億美元,未來 10 年將達到 103.4 億美元。雖然對於有多少人從事標註工作沒有一個精確的估計,但 2022 年的一份文件指出,這一數量為 「百萬級」。
大大小小的公司都依賴數據標註公司僱傭的工人為他們的 AI 訓練數據集創建標籤。其中一些工作的薪酬還算不錯,尤其是在標註工作需要專業知識(如數學專長)的情況下。另一些工作則很辛苦。在發展中國家,標註員的平均小時薪金只有幾美元,而且沒有任何福利或未來工作保障。
正在乾涸的數據井
因此,從人文角度出發,我們有理由為人工生成標籤尋找一個替代方案。例如,Uber 正在擴大其臨時工隊伍,從事人工智能標註和數據標註工作。
這樣做還有一些務實的原因。人類的標註速度有限。標註者也會有偏見,這些偏見可能會體現在他們的標註中,進而體現在使用這些標註進行訓練的任何模型中。標註者會犯錯,或被標註說明弄糊塗了,而且花錢請人來做這件事的成本很高。
總的來說,數據是昂貴的。Shutterstock 向 AI 供應商收取了數千萬美元的圖片庫使用費,而 Reddit 則通過向Google、OpenAI 和其他公司授權數據賺取了數億美元。
最後,數據也越來越難獲取。
大多數模型都是在大量公共數據集上訓練出來的——由於擔心數據會被剽竊 或無法獲得信用或署名,所以數據所有者越來越多地選擇屏蔽這些數據。目前,在全球排名前 1000 位的網站中,超過 35% 的網站屏蔽了 OpenAI 的 Web 爬蟲。最近的一項研究發現,在用於模型訓練的主要數據集中,約有 25% 的 「高質量」數據源被限制了。
據研究機構 Epoch AI 預計,如果目前的訪問封鎖趨勢繼續下去,在 2026 年到 2032 年之間,開發人員將沒有數據可以用於訓練生成式 AI 模型,再加上對版權訴訟和開放數據集中出現不良內容的擔憂,AI 供應商不得不進行反思。
用合成數據代替
乍一看,合成數據似乎可以解決所有這些問題。需要標註?生成它們。需要更多示例數據?沒問題。
在某種程度上,這的確是事實。
Os Keyes 是華盛頓大學研究新興技術倫理影響的一名博士生。他說,「如果說‘數據是新石油’,那麼合成數據就是生物燃料,可以創造,而且沒有真實事物的負外部性。開始時,你可以從一個小數據集入手,從中模擬和推斷出新的數據條目。」
AI 行業已將這一概念付諸實踐。
Writer 是一家專注於企業級生成式人工智能公司。本月,他們首次推出了一個模型 Palmyra X 004。該模型幾乎完全是用合成數據訓練出來的。Writer 聲稱,該模型的開發成本僅為 70 萬美元,而相比之下,規模相當的 OpenAI 模型估計需要 460 萬美元。
微軟開放模型 Phi 的訓練也部分地使用了合成數據。Google的 Gemma 模型也是如此。今年夏天,英偉達發佈了一個旨在生成合成訓練數據的模型系列,而 AI 初創公司 Hugging Face 則於最近發佈了一個據稱是 最大的合成文本 AI 訓練數據集。
合成數據生成本身已經成為一項業務——到 2030 年,其價值可達 23.4 億美元。Gartner預測,今年,人工智能和分析項目中使用的數據將有 60% 是合成的。
Allen 人工智能研究所高級研究科學家 Luca Soldaini 指出,合成數據技術可用於生成不易通過 Web 爬取(甚或內容許可)來獲得的訓練數據。例如,在訓練其影片生成器 Movie Gen 時,Meta 就使用 Llama 3 為訓練數據中的影片片段創建字幕,然後由人類進行改進並添加更多的細節,如燈光描述。
同樣,OpenAI 也表示,他們使用合成數據對 GPT-4o 進行了微調,為 ChatGPT 構建了類似素描板的 Canvas 功能。亞馬遜也表示,他們生成了一些合成數據,作為真實世界的數據的補充,用於訓練語音識別模型 Alexa。
Soldaini 說,「合成數據模型可以根據人類的直覺——實現特定模型行為需要哪些數據——快速擴展數據集。」
合成數據的風險
然而,合成數據並不是萬能的。與所有 AI 一樣,它也存在 「垃圾進垃圾出」的問題。模型會生成合成數據,但如果用於訓練這些模型的數據存在偏差和局限性,那麼它們的輸出結果也會受到同樣的影響。例如,在基礎數據中沒有得到很好體現的群體,在合成數據中也會如此。
在這一點上,2023 年,賴斯大學和史丹福大學的研究人員在一項 研究 中發現,在訓練過程中過度依賴合成數據會導致模型的 「質量或多樣性逐漸下降」。研究人員表示,采樣偏差——不能很好地體現真實世界——會導致模型的多樣性在經過幾代訓練後惡化(不過他們也發現,混入一些真實世界的數據有助於緩解這一問題)。
Keyes 認為,對於像 OpenAI o1 這樣的複雜模型,還存在其他風險。他認為,合成數據會導致這些模型產生更難發現的幻覺。反過來,這些幻覺又會降低使用這些數據訓練出來的模型的準確性,尤其是在幻覺來源不容易識別的情況下。
Keyes 補充說:「複雜的模型會產生幻覺;複雜模型產生的數據也會包含幻覺。而對於像 o1 這樣的模型,開發者自己都不一定能解釋它為什麼會出現幻覺。」
各種幻覺疊加會導致模型胡言亂語。《自然》雜誌上曾發表過一項研究,揭示了使用錯誤百出的數據訓練出來的模型是如何產生更多錯誤百出的數據的,以及這種反饋循環如何導致了後代模型的退化。研究人員發現,隨著模型一代一代地訓練,它們會失去一些比較深奧的知識——變得更加泛泛而談,並經常生成與所提問題無關的答案。
一項後續研究表明,其他類型的模型,如圖像生成器,也不能倖免於這種崩潰:
Soldaini 也認為,要避免訓練出健忘的聊天機器人和同質化的圖像生成器,「原始」合成數據是不可信的。他認為,要 「安全」地使用合成數據,就必須對其進行徹底地審查、整理和過濾,最好能與新獲取的真實數據搭配使用,就像使用其他數據集一樣。
如果做不到這一點,最終就可能導致模型崩潰,即模型的 「創造性 」降低,輸出結果更加偏頗,最終嚴重影響其功能。雖然可以在情況變得更糟糕之前識別和阻止這個問題,但這是一種風險。
「研究人員需要檢查生成的數據,迭代生成過程,並採取一些保障措施去除低質量的數據點。合成數據管道不是一台自我完善的機器;在將其輸出用於訓練之前,必須對其進行仔細檢查和改進。」Soldaini 說道。
OpenAI 首席執行官 Sam Altman 曾經認為,AI總有一天 會產生足以有效訓練自身的合成數據。但是,即使這是可行的,這項技術也還不存在。目前,還沒有一家大型 AI 實驗室發佈過僅使用合成數據訓練的模型。
至少在可預見的未來,我們似乎還需要人類來確保模型的訓練不會出錯。
原文鏈接:
本文來自微信公眾號「AI前線」(ID:ai-front),作者:Kyle Wiggers,譯者:平川,36氪經授權發佈。