利好AI大模型,MIT團隊推出數據集審查工具DPExplorer,對「不合適」訓練數據說no

前言

訓練數據的質量優劣,直接影響人工智能(AI)大模型的能力水平

當前,儘管大模型在文本/圖像/影片等內容生成和理解等領域不斷取得新突破,但由於數據來源的透明性不足,虛假信息氾濫和幻覺問題依然存在。

這可能會導致大模型性能下降,出現數據偏差、隱含偏差或行為失真等現象,還可能引發版權糾紛等法律問題。

近日,來自麻省理工學院(MIT)研究團隊及其合作者在提高大模型準確性、減少偏差方面取得了新進展——

他們開發了一種名為 「Data Provenance Explorer」 的結構化審查工具,其通過自動生成詳細的數據來源卡片,幫助 AI 從業者選擇更適合其大模型的訓練數據。

他們對 1800 多個文本數據集進行了系統審查,發現約 70% 的數據集缺乏必要的許可信息,50% 的數據集包含錯誤信息。

通過使用這一工具,他們將無法驗證的信息從 72% 降至 30%,明顯降低了數據的偏差,有效提高了數據的可追溯性和透明度。

相關研究論文以 「A large-scale audit of dataset licensing and attribution in AI」 為題,已發表在科學期刊 Nature Machine Intelligence 上。

該研究為大模型的訓練提供了更可靠的數據基礎,在推動 AI 領域的法律和倫理研究方面邁出了關鍵一步。

從72%降至30%,解決未指定許可問題

大模型的訓練高度依賴於多樣化的數據集,這些數據集通常來源不同,在組合使用的過程中有關其來源和使用限制的重要信息往往會丟失或被混淆。

例如,在創建 ImageNet 數據集時,就通過 Mechanical Turk 僱用了工人,並要求他們在將圖像與概念進行匹配時使用域奇百科頁面作為參考,而從各種網絡資源中抓取的數據集,很難追溯其組成部分的來源。

該論文的通訊作者 Robert Mahari 表示,「要瞭解 AI 模型的能力和局限性,最好的方法之一就是瞭解它是基於什麼數據訓練的。如果數據來源出現錯誤歸屬和混淆,就會產生嚴重的透明度問題。」

為此,研究人員將數據來源定義為數據集的來源、創建和許可遺產( licensing heritage)以及其特徵的組合,並開發了 Data Provenance Explorer,其工作原理是利用算法自動生成詳細的數據來源卡片,涵蓋來源、許可信息以及潛在的偏差風險,從而幫助 AI 從業者在訓練模型時做出更為明智的決策。核心功能包括: 

信息審查:涵蓋標識符信息,連接多個聚合器(如 Hugging Face、GitHub、Papers with Code等)的元數據,並提供詳細的數據集特徵和來源信息。

擴展來源元數據:包括許可證、數據源、創作者身份等,考慮了法律和倫理風險參數,如許可證的沿襲、數據源、創作者身份和其他開發者採用的優先級。

工具發佈:提供了數據探索界面和數據存儲庫,支持用戶下載按許可證條件過濾後的數據,並生成人類可讀的數據來源卡片。

他們對 1800 多個文本數據集進行了系統審查,發現大多數數據集在許可信息方面存在嚴重不足。具體表現為: 

許可信息缺失:在 GitHub、Hugging Face 和 Papers with Code 等平台上,分別有 72%、69% 和 70% 的數據集沒有指定明確的許可證,導致開發者在使用時面臨法律風險。

許可證標註不一致:很多數據集的許可證標註存在問題,平台標註和作者標註往往不一致,增加了使用者的困惑。

許可證種類繁多:不同數據集使用了各類許可證,如 CC-BY-SA 4.0、OpenAI Terms of Use 等,還有大量自定義許可證,這為小型企業和資源有限的組織帶來了挑戰。

為解決大量信息的「未指定」許可的問題,研究人員使用 Data Provenance Explorer 將未指定許可證的數據比例從 72% 降低至 30%,顯著提高了數據的可追溯性和透明度。 

另外,他們還觀察到,大部分數據集都集中在北半球,而不同地區受文化等因素影響,產生的數據集應用在不同地方可能會限制其性能。 

總之,通過減少訓練數據透明性不足導致的模型偏差,Data Provenance Explorer 有助於提高 AI 模型在實際應用中的準確性和公正性,增強模型在多樣化任務中的適應性。 

然而,這一研究也存在一定的局限性。例如,該工具目前主要適用於文本數據集,而對多模態數據(如影片、語音等)的支持仍有待加強。未來,研究人員希望擴大他們的分析,調查多模態數據的數據來源,並研究作為數據源的網站的服務條款如何在數據集中產生影響。 

提高合規性與安全性

隨著 AI 技術的突破性發展,確保數據集的透明性與合規性尤為重要。 

例如,在醫療 AI 領域,一些醫療影像診斷 AI 系統在訓練過程中使用了大量的患者影像數據,為確保數據的合法使用和患者隱私保護,必須對數據採取明確數據來源、獲得患者知情同意、對數據進行匿名化處理等措施。 

‍在 AI 倫理和法規領域,一些大語言模型在訓練過程中可能會接觸到大量的個人文本數據,如電子郵件、社交媒體帖子等。為了保護用戶隱私,必須採用區塊鏈、差分隱私等技術來增強數據安全性。

近年來,各國政府也在加強對 AI 數據使用的監管,出台了一系列法規和政策,要求企業在收集、使用和存儲數據時必須遵守嚴格的隱私保護原則。

Gartner 預測,到 2026 年,採用 AI TRiSM(AI 信任、風險、安全管理)控制措施的企業將通過篩除多達 80% 的錯誤和非法信息來提高決策的準確性。

在這項工作中,研究團隊也與監管機構接觸,討論他們的發現以及微調數據對版權的獨特影響,從而全面提高 AI 大模型的合規性與安全性。

本文來自微信公眾號「學術頭條」(ID:SciTouTiao),作者:學術頭條,36氪經授權發佈。