烏鎮“智”新時刻丨大模型面臨高質量數據短缺國產 AI 數據合成與生產平台烏鎮“首發”

封面新聞記者張越熙

11月 19 日下午，行業大模型、具身智能、算力、芯片、數據合成等10 項首發成果在烏鎮峰會登台路演，其中 AI 數據合成與生產平台AIGD（AI Generated Data）因聚焦“數據合成”獲廣泛關注。“未來的AI應用需要大量稀缺且難以獲取的長尾數據，如自動駕駛中的極端天氣與極端路況數據，具身智能訓練所需要的複雜場景數據。在此背景下，數據合成成為關鍵。”螞蟻數科AI科技技術負責人、螞蟻天璣實驗室主任李哲現場向記者介紹。

AI 發展正面臨著高質量數據短缺的問題。近年來，伴隨著大模型技術的快速發展，機器學習也正從“以模型為中心”轉向“以數據為中心”，高質量數據可以更好地模擬客觀世界，提升模型的準確性和穩定性，但是“到 2026 年，現存的用於 AI 模型訓練的高質量語言數據將耗盡”，據Epoch AI Research研究團隊預測。Gartner 表示，到 2030 年，合成數據將成為 AI 模型的主要訓練數據來源；2024 年， 60% 的 AI 數據將是合成數據，被用於模擬、預測場景和降低風險。

記者在2024年世界互聯網大會烏鎮峰會瞭解到，AIGD平台是由螞蟻數科申報的首發成果，平台可通過大規模合成互聯網所不覆蓋的高質量、高價值垂直語料數據，幫助科技廠商進行 AI 模型訓練。記者瞭解到，AIGD具備 PB 級數據生產能力，支援數據從生成到訓練全流程自動化處理，自動化率達到 80%，這極大提高了數據處理的效率和質量。此外，平台自研15 餘種數據合成工具，目前可以合成圖片、視頻、3D模型、多模態圖文視頻對、多輪對話、語音信號、心率腦電信號、結構化交易數據等多模態數據，以滿足多種應用場景下的 AI 模型訓練需求。

業內人士普遍認為，“高質量數據”是 AI 大模型深入到產業的重要基礎，沒有好的數據做支撐，一切 AI 應用都是空中樓閣。近日，OpenAI員工爆料說，“新模型‘沒有那麼大飛躍’”，主要原因之一便是高質量數據不足所導致的。今年 9 月份， OpenAI 發佈推理模型o1，帶來了強化學習訓練新範式，通過自博弈強化學習，將合成數據的形式訓練給大模型，從而大幅增加大模型邏輯推理能力。

“數據合成”是螞蟻數科 AIGD 平台的主要功能之一，此外還包括數據標註、質檢等能力。在數據標註方面，通過人機協同進行標註，人工智能算法能夠自動識別和預處理大部分基礎信息，預標註模型依賴人工標註量降低了 70%以上。在數據質檢方面，平台會根據元信息支援不同粒度的數據質量統計，最大程度理解數據，保證合成及標註後的數據符合預期質量要求。李哲在烏鎮峰會上表示：“我們即將迎來 AI 服務產業的黃金年代，螞蟻數科將會堅定在 AI ToB 領域投入，讓 AI 深入千行百業。”

你可能喜歡