烏鎮“智”新時刻丨大模型面臨高質量數據短缺 國產 AI 數據合成與生產平台烏鎮“首發”

封面新聞記者 張越熙

11月 19 日下午,行業大模型、具身智能、算力、芯片、數據合成等10 項首發成果在烏鎮峰會登台路演, 其中 AI 數據合成與生產平台AIGD(AI Generated Data)因聚焦“數據合成”獲廣泛關注。“未來的AI應用需要大量稀缺且難以獲取的長尾數據,如自動駕駛中的極端天氣與極端路況數據,具身智能訓練所需要的複雜場景數據。在此背景下,數據合成成為關鍵。”螞蟻數科AI科技技術負責人、螞蟻天璣實驗室主任李哲現場向記者介紹。

AI 發展正面臨著高質量數據短缺的問題。近年來,伴隨著大模型技術的快速發展,機器學習也正從“以模型為中心”轉向“以數據為中心”,高質量數據可以更好地模擬客觀世界,提升模型的準確性和穩定性,但是“到 2026 年,現存的用於 AI 模型訓練的高質量語言數據將耗盡”,據Epoch AI Research研究團隊預測。Gartner 表示,到 2030 年,合成數據將成為 AI 模型的主要訓練數據來源;2024 年, 60% 的 AI 數據將是合成數據,被用於模擬、預測場景和降低風險。

記者在2024年世界互聯網大會烏鎮峰會瞭解到,AIGD平台是由螞蟻數科申報的首發成果,平台可通過大規模合成互聯網所不覆蓋的高質量、高價值垂直語料數據,幫助科技廠商進行 AI 模型訓練。記者瞭解到,AIGD具備 PB 級數據生產能力,支援數據從生成到訓練全流程自動化處理,自動化率達到 80%,這極大提高了數據處理的效率和質量。此外,平台自研15 餘種數據合成工具,目前可以合成圖片、視頻、3D模型、多模態圖文視頻對、多輪對話、語音信號、心率腦電信號、結構化交易數據等多模態數據,以滿足多種應用場景下的 AI 模型訓練需求。

業內人士普遍認為,“高質量數據”是 AI 大模型深入到產業的重要基礎,沒有好的數據做支撐,一切 AI 應用都是空中樓閣。近日,OpenAI員工爆料說,“新模型‘沒有那麼大飛躍’”,主要原因之一便是高質量數據不足所導致的。今年 9 月份, OpenAI 發佈推理模型o1,帶來了強化學習訓練新範式,通過自博弈強化學習,將合成數據的形式訓練給大模型,從而大幅增加大模型邏輯推理能力。

“數據合成”是螞蟻數科 AIGD 平台的主要功能之一,此外還包括數據標註、質檢等能力。在數據標註方面,通過人機協同進行標註,人工智能算法能夠自動識別和預處理大部分基礎信息,預標註模型依賴人工標註量降低了 70%以上。在數據質檢方面,平台會根據元信息支援不同粒度的數據質量統計,最大程度理解數據,保證合成及標註後的數據符合預期質量要求。李哲在烏鎮峰會上表示:“我們即將迎來 AI 服務產業的黃金年代,螞蟻數科將會堅定在 AI ToB 領域投入,讓 AI 深入千行百業。”