中關村發佈|智源研究院發佈超500G中文文本數據集

新京報貝殼財經訊(記者韋英姿)4月26日,在2024中關村論壇年會平行論壇「數據安全治理與發展論壇」上,北京智源人工智能研究院(簡稱智源研究院)副院長兼總工程師林詠華表示,從語言模型演進到多模態文生影片模型,對模型訓練數據所需要的數據量提出了十倍、幾十倍甚至上百倍的發展需求。

她認為,大模型的訓練數據,不僅要求數量更多、質量更高,也要求思考如何推動數據尤其是中文高質量數據、行業數據的共建共享。

北京智源人工智能研究院副院長兼總工程師林詠華。圖/主辦方供圖北京智源人工智能研究院副院長兼總工程師林詠華。圖/主辦方供圖

在活動中,林詠華發佈了超過500G的中文文本數據集——「中文互聯網語料庫CCI (Chinese Corpora Internet)2.0」。她表示,該語料庫既包括智源研究院大模型「悟道」的數據集,也包括全國20多家互聯網和其他企業的數據貢獻。

最後,她還宣佈上線面向數據貢獻團隊的積分共享數據平台,該平台包含的數據集超過58個,數據總量約213TB,支撐大多數人工智能訓練場景。

國內大模型發展面臨著高質量中文語料資源短缺的問題。第十四屆全國人大會議通過的政府工作報告提出,要深化大數據、人工智能等研發應用,大力推動數據開發開放和流通使用。

編輯 嶽彩周

校對 吳興發