中關村發佈｜智源研究院發佈超500G中文文本數據集

04月27日 11:39 新浪網 news-china-auto-hilite

新京報貝殼財經訊（記者韋英姿）4月26日，在2024中關村論壇年會平行論壇「數據安全治理與發展論壇」上，北京智源人工智能研究院（簡稱智源研究院）副院長兼總工程師林詠華表示，從語言模型演進到多模態文生影片模型，對模型訓練數據所需要的數據量提出了十倍、幾十倍甚至上百倍的發展需求。

她認為，大模型的訓練數據，不僅要求數量更多、質量更高，也要求思考如何推動數據尤其是中文高質量數據、行業數據的共建共享。

北京智源人工智能研究院副院長兼總工程師林詠華。圖/主辦方供圖

北京智源人工智能研究院副院長兼總工程師林詠華。圖/主辦方供圖

在活動中，林詠華發佈了超過500G的中文文本數據集——「中文互聯網語料庫CCI （Chinese Corpora Internet）2.0」。她表示，該語料庫既包括智源研究院大模型「悟道」的數據集，也包括全國20多家互聯網和其他企業的數據貢獻。

最後，她還宣佈上線面向數據貢獻團隊的積分共享數據平台，該平台包含的數據集超過58個，數據總量約213TB，支撐大多數人工智能訓練場景。

國內大模型發展面臨著高質量中文語料資源短缺的問題。第十四屆全國人大會議通過的政府工作報告提出，要深化大數據、人工智能等研發應用，大力推動數據開發開放和流通使用。

編輯嶽彩周

校對吳興發