國內首家人工智能數據訓練基地投用,大模型訓練「一站式」提供

新京報訊(記者吳婷婷)3月29日,2024北京AI原生產業創新大會暨北京數據基礎制度先行區成果發佈會在北京經開區舉辦,人工智能公共算力平台3000P智能算力投入使用,北京人工智能數據訓練基地啟用,這也是國內首家投入運營的人工智能數據訓練基地。

3月29日,北京亦莊人工智能公共算力平台正式點亮並投入使用。新京報記者 李木易 攝3月29日,北京亦莊人工智能公共算力平台正式點亮並投入使用。新京報記者 李木易 攝

「5、4、3、2、1,點亮!」隨著倒計時,北京亦莊人工智能公共算力平台3000P規模算力設備正式點亮並投入使用。北京亦莊人工智能公共算力平台是北京最大規模的高性能人工智能計算集群,具備3000P高性能智能算力、大容量高速存儲以及高帶寬、低延遲網絡服務的特點,可以幫助企業推動開展大模型訓練,推廣行業應用。

3000P的算力規模有多快?1P約等於每秒1000萬億次的計算速度,3000P則意味著如果用「秒速」「光速」等文字語言都不能準確概括其計算的速度。

算力是人工智能發展三個重要元素之一,另外兩個元素是數據和算法。北京亦莊智能城市研究院集團有限公司黨委副書記、總經理顏敏介紹,從外部條件來看,目前製約企業大模型發展比較明顯的問題是算力和數據,因此建設公共算力平台將解決企業,尤其是創業型企業、小規模企業在發展中購買算力能力不足的問題。與此前市場上的公共算力平台相比,北京亦莊人工智能公共算力平台為政府牽頭、國有企業投資建設,具有普惠的性質,算力規模大,可以很好地支持企業的發展。

同時,北京人工智能數據訓練基地也在當天的活動上正式啟用。在談到建設這一基地的目的時,顏敏介紹,我國現有的數據量已經非常龐大,但是用於大模型訓練的高質量數據集非常少,「北京人工智能數據訓練基地通過一系列機制創新、先行先試,重點解決數據的確權難、流通難、收益分配難三個問題。」 

對企業來說,北京亦莊人工智能公共算力平台和北京人工智能數據訓練基地將為企業在發展大模型時帶來哪些便利?人民中科CEO侯黎明告訴記者,此前在訓練大模型過程中,企業常常需要到市場尋找算力,有時不得不東拚西湊。此外,豐富的語料是訓練大模型的重要方面,其中涉及政策和數據隱私等問題。他表示,北京亦莊人工智能公共算力平台和北京人工智能數據訓練基地的投用,解決了算力和語料的問題。侯黎明舉例解釋:「就好比亦莊為企業訓練大模型搭建了一個圖書館,裡面的資料非常豐富,我就不需要像以前一樣到各個書店去找書,在訓練基地就能‘一站式’湊齊。」

顏敏介紹,目前已有35家企業參與訓練基地的建設,包括數據供給方、數據加工方、數據需求方、平台運營方等7個方面,其中13家企業提供了6.8T的數據。

編輯 樊一婧 

校對 劉軍