中國電信 AI 研究院完成首個全國產化萬卡萬參大模型訓練,TeleChat2-115B 對外開源
IT之家 9 月 28 日消息,「中國電信人工智能研究院」官方公眾號今天宣佈,中國電信人工智能研究院(IT之家註:下文稱 TeleAI)成功完成國內首個基於全國產化萬卡集群訓練的萬億參數大模型,並正式對外開源首個基於全國產化萬卡集群和國產深度學習框架訓練的千億參數大模型 —— 星辰語義大模型 TeleChat2-115B。
官方表示,這項科研成果標誌著國產大模型訓練真正實現全國產化替代,正式進入全國產自主創新、安全可控的新階段。
TeleChat2-115B 基於中國電信自研的天翼雲「息壤一體化智算服務平台」和人工智能公司「星海 AI 平台」訓練完成。據介紹,其在保證訓練精度的前提下利用多種優化手段提升模型訓練效率和穩定性,實現了 GPU 同等算力計算效率超 93% ,模型有效訓練時長佔比超 98% 。
針對超大參數模型訓練,TeleAI 採用了大量小模型進行 Scaling,進而驗證不同模型結構的有效性。同時,在數據配比方面,基於小模型實驗結果反饋,採用回歸預測模型,得到較優數據配比。
在 Post-Training(後訓練)方面,TeleAI 首先針對數學、代碼和邏輯推理等內容合成了大量問答數據,用於 SFT(監督式微調)第一階段模型訓練。
其次,其採用迭代式更新策略,使用模型對提示詞數據進行指令複雜性提升與多樣性擴充,通過模型合成和人工標註提升答案質量,並利用拒絕采樣獲取優質 SFT 數據及 RM(獎勵模型)代表性數據,用於 SFT 訓練和 DPO(偏好對齊)訓練,以及模型效果迭代。
IT之家附開源地址
GitHub:
-
https://github.com/Tele-AI/TeleChat2
Gitee:
-
https://gitee.com/Tele-AI/tele-chat2
ModelScope:
-
https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers:
-
https://modelers.cn/models/TeleAI/TeleChat2-115B
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。