亞馬遜 AWS AI 訓練芯片 Trainium2 實例全面可用,公佈下代 3nm Trainium3
IT之家 12 月 4 日消息,亞馬遜 AWS 今日宣佈,基於其內部團隊所開發 AI 訓練芯片 Trainium2 的 Trn2 實例廣泛可用,並推出了 Trn2 UltraServer 大型 AI 訓練系統,同時還發佈了下代更先進的 3nm 製程 Trainium3 芯片。
單個 Trn2 實例包含 16 顆 Trainium2 芯片,各芯片間採用超高速高帶寬低延遲 NeuronLink 互聯,可提供 20.8 petaflops 的峰值算力,適合數 B 參數大小模型的訓練和部署。
亞馬遜宣稱 Trn2 實例與當前一代基於 GPU 的 EC2 P5e 和 P5en 實例相比性價比提高了 30-40%。
而更大規模的 Trn2 UltraServer 則用 NeuronLink 聚合了 4 台 Trn2 服務器,總共包含 64 顆 Trainium2 芯片,算力峰值進一步線性擴展到 83.2 petaflops,能滿足目前世界上最大規模模型的訓練和部署需求。
亞馬遜還正與其投資的 AI 模型企業 Anthropic 合作,共同構建一個名為 Project Rainier 的 EC2 UltraCluster 巨型計算集群,該集群包含大量 Trn2 UltraServer,總共擁有數十萬顆 Trainium2 芯片。
IT之家獲悉,該集群完成後有望成為迄今為止公開的最大 AI 計算集群,整體算力達 Anthropic 目前用於訓練最先進 Claude 模型所需量的 5 倍以上。
亞馬遜 AWS 還公佈了下代 Trainium3 AI 訓練芯片,這也是 AWS 首款採用 3nm 製程的芯片產品。亞馬遜表示基於 Trainium3 的 UltraServer 性能可達 Trn2 UltraServer 的 4 倍,而首批基於 Trainium3 的實例預計將於 2025 年底推出。
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。