百度沈抖:百舸4.0升級發佈,模型訓練有效時長達99.5%

新浪科技訊 9月25日上午消息,今日舉辦的2024百度智能雲大會上,百度集團執行副總裁、百度智能雲事業群總裁沈抖宣佈百度百舸AI異構計算平台4.0升級發佈,支持多芯混訓、多芯適配,在萬卡集群上實現了超過99.5%的有效訓練時長。

在算力緊缺的當下,效率的提升將能夠幫助企業有效提升算力使用率,進而降低成本。據介紹,為解決算力資源短缺的問題,百舸4.0對“多芯混訓”能力進行了重點升級,實現了在萬卡規模集群上95%的多芯混合訓練效能,達到業務最領先水平。

在集群部署環節,升級後的百舸能夠實現工具層面的秒級部署,將萬卡集群運行準備時間從數週最快縮減至1小時,極大地提升部署效率,縮短業務上線週期。

針對大模型訓練過程中故障頻發的問題,百舸4.0全面升級了故障檢測手段和自動容錯機制,可以有效降低故障發生頻次,大幅減少集群故障處置時間,在萬卡集群上實現了超過99.5%的有效訓練時長。

在模型推理上,最重要的是速度和成本。現在長文本推理逐漸成為主流,百舸4.0整體上做到了推理速度和成本優化,長文本推理效率提升了1倍以上。(文猛)