百度百舸AI計算平台4.0發佈:模型訓練有效時長達99.5%

封面新聞記者 孟梅 易弋力

9月25日,在2024百度雲智大會上,百度智能雲宣佈將百舸AI異構計算平台全面升級至4.0版本。升級後的百舸,圍繞落地大模型全旅程的算力需求,在集群創建、開發實驗、模型訓練、模型推理四大方面,為企業提供“多、快、穩、省”的AI基礎設施。

為瞭解決算力資源短缺的問題,百舸4.0對“多芯混訓”能力進行了重點升級,實現了在萬卡規模集群上95%的多芯混合訓練效能,達到業務最領先水平。

在集群部署環節,升級後的百舸能夠實現工具層面的秒級部署,將萬卡集群運行準備時間從數週最快縮減至1小時,極大地提升部署效率,縮短業務上線週期。

針對大模型訓練過程中故障頻發的問題,百舸4.0全面升級了故障檢測手段和自動容錯機制,可以有效降低故障發生頻次,大幅減少集群故障處置時間,在萬卡集群上實現了超過99.5%的有效訓練時長。

在模型推理上,最重要的是速度和成本。現在長文本推理逐漸成為主流,百舸4.0整體上做了推理速度和成本優化,長文本推理效率提升了1倍以上。