MLPerf Storage揭榜,「存儲」掛帥,驅動AI上演「飛馳人生」

AI產業鏈各個核心要素的「重要性」還在不斷提升,其中存儲的價值就在強勢增長。

日前,MLCommons協會發佈最新MLPerf™ Storage v1.0 AI存儲基準測試成績。浪潮信息分佈式存儲平台AS13000G7表現出眾,在3D-UNet和CosmoFlow兩個模型共計8項測試中,斬獲5項性能全球第一。

且不說本土廠商成功「打榜」的事情,光是MLPerf™ Storage v1.0 AI存儲基準測試成績的發佈就釋放出不少重磅信息。

MLPerf™是影響力最廣的國際AI性能基準評測,由圖靈獎得主大衛·帕特森(David Patterson)聯合Google、史丹福大學、哈佛大學等頂尖學術機構共同發起,2023年首次推出存儲基準性能測試。這是全球首個且唯一的AI/ML存儲基準測試,旨在通過準確建模ML工作負載所產生的I/O模式來幫助解決存算平衡問題,為ML/AI模型開發者選擇存儲解決方案提供權威的參考依據。

現階段,隨著AI產業走向深實,市場既重視存儲,也對存儲解決方案提出了新的技術需求。以今年MLPerf™ Storage v1.0的評測標準來看,區別去年的v0.5版本,v1.0版本做了諸多技術相關的調整,一方面更注重存儲帶寬的峰值承載能力,重點考察在滿足高性能GPU一定利用率的前提下,存儲系統能夠為AI集群提供的總帶寬和每節點帶寬。另一方面則是強化了分佈式訓練,重點關注每存儲節點能支持的GPU數量,從而評估用戶的AI存儲投資回報。

總的來說,在全球範圍內,存儲比過去更注重與AI產業的結合與協同,「存力」在AI場景中的價值突顯。而以浪潮信息為代表的本土廠商在此次評測中脫穎而出,也說明了中國AI行業的風向同樣如此——市場對存儲的重視和創新正在加速中國AI的發展進程,讓本來就注重應用落地的中國AI產業具備了更完備的核心要素。

AI狂飆,存算協同

今天,人工智能向千行百業滲透,大數據、大模型的相繼迸發不斷加速智能時代的到來。隨之而來的還有萬卡算力集群、萬億參數規模的大模型訓練。在這個過程中,市場對算力的關注持續高漲,各大AI廠商首要追求的莫過於高效的算力資源。

然而,在算力之外,以存儲解決方案為代表的存力也同樣深刻地影響著AI產業的發展。存力不僅要提供足夠的存儲容量,還需要保證高效的數據訪問能力。因此,如果存力不足,即便是擁有高性能的計算資源(算力),也無法卡奧效地完成模型訓練任務,勢必會造成算力浪費。

存力與算力相輔相成,兩者之間的平衡至關重要,缺一不可,極大地影響著大模型訓練的效率以及AI產業發展的命脈。具體來看,現如今模型訓練的數據加載、模型訓練過程中的斷點續訓要儘可能地降低對計算時間的佔用,那麼存儲就不能「掉鏈子」,必然要提供高效、穩定的解決方案予以支持。

浪潮信息存儲產品線副總經理劉希猛在與「智能相對論」交流中提到,「隨著算力規模達到千卡萬卡規模的時候,其實它對存儲的性能要求,訪問帶寬達到了TB級。在一些小模型的訓練當中,對時延的要求更高,存儲系統需要提供百萬級的IOPS的要求。」

算力的升級帶動著存力的進階,現階段AI想要跑起來,算力是關鍵,存力也同等重要。隨著AI產業發展所湧現出來的諸多場景問題越來越深入,對存儲提出的新要求也更加具體——不管是以MLCommons協會為代表的行業機構,還是以浪潮信息為代表的行業廠商,都在致力於探索更強大、高效並符合AI場景需求的存儲解決方案,以讓存力跑在前面,協同算力升級,支撐AI產業加速發展。

當AI上演「飛馳人生」

事實上,新的存儲解決方案之所以備受重視,其背後意味著整個行業對AI系統性認知越來越成熟。

今天的AI如同一輛高速行駛的汽車,上演著智能時代的「飛馳人生」,而這輛汽車能提速的關鍵則在於汽車內各個核心要素或子系統的共同驅動。具體來看,數據相當於「燃料」,燃燒充分進而驅動「動力系統」工作,讓汽車加速動起來。算力的利用程度則決定了「動力系統」工作的效率,進而影響汽車快慢——這是算力的價值所在。

而存力的價值在哪?在「燃料」與「動力系統」之間,兩者如何碰撞出火花,則取決於以油箱、輸油泵、燃油軌等核心零部件組成的「燃料供給系統」。在AI產業鏈中,存儲就相當於「燃料供給系統」,而存力的效率直接影響著「燃料」(數據)與「動力系統」(算力)之間的轉化,就如同汽車系統中油箱是否夠大、輸油泵是否給力、燃油軌是否通暢等問題,直接決定了汽車的燃料供給情況,影響著汽車的動力大小。

這是一個相當完整的系統,在這個「系統」中,也就是AI場景下,存力所面臨的具體需求也將完全不同於傳統存儲,具體呈現在性能、效率以及韌性三大層面。

一、性能:大存力時代到來,協同大數據、大模型、大算力強勢驅動AI產業高速發展。

不管是單獨拎出算力與存力的關係來看,或是聚焦AI的系統性認知,都可以看到現階段存儲處於一個「牽一髮而動全身」的位置,如同汽車里「燃油供給系統」和「動力系統」之間的關係,存力的大小決定著算力的效率,進而影響AI的發展。

因此,當AI產業高速發展,進入大數據、大模型、大算力湧現的時代,市場所需要的同樣是大存力。基於這個趨勢,業內正在不斷去提升帶寬、IOPS,降低時延等,通過這些優化直接提高存力的效率。

其中,基於自研的分佈式軟件棧優勢,浪潮信息就在採用全新的數控分離架構,通過將I/O的控製麵和數據面解耦合,實現了分佈式一致性等複雜的控製麵與數據流直通數據面分離處理架構,解決了分佈式存儲數據流在節點間流轉的轉發問題,減少東西向(節點間)數據轉發量80%。在本次MLPerf測試中,浪潮信息存儲達到120 GB/s的單存儲節點的超高性能——如此優異的單節點性能應用到實際AI場景中,將可以為企業客戶節省大量的存儲成本,從而以更高的性價比讓AI充分跑起來。

二、效率:存儲與AI產業鏈主動耦合,其價值定位愈發強調「以大局為重」。

對於存力「牽一髮而動全身」的價值定位,浪潮信息分佈式存儲產品部副總經理安祥文向「智能相對論」提供了更具體的解析視角。他以大模型的訓推落地舉例,以數據為第一視角講述了在不同的階段,存儲都將面臨著截然不同的工作任務。對比傳統的存儲,現階段的存儲需要實現以存促算、以存強算的目標,從被動到主動、從分離到耦合,最終綜合加快大模型訓練的效率。

不難理解,存儲正積極融入AI產業鏈中,其效率提升不只是關注自身,更在於如何全局性地、連續性地推動整個大模型訓練甚至是AI產業的加速發展。這種從單節點到整體性的進階,則需要存儲協同好AI場景中各種問題,注重提升整體效率,就像在汽車系統中,駐車後再啟動,「燃料供給系統」需要及時地提供「燃料」給「動力系統」以確保汽車能連續地行駛。

在這方面,以浪潮信息為代表的本土廠商考慮到實際落地的場景問題,正通過存儲支持文件、對象、大數據等非結構化協議融合互通,全局命名空間等方式,從而減少多份數據重覆存儲,以及數據跨協議、跨區域、跨系統調度檢索的管理問題,提升存儲的全局效率。

三、韌性:存儲的地位不斷提升,行業創新高度聚焦存力的安全可靠體系建設。

過去,大眾對存儲的認知可能只是一個U盤,負責存儲資料的載體,但是當存儲融入AI產業鏈,其定位在變化,價值在提高,相應的所承擔的責任也在增強。存儲出了問題,將影響整個大模型訓推落地流程,就如同「燃料供給系統」故障了,整個車子都將無法行駛。因此,存儲的安全可靠也同步受到市場更大的關注,只有有韌性的存儲解決方案才能適應現階段以及未來高強度、高價值的AI產業發展。

那麼,存儲的「韌性」應該如何提升?浪潮信息從傳統中醫理論入手設計保障存儲安全可靠的體系,正所謂「上醫治未病,中醫治欲病,下醫治已病」,一方面從網絡安全、設備安全、系統安全、管理安全、數據安全多維度構建了存儲安全體系,另一方面則是採用可靠性主動管理技術,實現存儲亞健康管理,對硬件、網絡、系統等進行亞健康檢測,確保系統故障可以快速恢復。此外,通過AIOps算法實現容量趨勢、性能趨勢、SSD壽命、HDD和SDD硬盤故障的精準預測,防患於未然,滿足客戶AI業務連續性需求。

結語

現如今,AI歷經多年發展,已經成長為一個大產業。在這條龐大的產業鏈之上,核心要素也在不斷趨於「大」發展,數據量激增迎來大數據時代,緊隨而來的還有大模型、大算力。越來越「大」的發展,讓各大核心要素之間愈發協同,存儲進入大存力時代,也與大數據、大模型、大算力之間的聯繫更加緊密。

在這個節點上,行業權威機構開創基準評測,為市場提供參考標準。以浪潮信息為代表的本土廠商不斷以優質的產品和解決方案強勢打榜,由此可見,不光是存儲的重要性在提升,本土AI的專業解決方案也在崛起。

只要以數據、算力為代表的核心要素相關解決方案持續強化,中國AI產業終將「狂飆」起來,上演本土化的「飛馳人生」。

*本文圖片均來源於網絡 

本文來自微信公眾號「智能相對論」,作者:陳泊丞,36氪經授權發佈。