低調平頭哥,吹響先進存力商業化號角
基爾西 發自 凹非寺
量子位 | 公眾號 QbitAI
「在AI時代,我們必須全面提升先進存力。」
這就是平頭哥半導體產品總監周冠鋒,在中國存儲界的盛會MemoryS 2025存儲峰會上給出的關於AI存力發展的號召。

要知道,相比於各種形態的算力設施,存儲設備在AI基礎設施當中受到的關注是相對較少的——
顯然,人們從未滿足於算力的發展水平,但在聚光燈效應之下,存力發展更加不充分的現狀卻沒有得到充分重視。
實際上,如果把AI算力比作水力發電,那麼存儲就像水庫,同樣會對AI等各種大規模數據應用形成製約。
2018年成立的平頭哥,憑藉自研的SSD主控芯片鎮嶽510,已經成為存儲設施建設的重要力量。
在這屆峰會上,AI存力的發展建設成為了重要議題,在諸多與會者面前,平頭哥展示出了AI存力的鎮嶽510方案。
不讓存儲拖AI的後腿
上線一年多的鎮嶽510,帶來了商業化落地的新進展——
鎮嶽510已在阿里雲的EBS規模化上線,大幅提升了整體系統的IOPS和吞吐帶寬,更大幅優化IO延遲,相當於在同等資源條件下,幫助阿里雲EBS客戶承載更多訪問量,間接實現降本增效。
更重要的是,鎮嶽510也讓跑在阿里雲EBS業務上的客戶應用獲得了更快的響應,從而贏得了更好的用戶體驗。

雲計算場景之外,平頭哥也為SSD整盤廠商提供了新的選擇。
例如憶恒創源的PBlaze7 7A40系列SSD產品,就基於鎮嶽510打造,成為業界首款具有100萬IOPS的4K隨機寫性能的企業級SSD產品;
得瑞領新剛剛發佈的旗下首款PCIe 5.0高性能企業級NVMe SSD D8436/D8456系列,也利用鎮嶽510,相比上一代PCIe4.0產品實現了70%性能功耗比的提升。

高IO吞吐、高傳輸帶寬、低IO延時……一系列特性都瞄準了存力發展不足給AI帶來的製約。
那麼,SSD對於AI應用來說都起到了什麼樣的關鍵作用呢?
運算、傳輸、存儲……馮·諾依曼的計算機設計思想將AI基礎設施的運轉劃分出了多個流程,既相對獨立,各個環節之間又彼此關聯。
就以大模型為例,其訓練過程中的GPU的利用率,直接受限於數據的供給速度。並且由於SSD的I/O延遲(50-100 μs)遠高於DRAM延遲(50-100 ns),數據從存儲到內存的傳輸,正是大模型訓練數據供給速度的瓶頸。
到了推理階段,很多行業大模型需要在極短時間內進行實施決策,也需要更高的數據訪問速度和更低的數據時延。
此外,在AI大模型的訓練和部署中會間歇性的大量寫入Checkpoint檢查點環節,存儲設備需要具備所需的高寫入吞吐量。
反過來看,在算力一定的情況下,提高存儲設備的數據供給速度,就能拉高單位算力的利用效率,節省出算力時間。
上個月的DeepSeek開源周中,DeepSeek在最後一天開源了3FS文件系統,就是一個有效例證。3FS的目標就是把SSD的帶寬利用率提升到極致,從而降低模型的訓練總成本。
這還是在存儲能力本身沒有提高情況下的結果,如果存儲設備自身的能力得到提升,那麼對AI訓練的降本增效更加有所裨益。並且相比於堆更多算力,對存力地提升也是一種更加經濟的選擇。
所以,周冠鋒認為,DeepSeek的3FS,一方面在刺激著AI從業者將存儲設施升級到性能更高的PCIe 5.0接口設備,另一方面也在激勵做存力的廠商進一步提高其產品的性能。
也就是說,DeepSeek將作為催化劑,同時從需求和供給兩側,推動改善存力設備相對於算力發展的不足。更為有利的是,DeepSeek這個「催化劑」帶來的這波新機遇,剛好貼合了SSD行業固有的演進節奏。
周冠鋒介紹,結合SSD行業固有的節奏,以及服務器、CPU他們的演進節奏,2025年會是PCIe 5服務器的大規模上線的崛起之年。這樣的節奏,剛好匹配了基於鎮嶽510的SSD大規模上線的節奏。
實際上,SSD是一個長週期行業,鎮嶽510早在2021年開始立項,當時就定下了PCIe 5的接口方案,讓鎮嶽510在產品上市之後剛好匹配市場需求。這對從業者的賽前分析性視野和對行業規律的精準把握,無疑都具有極高的要求。
而現在,鎮嶽510在阿里雲EBS的上線,以及合作夥伴整盤產品的推出,已經證明了平頭哥的這個選擇,給鎮嶽510帶來了成功。
當然,如果說賽前分析性的視野為平頭哥找到了成功的方向,那麼還需要有足夠的驅動力,才能走向成功。
這個驅動力,無疑就是技術。
存儲主控的「六邊形戰士」
在鎮嶽510的研發過程中,平頭哥進行了芯片架構和算法的全面創新。

鎮嶽510採用平頭哥自研緊耦合芯片架構,能夠適應AI等高性能應用場景。
它可以對SSD任務進行高度抽像,將表項管理、隊列管理、Buffer管理等可固化任務硬化為加速算子,以提升性能,地址分配、錯誤處理等FTL關鍵任務則運行於CPU,以保持靈活性。
鎮嶽510每秒可處理高達340萬次IO,相當於1萬塊高性能機械硬盤(HDD)的性能總和,數據帶寬達到了14GByte/s。
同時鎮嶽510還支持最新的PCle 5.0主機接口以及DDR5.0內存接口,進一步提升了芯片的數據吞吐速率。
延時上,鎮嶽510實現了4μs的超低時延,比業界主流降低30%以上;在阿里雲EBS上的實測結果也表明,鎮嶽510將讀寫混合99.99%長尾延時降低了92%。
這得益於平頭哥創新的IO自動化處理機制,將前端IO的解析與處理交由專用硬件模塊自動完成,也得益於芯片的實現了IO/SYS/GC全鏈路隔離,極大地降低這些任務之間的相互干擾。

此外,平頭哥也提前預見AI的發展會對IO模型帶來的差異,採取了靈活性的設計,使得一年多之後的今天仍然能夠適配已經今非昔比的AI場景,讓AI發展不再受製於先進存力的短缺。
在準確率上,鎮嶽510實現了低至10^-18的UBER(不可修復的錯誤比特率),相當於每讀取百億億筆數據,才可能有一筆數據糾錯失敗,比業內標杆領先了一個數量級。
因為在算法層面,鎮嶽510採用了平頭哥自研的高性能LDPC(奇偶校驗碼)糾錯算法,編碼效率逼近香農極限,同時還利用TappingSet消除算法,消除工作過程中產生的譯碼環,從而將ErrorFloor降低一個數量級。
平頭哥還自研了閃存電壓預測算法,採取拋物線擬合方式,在各種閃存的不同工況、壽命、溫度等條件下,準確預測閃存電壓漂移,進一步降低LDPC解碼器的輸入誤碼率。

另外,鎮嶽510也更加節能,每瓦功耗可提供42萬筆的IO訪問。
以一個部署了10萬塊SSD的數據中心為例,相比目前主流的PCIe 4.0 SSD,鎮嶽510在相同的性能下,僅主控芯片即每年節省260萬度電,相當於2.6萬塊100度汽車電池的總能量。並且,選擇更加節能的存儲芯片,不僅是出於電力成本或環境保護。
算力設備進步的同時,功耗和發熱也大幅增加,在算力設別擁有絕對話語權的背景之下,有限的散熱能力也會被優先分配給算力設備,使得存力設備不得不在功耗上做出升級。

劈開行業應用的存力枷鎖
平頭哥擁有更多基礎設施、應用場景,可通過阿里雲業務對其產品進行實際驗證。在驗證取得成功之後,平頭哥也希望推動存力生態建設,拓展行業合作,將先進存力帶到更多應用場景。
-
比如在金融行業,一個微小的錯誤就有可能帶來不可挽回的損失,因而可靠、安全是最重要的指標;
-
在智能電力調度當中,需要根據情況進行實時決策研判,低延時就成了最關鍵的考量;
-
還有在搜索行業,併發量大又成了一個典型特徵,給IOPS帶來了更大的需求;
-
除此之外,在不同行業間,甚至行業內部,對成本的把控同樣是要考慮的問題……
所以,平頭哥把鎮嶽510做成了集容量、時延、成本、能效、可靠和帶寬於一體的「六邊形戰士」,在硬件上對每個行業的不同需求都能夠提供保障。
結合鎮嶽510的靈活性設計,就可以再根據行業特點,通過不同的固件軟件對行業看中的最關鍵因素進行專門化增強,從而遊刃有餘地走向千行百業。
總之,平頭哥憑藉著全面的技術和算法創新,突破了各行各業先進存力發展的瓶頸,未來將全面加速創新。
不難看出,平頭哥在先進存力上,展現出了十足的野望——
劈開行業應用的存力枷鎖,將先進存力推向百業千行。
時間上,平頭哥趕上了存儲設備迭代與AI在千行百業的廣泛落地的雙重機遇;資源方面,平頭哥的阿里背景也給其提供了堅實的保障;
再看平頭哥自身,也對存力發展的規律有著全面的把握和賽前分析性的眼光,並同時在軟硬件上不斷創新;天時地利人和之下,平頭哥立誌要成為這一波存力設備升級換代潮當中的引領者。
低調的平頭哥,這次註定要高調地將先進存力SSD這塊短板補上。