中國首個網絡大模型,pick了CPU
金磊 夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
當電信網絡用上了大模型,會是一種什麼體驗?
以前網絡上若是出了問題,運維人員需得是先靠著經驗反復排查,找到了「病根」再「對症下藥」。
而現在有了大模型,這事情的「打開方式」就變得截然不同了。
首先,網絡上若是出現了問題,大模型已經學會自己去找「病根」了,然後會把它的判斷結果呈現到運維人員的面前。
若是結果跟運維人員的診斷一致,那麼OK,「啪的一下」,問題就可以快速得到解決。
其次,即使診斷結果有所偏差或者描述不夠詳細,運維人員現在也只需做一個動作——問。
大模型不僅會像一位領域專家一樣,憑藉專業且豐厚的知識,對人類提出的問題做詳盡的解答;更重要的是,它還非常得快。
業界一般認為文本生成延時小於100毫秒是人類覺得較為舒適的閾值,而這個大模型它的生成速度則是:
首字符時延在1秒以內,生成延時在50毫秒左右。
因此,即使面對再多再複雜的問題,運維人員工作的感覺就好比旁邊有一位「高人」在現場指導一樣了。
值得一提的是,這個網絡大模型並不只是個現象級產品,而是已經實實在在的做到了「上崗」。
據悉,某電信運營商已經在全國31個省將它鋪開應用,日均調用量高達10萬次!
也正因如此,就在剛剛落幕的第二屆「華彩杯」算力大賽·智能計算專題賽中,它還拿下了一等獎的好成績,是獲得了官方認證的那種。
另外,方案白皮書《中國電信攜英特爾積極探索基於至強® CPU 平台的網絡大模型推理算力方案》也在中國通信標準化協會CCSA TC610、歐洲電信標準化協會ENI產業標準組主辦的雲網運營自智與網絡大模型技術研討會上正式發佈。
那麼接下來,我們就來進一步深入瞭解一下這個網絡大模型。
當大模型「上崗」電信網絡
就目前「上崗」的結果來看,該電信運營商的各級運維人員均已接入網絡大模型。
正如我們剛才提到的,他們運維的方式已經產生了實質性的改變——
專業知識問答、信息篩選、總結信息等等,統統交給大模型來處理即可。
不僅如此,在網絡規劃方面,網絡大模型也在發揮著作用。
它的推理輸出結果已經涵蓋了網絡建設、網絡維護、網絡優化和運營決策等場景。
基層運維人員通過這些結果,就可以實現精準理解與分析規則、自動規則核查;同時,網絡大模型提供的專業領域專業知識,還可以幫助電信行業方案分析與生成。
或許有小夥伴就要問了,這和市面上的眾多大模型問答產品又有什麼區別呢?
重點就在於夠垂直。
網絡大模型作為行業的「專家」,它所提供的答案是可以深入理解運維人員的用戶需求和意圖的,因此生成的答案和知識更精準、更個性化。
生成內容是夠專業了,接下來我們就要聊聊速度的問題。
眾多的運維場景都屬於邊緣端,也正因如此,就會對數據在邊側的即時響應速度提出了較高的要求。
畢竟若是等大模型生成答案還要好幾分鐘,那麼對於運營商網絡故障修復來說就成了臃腫的包袱。
對此,該電信運營商的「解法」是:
使用滿足OTII標準(邊緣硬件產業的新標杆)的邊緣服務器。
邊緣服務器的部署環境要求要比數據中心高,有時甚至需要部署在一些極端的惡劣情況下。
這意味著邊緣服務器需要在功耗、體積、耐用性、 TCO 等方面符合特定的要求,能夠在極端高低溫、灰塵、腐蝕、震動衝擊、電磁干擾下保持設備的正常運行。
而該電信運營商所採用的OTII服務器部署在邊緣場景下就具備了相對的優勢,例如針對環境適應的問題,它可以在高溫55°以下工作。
除此之外,它還支持IP65,符合EMC ClassB設計,支持9級地震烈度,機身小巧,有1U/2U/4U等多種型號,支持掛牆安裝等等。
不僅如此,服務器還支持前維護,適應邊緣的運維需求,該電信運營商大量的邊緣機房無需任何改造,就可以部署基於OTII標準的標準服務器。
也正因為在如此,便讓數據的及時交互和響應有了強有力的安全保障。
其生成速度也正如剛才所述,已經達到了首字符時延在1秒以內,生成時延在50毫秒左右,可以滿足大模型推理的功能和性能需求。
就目前來看,網絡大模型已覆蓋網絡「規、建、維、優、營」全生命週期五大類場景,圍繞知識問答、輔助助手、智能體三個維度,已經打造了12個AI助手。
具體場景和性能表現如下表、圖所示:
據悉,該電信運營商網絡大模型已實現問答準確率85%、方案生成可用率90%、故障處置效率提升30%、高危指令稽核效率提升50%的總體目標。
由此可見,網絡大模型已然是一個合格有效且可放心「上崗」的AI了。
而在它能夠做到「夠快、夠準」的背後,該電信運營商還有一個殺手鐧——
在背後起關鍵作用的算力「馬達」,某電信運營商pick的是CPU。
Why CPU?
從上述」網絡」大模型的應用流程可以看到,模型推理是至關重要的一個環節,它直接決定了故障定位、處置方案的生成速度和準確率。
而這恰恰是CPU大顯身手的」主場」。
從電信行業本身的特點來說,曆來整個系統中就有大量的CPU存量,無需引入全新的異構架構,而是繼續採用成熟的CPU方案,對電信行業來說有幾大優勢:
減少採購環節,降低總擁有成本。
該電信運營商作為全球規模最大的通信運營商之一,其網絡中部署著數以百萬計的X86服務器。這些服務器往往還處於使用週期內,完全可以通過軟件升級的方式,快速實現大模型的部署與應用。相比重新採購新的硬件設備,這種方式可以大幅降低前期投入,提高投資回報率。
電信行業對系統穩定性要求更高。
電信業務覆蓋範圍廣,涉及社會運行方方面面,從醫療救援到金融交易等等,對連續性要求極高,輕微故障也會直接影響客戶體驗。現代通信網絡又是全球最複雜的工程系統之一,一處小小的異常都可能引發連鎖反應,影響整網運轉。而以X86平台為代表的英特爾CPU架構安全和穩定性經過幾十年的積累和驗證,經得起考驗。
已建立成熟的運維技術團隊。
作為ICT領域的傳統企業,該電信運營商擁有一支規模龐大、經驗豐富的IT技術團隊。這些工程師、運維人員,對英特爾CPU的微架構、指令集、調優工具等都有著深入的理解和掌握。繼續採用CPU部署大模型無需太多學習和培訓成本,大大降低了新技術的採用門檻。
具體到CPU產品的選型,「網絡」大模型方案使用第五代英特爾® 至強® 可擴展處理器作為算力核心,來應對高強度、高併發的大模型推理需求。
首先,第五代英特爾® 至強® 可擴展處理器配備了更多的處理器內核數量、更強的單核性能和更大的三級緩存(LLC)容量。尤其是LLC容量的提升,使得大多數模型參數能夠直接駐留其中,從而大幅提升推理速度。此外,每路處理器還支持多達8個DDR5-4800內存通道,能夠有效緩解高內存需求場景下的帶寬瓶頸。
更重要的是,第五代至強® 還內置了多個專用於AI加速的引擎。特別是英特爾® AMX(高級矩陣擴展),採用分塊矩陣乘法的創新方式,通過Tile矩陣乘法單元(TMUL)對數據實施矩陣運算。並且AMX支持INT8、BF16等低精度數據類型,在保證精度的前提下顯著提高每時鍾週期的指令數。
軟件方面,方案還引入了一系列英特爾AI工具來進一步釋放硬件潛力。
例如,英特爾開源的分佈式推理優化框架xFastTransformer(xFT),可基於至強® 平台的指令集實現張量並行、流水線並行等多種性能優化,並支持 BF16、INT8、INT4等多種數據類型以及多種主流大模型。
這些AI 軟件工具實現了對主流AI開發框架的全面兼容,使得網絡大模型無需修改代碼即可從GPU遷移到CPU,真正實現「一次編寫,隨處部署」。
此外,得益於CPU的能效優勢,採用第五代至強® 方案還能顯著降低模型運營的能耗成本。數據顯示,第五代至強® 的開箱即用能耗比較上一代提升高達34%,啟用BIOS優化後還可進一步提高。
除了對CPU本身的選擇,網絡大模型由於需要部署到生產一線,有時甚至需要在極端惡劣環境部署,對於整個服務器的要求非常高。
為了更好地滿足業務需求並提升使用體驗,該電信運營商選用了符合OTII標準的邊緣服務器。
OTII標準由英特爾聯合中國通信標準化協會、該電信運營商等企業共同製定,滿足電信邊緣場景對開放性、可擴展性的要求,涵蓋了服務器外形、散熱、電源、管理等各方面的規範,在功耗、體積、耐用性等方面符合特定要求,能在極端高低溫、灰塵、腐蝕、震動衝擊、電磁干擾等情況下保持運行。
由此可見,選擇CPU進行網絡大模型推理部署,已被該電信運營商這樣的大型企業實際驗證。這既是出於技術成熟度與穩定性的考量,更契合了企業客觀的IT環境與人才儲備。
該電信運營商的實踐表明,在時延、吞吐、功耗等關鍵指標上,CPU不僅可以滿足嚴苛的業務需求,借助軟硬件的聯合優化,推理成本也大幅下降。
特別是該方案還在2024 華彩杯取得好成績,為大模型在更多場景應用打造了一個標杆。該電信運營商和英特爾的合作模式,也成為一個可以值得借鑒的「範本」。
隨著未來技術發展,大模型還會深入走進更多行業,需要在性能、功耗、成本、易用性等多方面實現最佳平衡。
總的來說,CPU在AI推理加速上仍然大有可為。
最後讓我們打個小廣告:為了科普CPU在AI推理新時代的玩法,量子位開設了《最「in」AI》專欄,將從技術科普、行業案例、實戰優化等多個角度全面解讀。
我們希望通過這個專欄,讓更多的人瞭解CPU在AI推理加速,甚至是整個AI平台或全流程加速上的實踐成果,重點就是如何更好地利用CPU來提升大模型應用的性能和效率。