對話英特爾宋繼強:為什麼建數據中心,一定要嚴卡能效比?丨 科創100人

文 丨 新浪科技 周文猛

期數:No.35

嘉賓:英特爾研究院副總裁、英特爾中國研究院院長宋繼強

近一年以來,隨著基於大模型技術的新一輪人工智能技術浪潮崛起,如何有效應對AI部署帶來的功耗和成本挑戰?如何構建可持續的算力系統?AI PC能改善消費電子需求減弱的現狀嗎?一系列的問題,成為整個科技行業的熱門議題。

近日,新浪科技《科創100人》採訪了英特爾研究院副總裁、英特爾中國研究院院長宋繼強。對話中,宋繼強指出,“應對大模型部署的功耗和成本挑戰,可以從芯片製程、系統架構、異構算力以及數據中心規劃設計等多維度入手。”

作為最為底層的芯片算力企業,英特爾和國內外眾多雲廠商、電信廠商已有超過十年的合作,其間作為顧問去幫這些企業成立數據中心,做架構優化,過程中積累了大量的經驗。談及國內該如何構建可持續的算力系統時,宋繼強強調,“在新建數據中心的時候,一定要嚴卡能效比。”

在宋繼強看來,AI PC概念的提出,類似於之前在計算機上加上WiFi功能一樣的變革。因為體積和算力的原因,電腦可以把多種算力架構組合進去,支持更多的生成式AI創新。

“與手機相比,PC能支持更多生成式AI創新”

近一年以來,隨著生成式AI技術的快速發展,越來越多的PC和消費電子廠商紛紛圍繞AI技術展開創新,AI PC的概念也隨之出現。作為個人電腦領域最為底層的芯片算力提供商,英特爾如何看待這一輪AI浪潮對於PC等消費電子行業的影響呢?

宋繼強表示,AI PC這一波新的技術增長或應用增長拐點,就像當年把WiFi做到筆記本上一樣,因為他突然給傳統的 PC或筆記本增加了一些AI能力,這會導致交互方式發生很大的變化,如果PC再去結合諸如邊緣智能設備進行工作,這將帶來很多生產力上的改變,催生出一些新興的應用。

“這些被催生出的新興應用都跟終端設備有關,但目前在手機上的挑戰可能要比在 PC上更大。”宋繼強表示。

在宋繼強看來,由於手機體積較小能夠支撐的算力有限,而筆記本或者台式機則可以把多種架構組合起來去實現更多的功能,因此也將能夠支撐更多的硬件創新。

“應對AI大模型部署挑戰,要從三方面下手”

在部署大模型的過程中,AI工作負載帶來的功耗和成本挑戰,是目前業界迫切希望解決的。在宋繼強看來,AI工作的功耗問題,實際上可以從四方面分別進行解讀。

第一,芯片本身是否來自高能效比的工藝節點。如果我們想讓AI性能和能效提高,就要選用更具有高能效比的工藝節點去生產。比如,英特爾現在4年5個節點往前推進,從Intel 7、Intel 4、Intel 3,到2024年上半年和下半年分別會大批量生產的Intel 20A和Intel 18A,這些節點每代都會比前一代有兩位數性能提升。

“這些都是相對絕對的,因為它是半導體制程所帶來,能定義出一個晶體管的能效比、漏電情況、計算次數等,這是最底層的,也是芯片級的。”宋繼強表示。

第二,架構設計是否能夠跟工作負載特點吻合。有了基礎的晶體管製造工藝後,上面就是架構層的事,是如何組織晶體管並讓它去形成技術。這裏會涉及CPU、GPU、NPU以及DPU等不同的架構,這些架構由於工作模式不同,所以對於自己擅長那部分的工作負載能效比就挺好。比如在模型部署應用里,有一些是屬於前期的數據清洗和處理分析,包括數據結構的優化等,這些通過傳統CPU加上一些內存架構優化,其實就挺好。如果後面涉及大模型,再引入GPU或者一些專門的AI加速器,性價比會更好。

在宋繼強看來,現在的大模型所面臨的其實不是計算式主瓶頸,而是內存的帶寬和容量是一個很大的瓶頸,所以整個系統的架構裡面是不是把這部分專門進行優化,也是它最後效率高低的一個差別。因為只要你負載沒運行完,這些都在耗電,不管它是在空轉地等數據,還是其他的都在耗電。同時,一些複雜的工作也可以用更具突破性的架構去實現,比如說類腦計算芯片,做同一類任務,你用類腦芯片去實現和用這個傳統的CPU+GPU實現,他們的能效比、能耗能相差到千倍以上。

上層系統是否從網絡到軟件都進行了優化。以數據中心服務器是否用最先進的綠色計算方案為例,在整個服務器數據中心裡,要知道怎麼給它供電、散熱,怎麼去減少空調的功率。因為在數據中心裡邊,除了數據中心計算消耗的電量外,它產生了熱,空調就要去對它進行冷卻,所以空調的電量也是能耗的一部分。

當然,宋繼強也看到,對於想要提高AI能效比的企業而言,想要很好地兼顧好這些不同層面的技術因素,難度也是非常大的。在數智化需求側期待快速提升時,有什麼基於現在技術更靈活、快速的方案呢?據他介紹,在芯片製造、處理器架構以及整個計算系統構成環節,英特爾IDM2.0所提供的系統級代工服務,能夠給客戶提供全棧式的優化計算方案。此外,英特爾還可以通過專用軟件工具或合作客戶解決方案,去幫客戶優化並構造解決相應的AI能耗和成本問題。

“建數據中心,生態不統一最讓人頭疼”

據宋繼強介紹,在數據中心能耗優化和算網融合的能效比優化方面,英特爾和國內外支持的眾多雲廠商、電信廠商,已有超過十年的合作曆史,英特爾通常會作為顧問去幫這些企業成立數據中心,並做整個架構的優化,過程中也積累了大量的經驗。

在宋繼強看來,在推動可持續的算力生態建設過程中,一定要嚴卡能效比。畢竟,現在國內數據中心上量太快了,各個城市都在建設。因此,一定要通過數智驅動等手段,把能效真正地降下來。比如,通過加上傳感器做運維輔助,讓整個IT系統在運行工作負載的時候能夠節能;又或者通過優化空調用電,做到非IT系統的節能。

他結合英特爾綠色數據中心技術框架2.0分享表示,在建數據中心時鼓勵要更多地採用稍微先進一些的數據中心架構模式。“因為,一旦數據中心建成併成為基礎設施,都是朝著使用10—15年去的,如果中間再去替換的話,成本都非常高”。因此,在做實施時,儘量找有前瞻性的企業或顧問團來做方案,也是非常重要的。

宋繼強表示,國內現在在建一些新的計算中心時,有時候也會找英特爾去做諮詢。會發現,他們遇到的一些問題是,之前採用的一些異構算力或者技術供應商,經曆一年兩年以後都消失了,又得重新迭代。“所以現在國內建計算中心的時候也是很頭疼的,而且大家的生態都不統一,在這上面開發應用是很大的一個投資風險。”

據他介紹,目前英特爾也會參與國內一些智能算力中心的硬件能效比或計算能力評測中,去定製一些行業標準,去比較不同芯片或不同架構組合對於解決問題的能力,做類似於基準測試的定義,進而促進行業的規範發展。