AI計算爆發!吳泳銘力撐GPU計算,CPU真要淪為配角了?
9月19日,2024雲棲大會中杭州如約召開,作為阿里雲的年度重磅活動之一,雲棲大會以引領計算技術創新為核心,致力於推動雲計算、大數據、人工智能等前沿技術的發展與應用。
作為關注AI硬科技的頭部新媒體,雷科技也應邀出席雲棲大會,大會的開幕演講由阿里集團 CEO、阿里智能雲董事長兼 CEO 吳泳銘主持,而在整個主旨演講中,最令人印象深刻的莫過於這段話:
生成式AI 改變計算架構,從 CPU 主導的計算體系到 GPU 主導的 AI 計算遷移。AI 時代將是「GPU算力為主,CPU算力為輔」的計算模式。2024年市場新增算力,超過50%的需求AI驅動產生,這一趨勢將持續擴大。阿里雲投資建設了大量的 AI計算基礎設施,依然遠遠無法滿足客戶需求。
沒錯,GPU計算,就是未來。
CPU曾是數字世界的基石
在過去幾十年里,從雲端服務器到超級計算機,CPU一直都充當著計算體系核心的責任。比如著名的天河一號,就採用了14336個商用處理器、7168個加速處理器和2048個自主飛騰-1000處理器,這些處理器基本是「CPU」,也就是「邏輯處理器」。
CPU主要被設計用於處理通用計算任務,進行複雜的邏輯運算和順序運算。你可以將CPU看作是一個大學生,他有著足夠的邏輯推算能力來處理各種複雜的任務,但是每次只能處理一個任務,也就是所謂的「單線程」。
雖然在後續的CPU設計中,工程師通過指令集、CPU架構等方式,讓CPU可以同時處理兩個工作(雙線程),卻已然是當下的極限。而且CPU在處理任務時,仍然需要先處理完手頭的工作,再進入下一個工作流程,也就是「順序執行」。
邏輯運算與順序執行,構成了CPU的通用計算基礎,只要你輸入的程序符合CPU的運算邏輯,那麼CPU所給出的計算結果都是一樣的,並不會因為你使用的是AMD,他使用的是英特爾,所以你的1+1=2,他的1+1=3。
得益於強大的通用計算能力,CPU成為人類構建通用型計算中心時的首選,因為計算中心的設計初衷就是用來執行不同領域的計算任務。而服務器則是承擔著為雲端應用提供數據交換和計算等支持,為了使其能夠適應不同類型的應用運算,通用計算能力就是關鍵。
GPU計算:
從圖形渲染到驅動AI
最近兩年,一切都發生了翻天覆地的改變,GPU成為大多數新數據中心及超級計算機的核心,GPU算力的增長速度屢屢突破歷史記錄,企業瘋狂採購GPU核心,搭建全新的計算矩陣,而這一切的「元兇」,就是生成式AI。
作為近年來最受關注、熱度最高的前沿領域,生成式AI有一個特點,那就是對算力的恐怖需求,這個需求不僅體現在訓練、優化AI大模型上,更是隨著用戶數量的增長飆升。生成式AI可以說是人類少有的,從出現到普及耗時最短的前沿科技,現如今每一個接入互聯網的人,都可以通過訪問通義千問等網站來使用生成式AI。
龐大的需求催生了數量眾多的數據中心,但是也讓一部分人對此產生疑惑:為什麼要選擇GPU而非CPU來搭建AI數據中心?
GPU最初的設計用途是圖形渲染任務,這決定了其需要更強大的並行任務處理能力。以遊戲為例,當你在遊戲中看到一個箱子,實際上你看到的是一個由大量三角形組成的3D模型,如果你玩過早期的3D遊戲,那麼你肯定會對遊戲中「有棱有角」的角色有著深刻印象。
實際上,這個問題就是因為早期的GPU算力不足,只能進行百位數的三角形運算,無法滿足構建「光滑」模型的要求。隨著GPU的運算性能加強,當我們可以在一秒的時間里渲染出千萬級的三角形並組成3D模型,那麼在遊戲玩家的眼中,這個模型就有著非常真實的視覺效果,也就是「擬真級」精細建模。
因為需要處理的任務簡單(生成三角形並著色),但是任務數量卻非常多(千萬級),導致GPU成為一個偏科生。論對單個數據的處理能力,GPU與CPU的對比就像是小嬰兒與大學生,區別在於GPU是上千萬個「小嬰兒」的集合,而CPU則是幾十個大學生的集合。
當我們需要執行一個將1000萬個「三角形」從左邊移動到右邊的任務時,GPU和CPU誰的效率會更高?GPU的並行計算能力,也是其能夠處理複雜3D模型渲染的關鍵。
而在生成式AI誕生後,人們發現GPU的並行計算能力,遠比CPU要更適合進行AI運算,其中的原因則與AI大模型的底層結構有關。雖然在我們的眼中,AI大模型根據數據集群的不同,可以生成文字、圖畫、音樂等各種類型的結果,但是在實際運算中,所有數據其實都以一種形式存在——Token,也就是「最小語義單元」。
當你輸入一段文字時,應用程序會將文字拆解為數以萬計的Token,然後再丟到處理核心中進行計算。這個過程是否很眼熟?沒錯,整個邏輯與GPU渲染一個箱子其實是一樣,將一個任務拆分成大量的小任務,然後根據AI模型的邏輯推理來整合結果並輸出答案。
可以說,在AI時代的數據中心裡,GPU就是整個AI算力矩陣的核心,其重要性要遠遠超過CPU,而掌握著最先進GPU的廠商,將成為半導體領域的無冕之王。
GPU為王、CPU為輔,
群雄逐鹿AI計算
在目前的AI市場中,大多數人都認可一個觀點:英偉達就是AI算力的代名詞。不管是每秒可以進行數十萬億次浮點運算的H100,還是目前最強的消費級AI顯卡RTX 4090,都讓英偉達成為商業領域和消費領域無可爭議的NO.1。
特別是在消費領域,英偉達已經成為個人AI計算機的唯一選擇,其背後的原因就是英偉達的「殺手鐧」——CUDA。CUDA是由NVIDIA開發的並行計算平台和編程模型,他的作用是允許開發者利用英偉達GPU的強大並行計算性能來執行通用計算任務。
看完上一章節的朋友,估計會有點蒙,為什麼要用GPU來執行通用計算任務?這不是CPU的工作嗎?沒錯,通用計算任務確實是CPU的強項,但是俗話說得好:三個臭皮匠,頂個諸葛亮。當GPU的並行算力強大到一定程度,那麼只要有一個可以進行任務轉換的模型,就可以將GPU算力運用在通用計算任務里。
與此同時,英偉達還為CUDA提供了豐富的工具和庫,以及各種運算模型,讓使用英偉達GPU的開發者可以大幅度節省開發時間,並且更好地發揮GPU性能。正是利用CUDA對並行算力的支配,使得英偉達GPU可以在個人電腦里有效執行各種通用計算任務,為用戶提供足以支撐本地AI大模型部署的AI算力。
那麼AMD就沒有類似的工具嗎?其實是有的,名為ROCm,ROCm的前身Radeon Open Compute其實早在2016年就已經發佈,主要用於通用 GPU 計算(GPGPU)、高性能計算(HPC)和異構計算等領域。但是因為缺乏足夠的支持,所以生態規模遠遠無法與CUDA相比,而在生成式AI爆火之後,AMD很快就意識到了Radeon Open Compute的重要性,將其更名為ROCm並投入大量的資源進行更新。
作為一個AMD顯卡用戶,其實在過去的兩年里是可以明顯感受到AMD在AI領域的進步,曾經只能通過轉譯方式運行本地AI模型的AMD顯卡,如今已經可以借助ROCm的工具,實現原生本地AI模型部署和運算,效率和算力都有著質的變化。
雖然還無法與CUDA相比,但是已經讓人看到了些許的希望,更何況從價格上來說,性能相近的AMD顯卡價格往往只要英偉達顯卡的80%甚至70%。這也意味著AMD只要可以解決通用計算模型的問題,那麼就可以為個人及小型企業提供更具性價比的選擇,吃下相當一部分AI顯卡市場。
不過在ROCm成熟之前,英偉達都仍然會是消費級AI市場的最佳選擇。
與消費級市場不同的是,AMD在服務器市場的增長卻十分迅猛,Data Center Dunamics的數據顯示,2024年第一季度,AMD的數據中心業務創下內部收入的新紀錄,同比增長達38%。而在第二季度,AI服務器的出貨量同比增長41.5%,佔整體出貨量的12.2%。
雖然從整體的市場份額來看,英偉達仍然佔據著90%以上的市場,但是AMD也並非唯一的挑戰者。
Google前段時間推出的TPU(Tensor Processing Unit)芯片就專門用於加速機器學習和深度學習任務,採用Arm架構設計,在性能和能效上都有出色表現,已經被運用在Google的多項AI服務中。
而英特爾則是通過收購Habana Labs拿到了Gaudi AI加速器,結合新一代至強處理器的AI加速功能,緊密佈局CPU AI領域。這個市場的規模同樣不小,因為並非所有數據中心都以AI為核心應用,新一代CPU數據中心可以更好地兼顧通用型計算任務和AI計算任務,減少重覆建設數據中心的成本與維護花銷。
此外,英特爾也一直在關注移動PC的AI需求,這是英偉達目前最為弱勢的市場,因為英偉達GPU雖然有著出色的AI算力,代價卻是極高的功耗,無法滿足移動PC的長續航要求,這就為英特爾等廠商留下了可乘之機。
在今年的IFA上,英特爾就推出了內置新一代NPU(AI加速核心)的酷睿Ultra 200v系列處理器,提供強大算力支持的同時還兼顧了長續航等要求,與高通等新一代Arm PC處理器在AI PC市場展開激烈爭奪。
短時間來看,英偉達在AI算力市場的優勢仍然巨大,但是長遠來看,群狼環伺之下的AI市場,英偉達雙拳難敵四手。諸如移動PC、智能終端等英偉達的弱勢市場,很快就會被其他廠商瓜分乾淨,而關鍵的服務器市場也並非高枕無憂,AMD的MI300系列AI顯卡份額增長迅速,已經足夠引起英偉達的警覺。
不過,競爭所帶來的創新與發展,才是科技進步的關鍵,隨著AI領域的競爭加劇,實際上也在推動AI成本的下降,讓AI技術得到更快、更廣泛的應用。最後,我想用吳泳銘先生演講中的一句話來作為結尾:
AI驅動的數字世界連接著具備AI能力的物理世界,將會大幅提升整個世界的生產力,對物理世界的運行效率產生革命性的影響。
一個嶄新的世界,近在咫尺。