AI計算爆發！吳泳銘力撐GPU計算，CPU真要淪為配角了？

9月19日，2024雲棲大會中杭州如約召開，作為阿里雲的年度重磅活動之一，雲棲大會以引領計算技術創新為核心，致力於推動雲計算、大數據、人工智能等前沿技術的發展與應用。

作為關注AI硬科技的頭部新媒體，雷科技也應邀出席雲棲大會，大會的開幕演講由阿里集團 CEO、阿里智能雲董事長兼 CEO 吳泳銘主持，而在整個主旨演講中，最令人印象深刻的莫過於這段話：

生成式AI 改變計算架構，從 CPU 主導的計算體系到 GPU 主導的 AI 計算遷移。AI 時代將是「GPU算力為主，CPU算力為輔」的計算模式。2024年市場新增算力，超過50%的需求AI驅動產生，這一趨勢將持續擴大。阿里雲投資建設了大量的 AI計算基礎設施，依然遠遠無法滿足客戶需求。

（圖源：2024雲棲大會）

沒錯，GPU計算，就是未來。

CPU曾是數字世界的基石

在過去幾十年里，從雲端服務器到超級計算機，CPU一直都充當著計算體系核心的責任。比如著名的天河一號，就採用了14336個商用處理器、7168個加速處理器和2048個自主飛騰-1000處理器，這些處理器基本是「CPU」，也就是「邏輯處理器」。

圖源：域奇百科

CPU主要被設計用於處理通用計算任務，進行複雜的邏輯運算和順序運算。你可以將CPU看作是一個大學生，他有著足夠的邏輯推算能力來處理各種複雜的任務，但是每次只能處理一個任務，也就是所謂的「單線程」。

雖然在後續的CPU設計中，工程師通過指令集、CPU架構等方式，讓CPU可以同時處理兩個工作（雙線程），卻已然是當下的極限。而且CPU在處理任務時，仍然需要先處理完手頭的工作，再進入下一個工作流程，也就是「順序執行」。

邏輯運算與順序執行，構成了CPU的通用計算基礎，只要你輸入的程序符合CPU的運算邏輯，那麼CPU所給出的計算結果都是一樣的，並不會因為你使用的是AMD，他使用的是英特爾，所以你的1+1=2，他的1+1=3。

得益於強大的通用計算能力，CPU成為人類構建通用型計算中心時的首選，因為計算中心的設計初衷就是用來執行不同領域的計算任務。而服務器則是承擔著為雲端應用提供數據交換和計算等支持，為了使其能夠適應不同類型的應用運算，通用計算能力就是關鍵。

圖源：veer

GPU計算：

從圖形渲染到驅動AI

最近兩年，一切都發生了翻天覆地的改變，GPU成為大多數新數據中心及超級計算機的核心，GPU算力的增長速度屢屢突破歷史記錄，企業瘋狂採購GPU核心，搭建全新的計算矩陣，而這一切的「元兇」，就是生成式AI。

作為近年來最受關注、熱度最高的前沿領域，生成式AI有一個特點，那就是對算力的恐怖需求，這個需求不僅體現在訓練、優化AI大模型上，更是隨著用戶數量的增長飆升。生成式AI可以說是人類少有的，從出現到普及耗時最短的前沿科技，現如今每一個接入互聯網的人，都可以通過訪問通義千問等網站來使用生成式AI。

圖源：通義千問

龐大的需求催生了數量眾多的數據中心，但是也讓一部分人對此產生疑惑：為什麼要選擇GPU而非CPU來搭建AI數據中心？

GPU最初的設計用途是圖形渲染任務，這決定了其需要更強大的並行任務處理能力。以遊戲為例，當你在遊戲中看到一個箱子，實際上你看到的是一個由大量三角形組成的3D模型，如果你玩過早期的3D遊戲，那麼你肯定會對遊戲中「有棱有角」的角色有著深刻印象。

圖源：Twitter

實際上，這個問題就是因為早期的GPU算力不足，只能進行百位數的三角形運算，無法滿足構建「光滑」模型的要求。隨著GPU的運算性能加強，當我們可以在一秒的時間里渲染出千萬級的三角形並組成3D模型，那麼在遊戲玩家的眼中，這個模型就有著非常真實的視覺效果，也就是「擬真級」精細建模。

因為需要處理的任務簡單（生成三角形並著色），但是任務數量卻非常多（千萬級），導致GPU成為一個偏科生。論對單個數據的處理能力，GPU與CPU的對比就像是小嬰兒與大學生，區別在於GPU是上千萬個「小嬰兒」的集合，而CPU則是幾十個大學生的集合。

當我們需要執行一個將1000萬個「三角形」從左邊移動到右邊的任務時，GPU和CPU誰的效率會更高？GPU的並行計算能力，也是其能夠處理複雜3D模型渲染的關鍵。

而在生成式AI誕生後，人們發現GPU的並行計算能力，遠比CPU要更適合進行AI運算，其中的原因則與AI大模型的底層結構有關。雖然在我們的眼中，AI大模型根據數據集群的不同，可以生成文字、圖畫、音樂等各種類型的結果，但是在實際運算中，所有數據其實都以一種形式存在——Token，也就是「最小語義單元」。

當你輸入一段文字時，應用程序會將文字拆解為數以萬計的Token，然後再丟到處理核心中進行計算。這個過程是否很眼熟？沒錯，整個邏輯與GPU渲染一個箱子其實是一樣，將一個任務拆分成大量的小任務，然後根據AI模型的邏輯推理來整合結果並輸出答案。

可以說，在AI時代的數據中心裡，GPU就是整個AI算力矩陣的核心，其重要性要遠遠超過CPU，而掌握著最先進GPU的廠商，將成為半導體領域的無冕之王。

GPU為王、CPU為輔，

群雄逐鹿AI計算

在目前的AI市場中，大多數人都認可一個觀點：英偉達就是AI算力的代名詞。不管是每秒可以進行數十萬億次浮點運算的H100，還是目前最強的消費級AI顯卡RTX 4090，都讓英偉達成為商業領域和消費領域無可爭議的NO.1。

特別是在消費領域，英偉達已經成為個人AI計算機的唯一選擇，其背後的原因就是英偉達的「殺手鐧」——CUDA。CUDA是由NVIDIA開發的並行計算平台和編程模型，他的作用是允許開發者利用英偉達GPU的強大並行計算性能來執行通用計算任務。

圖源：英偉達

看完上一章節的朋友，估計會有點蒙，為什麼要用GPU來執行通用計算任務？這不是CPU的工作嗎？沒錯，通用計算任務確實是CPU的強項，但是俗話說得好：三個臭皮匠，頂個諸葛亮。當GPU的並行算力強大到一定程度，那麼只要有一個可以進行任務轉換的模型，就可以將GPU算力運用在通用計算任務里。

與此同時，英偉達還為CUDA提供了豐富的工具和庫，以及各種運算模型，讓使用英偉達GPU的開發者可以大幅度節省開發時間，並且更好地發揮GPU性能。正是利用CUDA對並行算力的支配，使得英偉達GPU可以在個人電腦里有效執行各種通用計算任務，為用戶提供足以支撐本地AI大模型部署的AI算力。

那麼AMD就沒有類似的工具嗎？其實是有的，名為ROCm，ROCm的前身Radeon Open Compute其實早在2016年就已經發佈，主要用於通用 GPU 計算（GPGPU）、高性能計算（HPC）和異構計算等領域。但是因為缺乏足夠的支持，所以生態規模遠遠無法與CUDA相比，而在生成式AI爆火之後，AMD很快就意識到了Radeon Open Compute的重要性，將其更名為ROCm並投入大量的資源進行更新。

圖源：AMD

作為一個AMD顯卡用戶，其實在過去的兩年里是可以明顯感受到AMD在AI領域的進步，曾經只能通過轉譯方式運行本地AI模型的AMD顯卡，如今已經可以借助ROCm的工具，實現原生本地AI模型部署和運算，效率和算力都有著質的變化。

雖然還無法與CUDA相比，但是已經讓人看到了些許的希望，更何況從價格上來說，性能相近的AMD顯卡價格往往只要英偉達顯卡的80%甚至70%。這也意味著AMD只要可以解決通用計算模型的問題，那麼就可以為個人及小型企業提供更具性價比的選擇，吃下相當一部分AI顯卡市場。

不過在ROCm成熟之前，英偉達都仍然會是消費級AI市場的最佳選擇。

與消費級市場不同的是，AMD在服務器市場的增長卻十分迅猛，Data Center Dunamics的數據顯示，2024年第一季度，AMD的數據中心業務創下內部收入的新紀錄，同比增長達38%。而在第二季度，AI服務器的出貨量同比增長41.5%，佔整體出貨量的12.2%。

雖然從整體的市場份額來看，英偉達仍然佔據著90%以上的市場，但是AMD也並非唯一的挑戰者。

Google前段時間推出的TPU（Tensor Processing Unit）芯片就專門用於加速機器學習和深度學習任務，採用Arm架構設計，在性能和能效上都有出色表現，已經被運用在Google的多項AI服務中。

而英特爾則是通過收購Habana Labs拿到了Gaudi AI加速器，結合新一代至強處理器的AI加速功能，緊密佈局CPU AI領域。這個市場的規模同樣不小，因為並非所有數據中心都以AI為核心應用，新一代CPU數據中心可以更好地兼顧通用型計算任務和AI計算任務，減少重覆建設數據中心的成本與維護花銷。

此外，英特爾也一直在關注移動PC的AI需求，這是英偉達目前最為弱勢的市場，因為英偉達GPU雖然有著出色的AI算力，代價卻是極高的功耗，無法滿足移動PC的長續航要求，這就為英特爾等廠商留下了可乘之機。

在今年的IFA上，英特爾就推出了內置新一代NPU（AI加速核心）的酷睿Ultra 200v系列處理器，提供強大算力支持的同時還兼顧了長續航等要求，與高通等新一代Arm PC處理器在AI PC市場展開激烈爭奪。

短時間來看，英偉達在AI算力市場的優勢仍然巨大，但是長遠來看，群狼環伺之下的AI市場，英偉達雙拳難敵四手。諸如移動PC、智能終端等英偉達的弱勢市場，很快就會被其他廠商瓜分乾淨，而關鍵的服務器市場也並非高枕無憂，AMD的MI300系列AI顯卡份額增長迅速，已經足夠引起英偉達的警覺。

不過，競爭所帶來的創新與發展，才是科技進步的關鍵，隨著AI領域的競爭加劇，實際上也在推動AI成本的下降，讓AI技術得到更快、更廣泛的應用。最後，我想用吳泳銘先生演講中的一句話來作為結尾：