全球 AI 算力報告出爐:LLM 最愛 A100,Google坐擁超 100 萬 H100 等效算力

全球有多少 AI 算力?算力增長速度有多快?在這場 AI「淘金熱」中,都有哪些新「鏟子」?AI 初創企業 Epoch AI 發佈了最新全球硬件估算報告。

AI 的物質基礎是機器學習硬件,例如圖形處理單元(GPU)和張量處理單元(TPU)。

據不完全統計,目前全球超過 140 款 AI 加速器,用於開發和部署深度學習時代的機器學習模型。

Epoch AI 帶來了全球算力的估計報告,利用公開信息估計了全球機器學習硬件的現狀和趨勢。

除了傳統硬件廠商英偉達、AMD 等紛紛推出加速卡,一些新興勢力開始「造芯」,算力持續提升。

2008 至 2024 年全球機器學習硬件的計算能力示意圖2008 至 2024 年全球機器學習硬件的計算能力示意圖

除了 GPU,硬件類型也豐富了起來。比如,出現了專門處理張量計算的 TPU(張量處理單元,Tensor Processing Unit)。

報告的主要結論,總結如下:

  • 總量每年增長 43%,價格下降 30%。

  • 低精度計算成為主流。

  • 頂級硬件能效每 1.9 年翻一番。

  • 八年間,訓練大型模型所需的處理器數量增加了 20 多倍。

  • 全球 NVIDIA 支持的計算能力平均每 10 個月翻一番。

  • 關鍵發現:ML 硬件的「摩亞定律」

    ML 硬件每年增長 43%

    以 16 位浮點運算衡量,機器學習硬件的性能以每年 43% 的速度增長,每 1.9 年翻一番。32 位性能也存在類似的趨勢。

    優化機器學習數字格式和張量核心提供了額外的改進。

    驅動因素還包括晶體管數量的增加和其他半導體制造技術的進步,以及針對 AI 工作負載的專門設計。這種改進降低了每 FLOP 的成本,提高了能源效率,並實現了大規模人工智能訓練。

    機器學習硬件在不同精度下的峰值計算性能機器學習硬件在不同精度下的峰值計算性能

    性價比每年提升 30%

    每美元性能提升迅速,並且任何給定精度和固定性能水平的硬件每年都會便宜 30%。與此同時,製造商不斷推出更強大、更昂貴的硬件。

    單位時間單位價格下的 FLOP單位時間單位價格下的 FLOP

    低精度格式是趨勢

    在使用針對人工智能計算優化的張量核心和數據格式時,GPU 通常速度更快。

    與使用非張量 FP32 相比,TF32、張量 FP16 和張量 INT8 在總體性能趨勢中平均提供約 6 倍、10 倍和 12 倍的性能提升。

    一些芯片甚至實現了更大的加速。例如,H100 在 INT8 時的速度比在 FP32 時快 59 倍。

    自推出以來,這些改進約佔整體性能趨勢改進的一半。隨著開發人員利用這種性能提升,使用較低精度格式(尤其是張量 FP16)訓練的模型已經變得很常見。

    能效每 1.9 年翻一番

    根據歷史數據,頂級 GPU 和 TPU 的能效每 1.9 年翻一番。

    就 tensor-FP16 格式而言,效率最高的加速器是 Meta 的 MTIA(每瓦高達 2.1×10^12FLOP/s)和 NVIDIA H100(每瓦高達 1.4×10^12FLOP/s)。即將推出的 Blackwell 系列處理器可能會更有效率,具體取決於其功耗。

    模型也各有所愛

    在 Epoch 的數據集中,NVIDIA A100 是用於高引用或最先進人工智能模型的最常用的硬件,自發佈以來已用於 65 個著名 ML 模型。

    其次是 NVIDIA V100,用於訓練 55 個著名模型,其次是Google的 TPU v3,用於 47 個。

    然而,估計 NVIDIA H100 到 2023 年底的銷量已超過 A100,因此它可能在不久的將來成為訓練模型最受歡迎的 GPU。

    不同加速器訓練的知名模型數量不同加速器訓練的知名模型數量

    2019 年至今,不同領域大模型訓練所需算力比較

    訓練集群規模猛增

    用於訓練大型語言模型(LLMs)的處理器數量的顯著增長。

    • Google NASv3 RL 網絡 (2016): 使用了 800 個 GPU 進行訓練。

    • Meta Llama 3.1 405B (2024): 使用了 16,384 個 H100 GPU 進行訓練。

    這意味著在短短八年間,訓練大型模型所需的處理器數量增加了 20 多倍。

    四大「算力帝國」?

    Google、微軟、Meta 和亞馬遜擁有相當於數十萬個 NVIDIA H100 的 AI 算力。

    這些計算資源既用於他們內部的 AI 開發,也用於雲客戶,包括許多頂級 AI 實驗室,如 OpenAI 和 Anthropic。

    Google可能擁有相當於超過一百萬個 H100 的計算能力,主要來自他們的 TPU。

    微軟可能擁有最大的 NVIDIA 加速器庫存,約為 50 萬個 H100 當量。

    大量的 AI 計算能力由這四家公司以外的集團共同擁有,包括其他雲公司如 Oracle 和 CoreWeave,計算用戶如特斯拉和 xAI,以及各國政府。

    之所以重點介紹Google、微軟、Meta 和亞馬遜,因為他們可能擁有最多的計算能力,而其他公司的數據公開較少。

    初步工作發現,截至 2024 年中,Google TPU 的總算力大約是英偉達芯片的 30%。

    英偉達每年不止翻一番

    自 2019 年以來,NVIDIA 芯片的總可用計算能力大約每年增長 2.3 倍,從而能夠訓練越來越大的模型。

    也就是說,全球 NVIDIA 組成的計算能力平均每 10 個月翻一番。

    Hopper 這一代 NVIDIA AI 芯片目前佔其所有 AI 硬件總計算能力的 77%。按照這種增長速度,舊的芯片型號在其推出後大約 4 年左右,對累計計算量的貢獻往往會低於一半。

    請注意,此分析不包括 TPU 或其他專用 AI 加速器,因為這方面的數據較少。TPU 可能提供與 NVIDIA 芯片相當的總計算能力。

    按芯片型號分解,發現目前大約 77% 的 NVIDIA FLOP/s 來自 Hopper 代際的 GPU,如 H100。

    目前估計 NVIDIA GPU 可提供 4e21 FLOP/s 的計算能力,約相當於 400 萬個 H100。

    注意:這些估計基於 NVIDIA 的收入申報文件,並假設不同時代芯片的分佈隨時間變化的模式與 AI 集群數據集中的模式相同。

    英偉達 23-24 年季度財報英偉達 23-24 年季度財報

    此外,報告發現自 2019 年以來,計算能力的累計總和(考慮折舊)每年增長 2.3 倍。

    但僅考慮數據中心銷售額,而忽略 NVIDIA 收入報告中「遊戲」(Gaming)銷售額帶來的計算能力。

    公開數據集

    Epoch 同時公佈了機器學習硬件數據集和數據分析源代碼。

    https://epoch.ai/data/machine-learning-hardware-documentation#overview

    詳細數據分析流程,參見下列 NoteBook。

    https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing

    參考資料:

    • https://epoch.ai/data/machine-learning-hardware

    本文來自微信公眾號:新智元(ID:AI_era)

    廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。