英偉達鐵幕之後,Google AI 芯片已成氣候

英偉達在聚光燈下狂飆,Google卻在幕後悄悄造出自己的 AI 基建帝國系統。當別人還在搶 GPU 時,它早已自給自足、閉環生長 —— 悶聲幹大事,從未如此Google。

英偉達明修棧道,Google暗渡陳倉。

當你回頭一看,Google在 AI 基礎設施的優勢已經無法阻擋。

這幾天,Google終於把憋了很久的大招放出來了,CEO 劈柴官宣了自研第七代 TPU Ironwood 正式商用。

這是Google第七代 TPU,單顆算力 4614 TFLOPS(FP8 精度),192GB 的 HBM3E 內存,帶寬高達 7.37 TB/s。

與上一代 TPU v5p 相比峰值性能提升 10 倍!

對於 Google Cloud 客戶,Ironwood 根據工作負載需求提供兩種尺寸:256 芯片配置和 9216 芯片配置。

也就是一個 pod 可以最多塞下 9216 個 TPU,總算力達到了驚人的 42.5 ExaFLOPS。

與之相比英偉達目前主推的的 GB300 NVL72 系統只有 0.36 ExaFLOPS。

這就是 Anthropic 直接買了 100 萬顆 TPU 的根本原因。

Google才是那個真正低調發財的公司,有人總結 AI 價值鏈上所有公司涉足的領域。

Google是唯一一家,沒有之一,全棧人工智能公司:數據 → 算法 → 硬件 → 雲服務器。

它使用自己的數據來訓練自己的算法;這些算法在部署在自己的雲上的自己的芯片上運行;然後開發了自己的應用程序。

如果說現在Google唯一的弱點,那可能就是「蘋果」,準確的說,是客戶端設備,手機。

雖然安卓系統是Google的,但是偏偏Google沒有自己的手機(如果手機也有,Google稱得上地球上最壟斷的公司,也許沒有之一。)

雖然 Pixel 系列出貨量未能排在三星和國產等安卓機前面,但是用過 Pixel 的人都說好。

Google TPU 十年進化

Google TPU,全稱張量處理單元(Tensor Processing UnitT),從早期幾代主要作為內部優化工具,到最新的迭代已構成一個成熟且極具競爭力的產品組合。

當英偉達在橫向擴展(scale-out)加速器市場佔據主導地位時,Google已經構建了全球唯一一個專為訓練和運行前沿模型而設計的、具有高容錯性的超大規模系統。

2013 年,Google面臨一個關鍵時刻。

公司意識到,神經網絡日益增長的計算需求(尤其是在語音識別領域)可能迫使他們將數據中心的規模翻倍

這一預測使 AI 計算不再是一個機遇,而是對運營支出(OpEx)的生存威脅。

儘管Google早在 2006 年就考慮過構建專用集成電路(ASIC),但直到 2013 年,這才真正成為一項迫在眉睫的任務。

TPU v1 的開發週期之快是前所未有的:從設計、驗證、製造到部署至數據中心僅用了 15 個月!

TPU v1 於 2015 年在Google內部署,並於 2016 年的 Google I/O 大會上公開發佈。

TPU v1 的誕生過程極不尋常。

它並非一個循序漸進的研發項目,更像是一項緊急的「救火」措施。

據報導,Google在構建芯片的同時才開始招聘團隊,這表明該項目風險極高,但也具有最高優先級。

這種「衝刺」塑造了 TPU 的 DNA:實用主義和領域特定優化壓倒一切。

Google為了成功,犧牲了所有與神經網絡無關的功能。

當 AI 由神經網絡組成,TPU 就是 AI 而誕生的。

架構哲學,摒棄通用性

Google TPU v1 是一款「僅限推理」的 ASIC,專為 TensorFlow 框架設計。(另一個深度學習框架就是 Meta 的 PyTorch)

它與 CPU 和 GPU 的關鍵區別在於:TPU 專為高吞吐量的低精度計算(如 8 位整數)而設計。

與 CPU(通用處理器)和 GPU(當時主要為圖形渲染優化)不同,TPU 徹底摒棄了非必需的硬件,如緩存、亂序執行和紋理映射單元。

該芯片的核心是一個龐大的矩陣乘法單元,擁有 65,536 個(256×256) 8 位 MAC 單元,峰值性能達到每秒 92 萬億次操作(TOPS)。

v1 採用了 28nm 工藝,時鍾頻率為 700MHz,而其熱設計功耗(TDP)僅為 40W,遠低於同期的 GPU。

它被設計為一塊 PCIe 卡,可安裝在 SATA 硬盤插槽中,以便快速集成到現有服務器。

早期勝利,AlphaGo 與驚人的能效比

2016 年,DeepMind 的 AlphaGo 擊敗世界圍棋冠軍李世石,這一歷史性事件的背後正是 TPU v1 在提供算力支持。

2017 年發表的一篇具有里程碑意義的論文詳細闡述了其性能。

在Google的生產工作負載(佔數據中心 NN 推理需求的 95%)中,TPU v1 的速度比同期的 Intel Haswell CPU 和英偉達 K80 GPU 快 15 至 30 倍

然而,更關鍵的指標是能效比(TOPS / Watt),TPU v1 比 CPU 和 GPU 高出 30 至 80 倍

這一數據揭示了Google從一開始的戰略意圖。

在超大規模數據中心的環境中,成本不僅由芯片的採購成本(CapEx)決定,更由其運行的電力成本(OpEx)決定。

TPU v1 的勝利不僅在於速度,更在於它解決了 AI 計算的總體擁有成本(TCO)問題。

中期規模化演進

TPU v1 驗證了 ASIC 的概念,但其「僅限推理」的特性意味著Google在模型訓練方面仍依賴英偉達。

TPU v2 (2017 年推出)標誌著Google向訓練領域的戰略轉向。

關鍵的架構轉變是:從 8 位整數計算轉向浮點計算,特別是引入並推廣了由 Google Brain 發明的 bfloat16 (bf16)格式。

bfloat16 是一個巧妙的工程妥協:它保留了與 32 位浮點數(FP32)相同的 8 位指數,但將尾數截短至 7 位。

這一設計在大幅降低內存佔用和帶寬需求的同時,保留了訓練所需的動態範圍,有效防止了梯度消失或爆炸。

規格方面,v2 採用 16nm 工藝,搭載 16GB 高帶寬內存(HBM)(v1 為 DDR3),內存帶寬飆升至 600 GB/s,算力達到 45 TFLOPS。

TPU v2 引入了 Pod(集群)概念,但在此之前與之後,GPU 長期以集群 / 超算形態擴展

英偉達隨後在 2018 年推出 DGX POD 參考架構,2019 年起推出 DGX SuperPOD 並在 2020–2025 年持續更新(H200/GB200 等版本),這些都屬於標準化的 GPU 集群解決方案。

Google不再將 TPU 視為獨立的加速器,而是設計了 4 芯片模塊(180 TFLOPS)。

64 個這樣的模塊被組裝成一個 256 芯片的 Pod,總性能達到 11.5 PFLOPS 6。

這是 TPU 歷史上最重要的時刻之一。

Google停止了在「芯片競賽」中追趕,轉而開闢了「系統競賽」的新戰場。

TPU v3 (2018 年)延續了這一思路。

芯片性能提升至 123T-ops,HBM 增加到 32GB。更重要的是,Pod 的規模擴大了 4 倍,達到 1024 個芯片,使每個 Pod 的性能增加了 8 倍。

為了應對急劇增加的功率密度,液冷技術被引入併成為 TPU Pod 的標準配置,這使Google能夠進一步挑戰性能極限。

到了第四代,TPU v4 (2021)可以和與 A100 並駕齊驅,實現規模化領先。

TPU v4(2021 年)是一次重大飛躍。採用 7nm 工藝,性能提升至 275T-ops(T-ops 是 tera-operations per second 的縮寫,表示每秒執行的萬億次操作。)。

Pod 規模再次擴大,達到 4096 個芯片。

關鍵改進在於互連:v4 芯片的互連帶寬達到了上一代的 10 倍。

到 2021 年,TPU 不再只是一個「高 TCO 效益」的選項。

它在原始性能上已經可以與英偉達的最佳產品正面競爭。

現代 TPU 產品,多元化和專業化

TPU v5 的發佈標誌著Google從單一架構轉向成熟、多元化的產品線。

v5 有兩個版本 TPU v5e(Efficiency)和 TPU v5p(Performance),v5e 針對主流推理、微調和中小型訓練負載設計;TPU v5p 是訓練Google Gemini 1.0 模型所使用的核心繫統。

與 TPU v4 相比,TPU v5p 的 FLOPS 提高了 2 倍以上,高帶寬內存(HBM)提高了 3 倍

TPU v5p 專為性能、靈活性和規模而設計,可以訓練大型 LLM 模型 ,速度比上一代 TPU v4 快 2.8 倍。

TPU v6,代號 Trillium,於 2024 年 5 月宣佈,並於同年 10 月提供預覽。

v6 性能實現了 918TFLOPS 和 1836TOPS (Int8) 的巨大飛躍。

這比 v5e 高出 4.7 倍,比 v5p 高出約 2 倍。規格 32GB HBM,1600 GB/s 帶寬。

v6 引入了關鍵架構:第三代 SparseCore

SparseCore 的引入表明Google正在解決 Transformer 模型中的特定瓶頸。

SparseCore 是一種專門用於處理嵌入 (embeddings) 的加速器。

嵌入在排名和推薦模型中普遍存在,並且對傳統的 MXU 來說計算效率低下。

Trillium 是一款專為訓練 Transformer 和 MoE(Mixture of Experts)模型而打造的芯片。

Google的 Gemini 2.0 是在 Trillium (v6) 上訓練的

Google CEO 劈柴明確表示:「TPU 為 Gemini 2.0 的訓練和推理提供了 100% 的動力」。

TPU v7 推理時代的專業芯片

TPU v7,代號 Ironwood,於 2025 年 4 月發佈。

Ironwood 是首款專為推理而設計的 TPU,而 Trillium 則是訓練冠軍。

在戰略和資本層面,這反映了一種鍾擺策略。Google使用 v6 (Trillium) 來構建前沿模型 (CapEx 投入),現在發佈 v7 (Ironwood) 來規模化服務這些模型 (OpEx 消耗)。

Ironwood 旨在優化推理的 TCO。(畢竟我們人類已經進入 AI 推理時代)

Ironwood 達到 4614 TFLOPS (FP8),比 Trillium 的 Int8 性能高出 2.5 倍以上。能效比是 Trillium 的 2 倍

Ironwood 將在未來幾週年內全面上市。市場對 Ironwood 的早期反響極為熱烈。

比如,Google列出了一些已經下訂單的企業,Anthropic、Lightricks、essential AI。

CPU 也造,還有最新虛擬機

除了 TPU,Google還造了自己的第一顆通用處理器 Axion。

用Google自己的話:構建和運維現代應用既需要高度專業化的加速器,也離不開強大高效的通用計算能力。

基於這顆 CPU,Google還發佈了最新的 Axion 虛擬機,N4A。

基於 Arm 架構的全新 Axion 實例現已開放預覽。

與當前同代基於 x86 架構的虛擬機相比,N4A 可提供高達 2 倍的價格性能優勢。

除了虛擬機,還推出了裸金屬實例,C4A。

C4A 裸金屬實例(即將進入預覽階段)是Google首款基於 Arm 架構的裸金屬實例,為專用工作負載提供專屬物理服務器,適用於 Android 開發、汽車車載系統、嚴格許可要求的軟件、規模化測試農場或運行複雜模擬等場景。

Google的雲服務在 2025 年 3 季度處於世界第 3,前面是亞馬遜和微軟。

正如文章開頭所說,Google是現在 AI 領域唯一一家全棧技術公司,數據、算法、模型、雲服務、CPU、GPU,需要什麼就自己造什麼。

雖然在很多時候,Google沒有排在第一,但是在任何領域,Google都榜上有名。

也許這才是真正的悶聲發大財。

2025 年 10 月,Anthropic 宣佈擴大合作,獲得高達 100 萬個 TPU 芯片的使用權。

該協議價值數百億美元,並將在 2026 年提供超過 1 吉瓦 (Gigawatt) 的計算容量。

雖然全球的聚光燈幾乎都照在英偉達身上,但在聚光之外,Google的 AI 基礎設施版圖已經悄然成形,甚至形成了自己獨立的「氣候系統」。

Google給自己這套系統起了個名字:AI Hypercomputer。

英偉達是舞台中央的光芒,Google則隱藏在大幕之後。

當所有 AI 公司都在搶購 H 系列 GPU 時,Google早已在自己的 TPU 集群上完成了自我造血循環 —— 訓練、部署、推理、優化,全都在自己的系統內部完成。

Google AI 基金(Google AI Infrastructure Fund) 便是在這種體系下自然誕生的產物。

它不僅是投資基金,更像是一個生態基金池,用以扶持所有基於Google雲與 TPU 生態的 AI 公司。

Anthropic、Cohere、Character.AI、Essential AI……

這些名字在外界看來是獨立的創業公司,但它們在算力與模型底座上,都深度綁定Google的 TPU 集群與 Gemini 模型家族。

換句話說,Google的 AI 基金並非簡單的「投資人」,而是用資本作為粘合劑,將算力、雲服務與生態綁定在一起

當這些公司成長、融資、甚至上市時,Google都在背後分得紅利。

這就是Google真正的護城河:

不是某一代 TPU 芯片的領先;

也不是 Gemini 模型的參數量;(Gemini 3 馬上要發佈了)

而是一個可自我進化、自我繁殖的 AI 生態系統

在未來的幾年中,當市場仍在討論 GPU 的供需、算力的溢價、芯片的帶寬時,Google的 TPU 與 AI 基金正以穩健的方式持續擴張。

它的節奏不快,但勢能深厚,氣候已成。

參考資料:

  • https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads

本文來自微信公眾號:新智元(ID:AI_era)

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。