英偉達新「王炸」，未發先難產？

繼B200/GB200芯片交付推遲後，英偉達或又面臨新品難產的問題。

12月24日，據Wccftech報導，英偉達最新旗艦芯片B300/GB300的參數已經確認。其中B300的顯存規格從上代產品的192Gb提升至288Gb；GB300平台將首次使用LPCAMM內存模塊設計，並配備帶寬提升至1.6Tbps的光模塊，以確保數據高速傳輸。

在性能大幅提升的同時，B300/GB300的功耗也被拉到史無前例的高度，TDP（熱設計功耗）達到1400W。作為對比，Hopper架構的拳頭產品H100芯片，其TDP為350W。

這對於服務器的散熱設計來說，無疑是個巨大的挑戰。

而就在上週，天風國際分析師郭明錤在研報中表示，英偉達在為B300/GB300開發測試DrMos技術時，發現芯片存在嚴重的過熱問題，這可能會影響B300/GB300的量產進度。

儘管黃仁勳此前曾多次表示，英偉達未來將嚴格遵循「一年一換代」的原則，但旗下GPU在改用Blackwell架構後，不止一次出現「跳票」的情況。

Blackwell架構，真有問題？

在郭明錤發佈的研報中，指出了B300/GB300目前面臨的問題：由AOS（Alpha & Omega Semiconductor）公司提供的5*5 DrMos方案在測試中過熱。

先來說說DrMos是什麼。

這是英特爾在2004年推出的技術，主要原理是將驅動器和MOS集成在一起，以減小多個元件的空間佔用以及降低寄生參數帶來的負面影響，從而提升轉換效率和功率密度。

簡單地來說，它就是一個高度集成的電源解決方案。

消費級顯卡RTX3060上的DrMos，由AOS供應

在英偉達Hooper架構芯片上，包括H100/A100/H800/A800在內，其DrMos方案全部由MPS（Monolithic Power Systems）供應，可能是基於「不把雞蛋放在同一個籃子」的原則，在Blackwell架構芯片上，英偉達開始測試AOS的方案。

那是否能說明，AOS應該為B300芯片的過熱問題「背鍋」呢？

恐怕並不能。

首先，AOS的5*5 DrMos芯片是一款散熱能效高，且十分成熟的方案設計，這在行業內已經得到廣泛驗證。

其次，郭明錤的財報中也提到了，有產業鏈人士指出，B300的發熱問題除了DrMos芯片本身之外，還源於系統芯片管理的設計不足。

這已經不是Blackwell第一次被曝出存在設計問題。

今年8月，據《The Information》報導，B200在台積電流片過程中，發現設計存在缺陷。

起初業內認為可能是台積電的N4P製程工藝存在問題，但在與高盛的投資人溝通會中，黃仁勳說出了問題所在：由於GPU芯片、LSI橋、RDL中介層和主板基板之間的熱膨脹特性不匹配，導致封裝結構出現彎曲。

「100%是英偉達的責任。」

在芯片設計被曝出缺陷後，B200/GB200芯片的交付時間從今年3季度被推遲至4季度。而且從實際情況來看，現階段仍沒有公司拿到B200芯片，從公開資料中得知，馬斯克憑藉10.8億美元的訂單，獲得了B200芯片的優先交付權，這些芯片將被用於增強xAI的超級計算集群Colossus。

而即便是獲得優先交付權xAI，也得等到明年1月份才能收到B200芯片。

回到B300芯片上，這是一枚原定在明年3月GTC大會上發佈的旗艦產品，現在卻面臨「未發佈先難產」的問題。

完全壟斷AI服務器芯片的英偉達，為什麼會在Blackwell上一再翻車。

一個很重要的原因是，英偉達過於追求芯片性能上斷代領先，從而導致Blackwell系列芯片作為量產型產品，幾乎變成一個實驗性平台。

比如CoWoS-L封裝技術的應用。

這裏需要說一個背景是，Blackwell是一枚基於MCM（多芯片封裝）設計的GPU，即在同一個芯片上集成兩顆GPU die。

為了配合英偉達的需求，台積電方面首次將CoWoS-L技術應用在這枚芯片的封裝上。而在此之前，CoWoS-L封裝也沒有經過大規模驗證。

有業內人士指出，CoWoS-L封裝現階段的良率可能在90%左右，作為一項後段工藝，這個數字很不理想。

需求是否過於樂觀？

在Blackwell架構芯片推出後，知名華爾街投行Keybanc Capital Markets曾發出了一份預測：

「Blackwell芯片將推動英偉達數據中心業務的收入，從2024財年（截至2024年1月）的475億美元增長到2025年的2000多億美元。」

眾所周知，在大模型的訓練與部署中，英偉達的GPU居功至偉，但BlackWell架構芯片真的能憑一己之力帶動業績翻倍上漲嗎？

即便忽略掉B200/B300的延期交付問題，僅從市場需求來看，可能並不是特別的樂觀。

對於各大互聯網公司來說，一個首當其衝的問題是，如果大規模引入基於Blackwell芯片的服務器，那麼算力中心的建設成本將會被大大提高。

因為B200芯片高達1000W的TDP實際上已超過了傳統風冷散熱的極限，許多服務器廠商為瞭解決散熱問題，不得以堆砌3D VC(真空腔均熱板)的數量和麵積，由此導致在42U的標準服務器機櫃中，可容納的芯片越來越少。

而到了B300芯片上，風冷散熱方案無論如何修修補補都無法壓住1400W的功耗，必須全面改用液冷。

但對於已經搭建好計算中心的廠商而言，改用液冷會導致其成本驟增。比如在傳統服務器機房中在搭建時都會對空調系統進行重點設計，一些大型計算中心的空調系統可以支持0°以下的送風。

如果改用液冷，則意味著在加入配套基礎設施的同時，過去花大價錢打造的空調系統淪為閑置。

世界人工智能大會上的液冷機房，圖片來源：視覺中國

另外就是服務器本身的價格問題。現階段，一組基於GB200的AI服務器根據帶寬配置的差異，定價約在200-300萬美元之間，而如果這些服務器全部基於GB300改用液冷方案，價格甚至可能會翻倍。

還有一個很重要的問題是，市場對於最先進GPU的需求是否強烈？

就在12月14日的NeurIPS大會上，OpenAI聯合創始人Ilya Sutskever）表示，大模型預訓練即將結束，因為AI的化石燃料「數據」已經用盡了。

如果Ilya的判斷沒有問題，一個顯而易見的轉變將是大模型的研究重心將從訓練轉向推理，在這樣的背景下，雖然英偉達Blackwell系列芯片具備強大的「訓推一體」能力，但有多少廠商未來願意持續性地高成本投入，還有待觀察。