英偉達新「王炸」,未發先難產?

繼B200/GB200芯片交付推遲後,英偉達或又面臨新品難產的問題。

12月24日,據Wccftech報導,英偉達最新旗艦芯片B300/GB300的參數已經確認。其中B300的顯存規格從上代產品的192Gb提升至288Gb;GB300平台將首次使用LPCAMM內存模塊設計,並配備帶寬提升至1.6Tbps的光模塊,以確保數據高速傳輸。

在性能大幅提升的同時,B300/GB300的功耗也被拉到史無前例的高度,TDP(熱設計功耗)達到1400W。作為對比,Hopper架構的拳頭產品H100芯片,其TDP為350W。

這對於服務器的散熱設計來說,無疑是個巨大的挑戰。

而就在上週,天風國際分析師郭明錤在研報中表示,英偉達在為B300/GB300開發測試DrMos技術時,發現芯片存在嚴重的過熱問題,這可能會影響B300/GB300的量產進度。

儘管黃仁勳此前曾多次表示,英偉達未來將嚴格遵循「一年一換代」的原則,但旗下GPU在改用Blackwell架構後,不止一次出現「跳票」的情況。

Blackwell架構,真有問題?

在郭明錤發佈的研報中,指出了B300/GB300目前面臨的問題:由AOS(Alpha & Omega Semiconductor)公司提供的5*5 DrMos方案在測試中過熱。

先來說說DrMos是什麼。

這是英特爾在2004年推出的技術,主要原理是將驅動器和MOS集成在一起,以減小多個元件的空間佔用以及降低寄生參數帶來的負面影響,從而提升轉換效率和功率密度。

簡單地來說,它就是一個高度集成的電源解決方案。

消費級顯卡RTX3060上的DrMos,由AOS供應消費級顯卡RTX3060上的DrMos,由AOS供應

在英偉達Hooper架構芯片上,包括H100/A100/H800/A800在內,其DrMos方案全部由MPS(Monolithic Power Systems)供應,可能是基於「不把雞蛋放在同一個籃子」的原則,在Blackwell架構芯片上,英偉達開始測試AOS的方案。

那是否能說明,AOS應該為B300芯片的過熱問題「背鍋」呢?

恐怕並不能。

首先,AOS的5*5 DrMos芯片是一款散熱能效高,且十分成熟的方案設計,這在行業內已經得到廣泛驗證。

其次,郭明錤的財報中也提到了,有產業鏈人士指出,B300的發熱問題除了DrMos芯片本身之外,還源於系統芯片管理的設計不足。

這已經不是Blackwell第一次被曝出存在設計問題。

今年8月,據《The Information》報導,B200在台積電流片過程中,發現設計存在缺陷。

起初業內認為可能是台積電的N4P製程工藝存在問題,但在與高盛的投資人溝通會中,黃仁勳說出了問題所在:由於GPU芯片、LSI橋、RDL中介層和主板基板之間的熱膨脹特性不匹配,導致封裝結構出現彎曲。

「100%是英偉達的責任。」

在芯片設計被曝出缺陷後,B200/GB200芯片的交付時間從今年3季度被推遲至4季度。而且從實際情況來看,現階段仍沒有公司拿到B200芯片,從公開資料中得知,馬斯克憑藉10.8億美元的訂單,獲得了B200芯片的優先交付權,這些芯片將被用於增強xAI的超級計算集群Colossus。

而即便是獲得優先交付權xAI,也得等到明年1月份才能收到B200芯片。

回到B300芯片上,這是一枚原定在明年3月GTC大會上發佈的旗艦產品,現在卻面臨「未發佈先難產」的問題。

完全壟斷AI服務器芯片的英偉達,為什麼會在Blackwell上一再翻車。

一個很重要的原因是,英偉達過於追求芯片性能上斷代領先,從而導致Blackwell系列芯片作為量產型產品,幾乎變成一個實驗性平台。

比如CoWoS-L封裝技術的應用。

這裏需要說一個背景是,Blackwell是一枚基於MCM(多芯片封裝)設計的GPU,即在同一個芯片上集成兩顆GPU die。

為了配合英偉達的需求,台積電方面首次將CoWoS-L技術應用在這枚芯片的封裝上。而在此之前,CoWoS-L封裝也沒有經過大規模驗證。

有業內人士指出,CoWoS-L封裝現階段的良率可能在90%左右,作為一項後段工藝,這個數字很不理想。

需求是否過於樂觀?

在Blackwell架構芯片推出後,知名華爾街投行Keybanc Capital Markets曾發出了一份預測:

「Blackwell芯片將推動英偉達數據中心業務的收入,從2024財年(截至2024年1月)的475億美元增長到2025年的2000多億美元。」

眾所周知,在大模型的訓練與部署中,英偉達的GPU居功至偉,但BlackWell架構芯片真的能憑一己之力帶動業績翻倍上漲嗎?

即便忽略掉B200/B300的延期交付問題,僅從市場需求來看,可能並不是特別的樂觀。

對於各大互聯網公司來說,一個首當其衝的問題是,如果大規模引入基於Blackwell芯片的服務器,那麼算力中心的建設成本將會被大大提高。

因為B200芯片高達1000W的TDP實際上已超過了傳統風冷散熱的極限,許多服務器廠商為瞭解決散熱問題,不得以堆砌3D VC(真空腔均熱板)的數量和麵積,由此導致在42U的標準服務器機櫃中,可容納的芯片越來越少。

而到了B300芯片上,風冷散熱方案無論如何修修補補都無法壓住1400W的功耗,必須全面改用液冷。

但對於已經搭建好計算中心的廠商而言,改用液冷會導致其成本驟增。比如在傳統服務器機房中在搭建時都會對空調系統進行重點設計,一些大型計算中心的空調系統可以支持0°以下的送風。

如果改用液冷,則意味著在加入配套基礎設施的同時,過去花大價錢打造的空調系統淪為閑置。

世界人工智能大會上的液冷機房,圖片來源:視覺中國世界人工智能大會上的液冷機房,圖片來源:視覺中國

另外就是服務器本身的價格問題。現階段,一組基於GB200的AI服務器根據帶寬配置的差異,定價約在200-300萬美元之間,而如果這些服務器全部基於GB300改用液冷方案,價格甚至可能會翻倍。

還有一個很重要的問題是,市場對於最先進GPU的需求是否強烈?

就在12月14日的NeurIPS大會上,OpenAI聯合創始人Ilya Sutskever)表示,大模型預訓練即將結束,因為AI的化石燃料「數據」已經用盡了。

如果Ilya的判斷沒有問題,一個顯而易見的轉變將是大模型的研究重心將從訓練轉向推理,在這樣的背景下,雖然英偉達Blackwell系列芯片具備強大的「訓推一體」能力,但有多少廠商未來願意持續性地高成本投入,還有待觀察。