專訪清華胡楊:開發晶圓級芯片,降低先進工藝依賴,通過系統重構大幅提升算力

信息技術快速發展,全球對算力的需求與日俱增。從 AI 到大數據分析,再到物聯網、自動駕駛,幾乎各個領域的進步都離不開強大的算力支持。

然而,當前傳統芯片製造工藝逐漸接近物理極限,嚴重製約了算力的提升空間。面對這一挑戰,開發晶圓級芯片成為了一個備受關注的解決方案。

晶圓級芯片通過構建整片晶圓規模的大規模集成電路,打破了傳統芯片設計中由光刻口徑施加的面積牆限制,對比等效的算力集群,能夠顯著提高系統集成度,減少互連延遲和功耗。

「未經切割的晶圓上電路單元可以更緊密地排列,形成帶寬更高、延時更短的互連結構,大幅加速數據傳輸。晶圓級芯片可以說是目前為止算力節點集成密度最高的一種形態。我們測算,其單機櫃算力密度能夠達到現有 GPU 方案的 200 倍以上。」清華大學集成電路學院胡楊教授告訴「問芯」。

圖|清華大學集成電路學院副教授胡楊(來源:受訪者)圖|清華大學集成電路學院副教授胡楊(來源:受訪者)

胡楊於 2017 年在美國佛羅里達大學電子與計算機工程係獲博士學位,之前分別在天津大學和清華大學獲得本科和碩士學位。博士畢業後他加入德克薩斯大學達拉斯分校擔任電子與計算機工程系助理教授,獲得 NSF CAREER AWARD。現在他是清華大學集成電路學院副教授、博士生導師,擔任科技創新 2030「新一代人工智能」重大項目負責人。

截至目前,他已發表學術論文 90 餘篇,其中在 ISSCC、JSSC、ISCA、HPCA、MICRO、ASPLOS 發表一作及通訊作者論文 20 餘篇,現階段的研究方向主要圍繞晶圓級 AI 芯片體系架構、集成架構、編譯工具鏈以及集群系統等。

「晶圓級芯片擁有更高單位體積晶體管密度與算力」

常規芯片生產流程中,一個晶圓在光刻後被切割成許多小裸片(Die)並單獨進行封裝,每片裸片都單獨封裝為一顆完整的芯片。

而晶圓級芯片,顧名思義,通過製造一塊不進行切割的晶圓級互連基板,再將設計好的常規裸片在晶圓基板上進行集成與封裝,從而獲得一整塊巨大的芯片。對比傳統芯片構成的計算集群,晶圓級計算系統通過先進集成技術獲得了芯片級的互連能力。

「晶圓級芯片本質上也是採用 Chiplet 方法進行設計,相當於把傳統 Chiplet 的中介層基板放大到了晶圓尺寸,然後在晶圓上集成計算與存儲 Die 等,這就形成了一個晶圓級芯片。」胡楊介紹說,「但是尺寸的變化會帶來一系列計算範式、系統形態、設計方法學角度的變革,從而使晶圓級芯片不僅僅是一個簡單的 Chiplet 產品。」他指出。

談及開發晶圓級芯片的初衷,他表示,「想要提升集群算力以及集群線性度,需要提升單個節點的算力,但從傳統路線上來看,提升單個節點算力只能依靠先進工藝。如何繞開先進工藝來提升算力?以晶圓級芯片為代表的系統級重構就是一種解決方案。」

「國內在先進封裝領域的佈局相對較早,能用來進行晶圓級集成的封裝技術儲備也較為充裕。在研發前期我們與產業鏈進行了很多接觸,發現基礎的‘單點技術’都有較好的儲備,只需要把這些單點技術串聯起來,進行打通適配,那就可以基於國內的產業鏈基礎進行晶圓級集成。」胡楊說道,「借助晶圓級芯片有望解決當前面臨的算力瓶頸,尤其是在先進工藝遭遇封鎖的背景下,能夠提供一個算力持續有效提升的途徑。此外由於晶圓級芯片的晶粒芯片完全基於成熟的數字計算範式,對比其他新型計算形態,在軟件編程、應用生態上具有天生優勢,有望儘早投入大規模部署與應用。這是我們投身這個領域的初衷。」他補充說。

圖|晶圓級芯片樣機開發流程示意(來源:受訪者)圖|晶圓級芯片樣機開發流程示意(來源:受訪者)

對比傳統芯片及其組成的算力集群,晶圓級芯片能夠在單位空間內集成更多單元電路,具有更高的晶體管密度與算力。同時,未經切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成帶寬更高、延時更短的互連結構,相當於通過高性能互連與高密度集成構建了更大的算力節點,在構建算力集群時,能夠有效提升集群的運作效率。相同算力下,由晶圓級芯片構建的算力集群佔地面積對比 GPU 集群能夠縮小 10-20 倍以上,功耗可降低 30% 以上

在相同工藝情況下,一般來說,芯片的面積越大、晶體管密度越高,其發熱就越嚴重。針對這種尺寸巨大、晶體管密度極高的晶圓級芯片的散熱問題,胡楊表示,「其整體發熱量要看集成的計算 Die 的數量及功耗。比如,在一個晶圓上集成有 30 顆計算 Die,這種規模的發熱量級採用常規液冷板散熱方式即可應對。」

「現階段的一種解決方案是,芯片上表面採用液冷板,下表面也基於液冷框架,採用異形結構使能之與發熱單元更好的貼合。但若後期集成數量更多或是採用能耗更高的計算 Die,那就需要借助其他散熱方式,比如相變液冷技術等。」他說道。

目前,半導體芯片行業圍繞散熱的研究大部分都是面向「微觀散熱」,即在單顆芯片的尺度上解決散熱問題。「然而,我們開發的大尺寸晶圓級芯片包括多個發熱點,屬於‘系統級散熱’的範疇。」胡楊指出,「芯片上表面是核心發熱區,芯片背部供電系統也會聚集大量的熱,如何從系統角度把上、下表面的熱量都散出去,這是需要攻克的難題,而這需要跨行業聯合相關熱設計領域的研究人員一起進行攻關。」他補充說。

除此之外,晶圓級芯片的製造也面臨一系列挑戰,比如良率問題,這會導致晶圓級芯片初期的成本較高。在胡楊看來,「這屬於工程與產業化問題。對此,需要有長期投入構建起產業鏈條,將產品從 0 到 1 開發出來,接下來就需要想辦法讓產業鏈條上下遊之間的工藝進行兼容,提升製造過程中各個環節的良率,最終構建起一套成熟的產業體系。如此一來,前期的 NRE 就分攤到後期的產品中,提升晶圓級芯片的商業可行性。此外,為了進一步提升晶圓級系統的可用性,系統容錯問題也不可忽視。」

從本質上來看,晶圓級芯片其實已經超出了芯片本身的概念,屬於一個複雜整機系統。「從芯片設計、基板設計、集成封裝、高性能供電、高效散熱、系統裝配、服務器整機乃至定製化機架等各個環節都需要多方合作。以封裝環節為例,這本身就是一個綜合學科,涵蓋工藝、材料、機械、物理等,需要相關學科的合作方一起探討。」他表示。

胡楊坦言,「我現在每天的主要任務就是與產業界打交道,目前我們團隊已經與清微智能、上海人工智能實驗室、中芯國際、長電科技、長鑫存儲、中國電子科技集團公司第五十八研究所等多家企業院所建立了緊密的合作夥伴關係。我自己的研究方向是體系架構領域,而晶圓級芯片開發是一個工程性很強的項目,需要對各個領域都有所瞭解,然後將這些領域有機結合起來。」

「晶圓級芯片是算力節點集成密度最高的形態」

據介紹,全球已有兩家公司開發出了晶圓級芯片產品。其中一家是 Cerebras,從 2019 年至今該公司已經推出第三代晶圓級芯片。「Cerebras 公司的技術路線是通過修改芯片光刻流程實現的。晶圓光刻過程中在計算 Die 之間加入連接線,讓 Die 與 Die 互連進而形成整個晶圓級芯片。」胡楊表示,「另外一家是特斯拉,其開發晶圓級芯片(Dojo)的技術路線與 Cerebras 不同,採用了 Chiplet 路線在晶圓尺寸的基板上集成了 25 顆專有的 D1 芯片。」

「很大程度上,英偉達其實也在一步步走向這個趨勢。比如英偉達的 B200,也是採用 Chiplet 方式把兩顆 Die 合封在一起成為一顆大芯片。不難看出,英偉達也認為應該借助更高密度的算力來提升算力集群的效率。」他說道。

他進一步解釋說,「常規形態下,集群算力節點越多,則集群規模越大,花費在通信上的開銷就越大,集群的效率就越低。因此,英偉達 NVL72 通過提升集群內的節點集成密度(即提高算力密度),在一個機架中集成了遠超常規機架的 GPU 數量,使得集群的尺寸規模得到控制,效率才能實現進一步提升。」

「這種計算形態是英偉達權衡了良率和成本之後的一種解決方案。若按照英偉達的這種計算形態,想要繼續提升算力密度,最終就會發展成為晶圓級芯片的形態,這也是目前為止算力節點集成密度最高的一種形態。」他表示。

胡楊認為,「相較於當前‘千卡萬卡’級別的算力集群,晶圓級芯片的這種計算形態能夠大幅提升通信效率,有希望成為具備最高效率的算力集群。同時,算力集群中採用晶圓級芯片對於大模型訓練和推理均能帶來效率提升。」以推理為例,有些場景需要進行分離部署,對通信性能要求較高,而晶圓級芯片能在這種場景中帶來更好的通信保障。

圖|胡楊和團隊研發的晶圓級芯片樣品(來源:受訪者)圖|胡楊和團隊研發的晶圓級芯片樣品(來源:受訪者)

談及晶圓級芯片的未來發展趨勢,胡楊表示,「就目前而言,晶圓級芯片主要沿用二維集成的技術路線,所有 Die 在晶圓上都是平鋪的,由於晶圓的面積固定,在固定面積上計算 Die 多,那存儲 Die 就會少,反之亦然。因此,未來將會過渡到三維集成的方式,比如在計算 Die 上堆疊 DRAM,然後再進行晶圓級集成。」

在三維集成的形態下,晶圓級芯片擁有充裕的存儲容量和帶寬,計算密度和存儲密度兩者可以兼得,進而更好地發揮晶圓級芯片高帶寬的優勢。

「另外一方面,也是由於晶圓級芯片的二維集成方式,運行一些比較複雜的通信算法,現有的通信網絡難以滿足,要解決這個問題,我認為還需要構建更高效的晶圓級互連拓撲,例如在晶圓上進行光波導集成。」他表示。

聊到 AI 和算力芯片的發展,胡楊提到了硬件彩票(Hardware Lottery,用來描述算法研發更多地依賴於其與可用軟硬件的兼容性,受到現有硬件能力的高度製約)的概念。「很大程度上,目前算法設計天然受到硬件性能的約束。如果我們不去突破硬件在某一方面的極限,那就沒辦法去幫助孵化更有想像力的算法。」他指出。比如,基於當前帶寬的極限,研究人員很難設計出一款能夠發揮更高帶寬、更高互連程度的算法。

「業內整體而言,從事算法軟件的開發者要遠遠多於硬件開發者,而且相對缺乏軟硬件協同優化的經驗。一些軟件開發在硬件性能不足的時候必然會受到硬件性能的製約。因此硬件開發從業者有一個天然驅動力,即要開發更高性能的硬件。」他說道,「開發晶圓級芯片,相當於直接把硬件性能拉到最高,儘量降低硬件約束,讓軟件開發者不會為硬件性能所累,有望開發超越當前 Transformer 的新算法。」

圖|晶圓級芯片樣品(來源:受訪者)圖|晶圓級芯片樣品(來源:受訪者)

產業化層面,胡楊表示,「從 2022 年起,我們團隊在尹首一老師的帶領下開始專注於晶圓級芯片研發,短期的目標是希望在明年開發出一款晶圓級芯片樣機;到 2026 年,我們希望能推出具有大算力的晶圓級芯片樣機;到 2027 年,我們期望基於多個大算力晶圓級芯片樣機組成計算集群,能在上面真正跑一些大模型訓練,以及 AI for Science 等應用,使其與更多實際應用的場景進行結合。除了大模型之外,其他諸如超算等很多領域也迫切需要大算力底座,我們長期目標是解決國內算力瓶頸的挑戰。」他總結道。

參考資料:

1.https://www.sic.tsinghua.edu.cn/info/1014/1816.htm

2.https://dblp.org/pid/43/4685-1.html