深度|黃仁勳對話 Arm CEO:AI 正在推動新工業革命,英偉達每年設計 6~7 款芯片,相同能耗成本下提升 2~3 倍性能

近日,英偉達 CEO 黃仁勳與 Arm CEO Rene Haas 探討了技術發展的現狀和未來,涵蓋了數據中心架構的演進、AI 技術的前景以及企業如何在快速變化的環境中保持競爭力。

黃仁勳指出,隨著計算需求的增加,數據中心的功率密度從最初的每機架 12 千瓦迅速增長到 120 千瓦,甚至更高。

這種變化帶來了技術上的挑戰,包括冷卻效率、網絡延遲等問題。英偉達通過提高計算密度和改進系統設計,致力於延長電傳輸時間,減少光傳輸的轉換成本,從而提升能源效率和可靠性。

黃仁勳認為,AI 技術不僅僅是傳統計算機行業的一部分,而是正在推動一場新的工業革命。如今,計算機不再只是工具,而是一個「智能製造工廠」,可以 24 小時不間斷地生成智能輸出。這種轉變使得計算機從工具角色演變為生產「智能代幣」的機器,推動了整個行業的變革。

面對摩亞定律逐漸失效的現實,黃仁勳強調英偉達通過「協同設計」來實現指數級性能提升。

每年英偉達都會設計六七種新芯片,並改進系統架構,如引入 NVLink 交換機、3D 封裝等技術,從而在相同的能耗和成本下實現兩到三倍的性能提升,這種策略在很大程度上加速了 AI 計算的普及。

黃仁勳還提到,在塑造市場和引導行業發展時,「教學」比「廣告」更重要。英偉達通過教育市場、展示技術應用來獲得更多用戶和合作夥伴的支持。

這種教學式的市場引導方式有助於讓生態系統的各個參與者理解技術的價值,並逐步接受新的計算理念。

以下為這場對話的全部內容,enjoy~

Rene Haas 

見到你很開心。這次回到英偉達真是太棒了。我在這裏工作的時候,這棟大樓還不存在呢。

Jensen Huang

那是多久前的事了?二十年?

Rene Haas 

我 2006 年開始在這裏工作,2013 年離開。是的,差不多二十年前。這些大樓當時都還不存在。不過現在回來感覺依舊很親切。感謝你抽出時間,邀請我來。

如今英偉達已經成長得如此之大,有件事我一直很感興趣,就是公司的招聘文化確實非常獨特。英偉達以一種獨特的方式做事,你是如何識別那些在英偉達會取得成功的人才的?

Jensen Huang

我們並不總是能做到這一點。看看你就知道了,這其實總是有點碰運氣的成分。我認為面試並不是評估一個人是否合適的最佳方式。

每個人都能在面試時表現得很出色,甚至可以通過觀看 YouTube 學習如何面試。當然,技術性的問題,我們會儘可能嚴格和困難,但這並不容易。我個人的做法通常是回到參考檢查,詢問我本來打算問候選人的問題。

因為你總可以在某個時刻表現得很出色,但你無法逃避你的過去,所以這種方法還不錯。我喜歡問一個深入的問題,然後觀察他們的思維過程。

但最終,英偉達對很多人來說都是成功的。正如你所知道的,我們的流失率非常低,公司內部非常多元化,有很多有趣的人和背景。我們有來自幾乎所有頂級公司的員工,並且我們在這裏讓他們都能成功。

因此,從某種意義上說,建立偉大的公司一方面是找到優秀的人才,另一方面則是創造條件,讓這些人超越他們自己的預期。

這很大程度上取決於我們對英偉達的願景和戰略進行的透明解釋。我花了很多時間在這方面。公司一直以透明著稱,會解釋我們面臨的挑戰、機會以及執行的戰略。信息在公司內部流通得非常順暢,大家都清楚公司的戰略是什麼。

我總覺得,當公司有太多的分隔或需要知道的基礎時,情況會有點奇怪。當然,人們確實不需要瞭解他們不需要知道的事情。但他們知道得越多,就越有能力為公司做出正確的決策。

所以我傾向於更透明,傾向於賦予員工更多的權力。因此,公司成了世界上最小的大公司。這種高生產力來源於我們擁有的 3 萬多名員工,他們每天都在做出數百個決定。

如果所有 3 萬名員工都在同一個方向上,即使是在模糊的情況下做出決策,但他們的選擇都是為了公司的長期最佳利益,那麼這種積累是非常有意義的。

Rene Haas 

其中一個讓我總是驚訝的事情就是,你提到的那一點——我不知道這是因為招聘到合適的人還是自我選擇的結果,但擁有那些在面對不確定性時非常自信的高級領導,並且你會深入公司各個層級,把正確的人召集到一起,解決問題。這是如何形成的?

公司成長過程中,你和願景一致的高級領導一起成長,這一文化自然而然地形成了嗎?因為這真的很令人驚歎,當我在英偉達工作時,許多高層領導都非常適應這種情況,你能夠直接找到合適的人,一起解決問題。

Jensen Huang

首先,我沒有特別詢問他,你記得我也記得。而這是因為有些事情是顯而易見的,不需要去徵求許可。

所以我們設置這樣的方式,是因為英偉達從一開始就是設計成一個全棧計算公司,我們的目標是構建 GPU 、 CPU 、網絡芯片和交換機,我們會設計芯片架構,開發系統軟件,創造算法,甚至求解器。

如何組織這樣的事情呢?一方面所有東西必須協同工作,另一方面又需要分階段構建。因此,我們解決這個問題的方法是,避免組織上的孤立,將組織視為一個地方,領導者可以培養人才,為他們創造成功的條件,幫助他們排除障礙等等。

而真正的老闆是任務本身,它橫跨整個公司,涉及系統、芯片、網絡交換機、軟件和算法等領域。通過這樣的組織方式,我們還實現了透明化,打破了各個孤立的部門。

組織結構越開放,往往會越好,因為有更多人可以幫你批評和改進。我非常喜歡我們公司的開放性,一切都是透明的,每個人都在幫助我改進。

Rene Haas

差點就被你們收購了,那應該會很有趣。但你們收購了  Mellanox 。

Jensen Huang

你還為此難過嗎?

Rene Haas

是啊,每天我都會小小地傷心一下,但我還是在這裏,謝謝。

Jensen Huang

但你們表現得非常好。

Rene Haas

你們收購了 Mellanox ,這不僅在戰略上是一次極好的收購,而且從外部來看,你們的執行看起來非常無縫。這樣的整合是怎麼做到的?併購過程通常非常艱難。

Jensen Huang

確實非常艱難。首先, Mellanox 管理團隊中有十到十二人現在是英偉達以色列管理團隊的成員,參與了公司高層會議。

我們涵蓋了架構、研究、軟件系統、芯片、網絡接口控製器和交換機。我們現在有 NVLink 交換機,最初只有 Infiniband  產品線,現在還有完整的以太網產品線。

在這短短的時間內, Mellanox 的產品組合已經增長了四倍,並整合到了我們所做的每一個方面。

如果你回顧這次轉型和收購,我們的願景是計算單元不再僅僅是一個 GPU (以前是輔助設備)。

實際上,收購幫助我們從算法公司,也就是 GPU 公司,過渡為一家真正的計算公司。這是我們進入的第一步。

最初,構建 SoC(片上繫統)對我們來說並不容易,現在我們已經做得很好。接下來的演進是構建系統, DGX1 是我們的第一個產品。我對 Shield(我們的  Android  電視)也非常有感情,因為它是我們最初創建的完整系統。

Rene Haas

開發 Shield 的過程肯定很令人難忘。當時我們還在摸索如何做到這一點。

Jensen Huang

是的,它至今仍是最受歡迎的 Android 電視盒。回想起來,當時它就像是 PlayStation 或 Xbox 控製器帶顯示器,我們都在思考如何實現這一切。這是英偉達最讓我喜歡的產品之一。

Rene Haas

幾乎都快忘了這段經歷,但這確實是個系統性學習的過程。

Jensen Huang

我學到了很多,至今我們還在維護相關的軟件。

Rene Haas

最初很難看出市場對此有需求,團隊突然需要為整個產品線採購零部件,真是讓人措手不及。

Jensen Huang

這是我讓英偉達轉型為系統公司的藉口, DGX1 是改變一切的計算機。

Rene Haas

很大的 Shield。

Jensen Huang

沒錯。所以對我來說,雖然Shield是用塑料做的,而 DGX1 重達 600 磅,這種轉變並不算什麼大事。真正重要的是,我們現在能夠構建系統。

而當我們收購 Mellanox 時,真正的理念是計算機不再僅僅是一個節點,而是整個數據中心成為計算的單位。

如果你不設計好 GPU 、 CPU 、網絡接口、交換機、所有的收發器,並把它們全部連接在一起,能夠從無到有啟動這個系統,將所有組件有序地運行並分佈工作負載,那麼你就無法真正理解構建這些 AI 超級集群的意義。

這個轉型和願景非常清晰,以至於能夠團結兩支團隊。為了凝聚團隊,你需要有一個非常清晰的願景,對吧?

我們的願景非常明確,而且這個願景也是非常具體的,因為你可以看到它在你面前運行,有超級集群,有來自兩家公司的所有設備,所以這個願景是清晰且鼓舞人心的。

對於 CEO 來說,需要將抽像的事物變得具體化,然後我們就去構建它了。不僅如此,我也認為他們的文化也很棒。

Rene Haas

這種清晰性確實幫助很大。不過回到願景本身,還有一個故事我想說說,比如早期 CUDA 的應用追逐油氣行業,這完全不明顯。

Jensen Huang

大家當時並沒有意識到,那其實是我們的第一個項目。

Rene Haas

確實,那是第一個,完全看不出真正的殺手級應用或最終狀態是什麼。然而,你們對早期的創意和實驗展現了驚人的韌性,哪怕市場似乎沒有準備好,甚至對這個定義還不明確。這是直覺的體現嗎?還是說這種能力從何而來?

Jensen Huang

我們確實有很好的直覺,你知道,公司成立以來有大約十次這樣的時刻。英偉達的優勢在於我們周圍都是非凡的人才,世界上最優秀的計算機科學家、戰略家和商業人士,他們沒有自負之心,想要做偉大的事情。

我認為我們起點很好。其次,我們的直覺也很好,特別是在判斷哪些問題需要解決,以及如何從現在走向我們想成為的公司。我們對於要實現的各種階段性目標有很好的直覺。

比如當有人問我,為什麼要打造 Shield,這不是浪費時間嗎?我說,總有一天我們會成為一家系統公司,而所有這些系統都會連接到雲服務上。為什麼要在最龐大的系統上消耗精力,不如先做這個小的。

如果我們連這個都做不好,那麼更大的就更不用說了。我們需要為公司創造條件,讓它可以學習新技能、嘗試失敗,而不會對自身造成損害。

Rene Haas

這種情況只有在公司領導者是創始人的時候才能發生嗎?畢竟,很少有公司能做到你剛才描述的這些,無論是在願景的清晰性方面,還是在持續理解前進方向的韌性上。最近關於「創始人模式」和「管理者模式」的討論很多。

顯然,你作為創始人,在公司成立30年後仍然領導著公司,並取得了巨大的成功。那麼,你所描述的這種成就是否只能由創始人領導公司時才能實現?

Jensen Huang

我不這麼認為。我認為你在 Arm 做得很出色。看到你在工作時的表現,我非常自豪。

Rene Haas

這是真的,我從你身上學到了很多。

Jensen Huang

看到你工作讓我感到快樂和驕傲。我不認為只有創始人能做到這些。我認為確實需要極大的韌性和堅持。我通常把它描述為痛苦和折磨,這是成長的過程。痛苦和折磨是不可避免的,我深有體會,而且你必須習慣這種感覺。

通向成功的道路並不是一個接一個的成就,而是有巨大的挫折,有時甚至是令人尷尬的時刻。作為 CEO ,你還沒經歷這些,但它會發生。我希望它發生,因為這對你有好處。

你知道,那些時刻,我不確定學到了什麼,但它確實讓我變得更強大。我知道我可以挺過去。當時我可能不喜歡這些經歷,但回頭看,那些就是讓你為自己和公司感到驕傲的時刻。

所以我認為我們的公司之所以強大,是因為我們有很多這樣的故事。這家公司里充滿了一次又一次挫折的非凡故事。

Rene Haas

而且經歷過這些的領導者很多。

Jensen Huang

是的,大多數人都會覺得:「這不算什麼,這比起以前的某個挫折輕多了。」每次遇到挑戰時,我們都會想起那些更艱難的時刻,反而讓公司更有能力應對當前的挑戰。

Rene Haas

你我在這個行業的時間差不多長。現在 AI 的某些進展讓我感到,這是我以前從未想過的,我原以為只有下一代人才能見證這種變革。現在的感覺,就像進入了「終極前沿」,我無法想像 AI 之後還會有什麼。

你怎麼看?我們是不是加速進入了一個前所未有的變革時期?還有什麼能在這之後到來嗎?現在所看到的一切真是令人難以置信。

Jensen Huang

我一直認為計算機會表現出智能行為,我們可以編寫出非常好的軟件,我以為我們會手動編寫這些算法,讓它們最終解決問題,使得計算機看起來很智能。但我從未想過這會引發一場工業革命。

我的意思是,你聽我說過的,現在計算機行業首次超越了傳統的計算機行業。我們不再僅僅是一個工具或儀器,而是一個製造行業。就像現在,我們的手機在口袋里沒有被使用時,它對我們沒有任何作用。

大多數計算機也是這樣的,比如我的筆記本電腦放在辦公室時沒在運行。你需要工具時,才去使用它。

然而,現在的 AI 工廠則不一樣,這是我們正在構建的一個新行業,它們始終在運行,無論你是否在使用。它們在處理數據、生成「智能代幣」,以非常大規模製造智能。這種計算機從工具轉變為製造設備,並大規模生產極有價值的東西,這是一次全新的工業革命。

Rene Haas

你參與了從 AlexNet 到 DGX1 的整個過程,見證了這一切。AI 的進展速度比我想像的要快得多,比兩年半前甚至一年前的預測要快得多。作為其中的核心人物,這是否比你想像的還要迅速?

Jensen Huang

我們正努力加快進展,現在已經進入了一年一個週期。原因是技術有機會快速發展,特別是因為我們現在不僅僅是在製造芯片。

芯片的進展速度是有限的,就算使用新工藝節點,能夠獲得幾個百分點的提升已經很了不起了。那麼,我們如何在每一代中實現指數級的性能提升呢?

我們的方法是為每個系統設計六七種新芯片,然後通過協同設計重新發明整個系統,發明新的東西,比如 NVLink 交換機、新的系統機架,使我們能夠通過系統的整個背板驅動銅纜連接所有 GPU ,以及使用大型封裝、3D封裝等各種技術。

通過這些技術手段,我們每年可以在相同的能量和成本下實現兩到三倍的性能提升。這也相當於每年將 AI 的成本降低兩到三倍,這個速度遠遠超過摩亞定律。

因此,如果你將這種進步持續五六年甚至十年,我們就能夠極大地降低智能計算的成本。

我們之所以這樣做,是因為現在大家都認識到了這一技術的價值。如果我們能夠大幅降低成本,我們可以在推理時做一些事情,比如推理過程。

像現在使用ChatGPT時,它加載提示並生成輸出。但未來,它將會迭代推理出答案,或許會進行樹搜索,也可能會自我反思答案,最終得出結果。

它可能會進行數百次甚至上千次推理,但答案的質量會顯著提升。我們希望降低成本,以便能夠以與過去相同的成本和響應速度提供這種新的推理推理。

Rene Haas

我看到過 OpenAI 模型的演示,它進行推理時令人震驚。它使用了邏輯樹,做出了權衡決策,就像人類一樣,但速度完全超越了人類的思考方式。

Rene Haas

現在情況更有趣了。你們正在以一個前所未有的速度引入系統和整個數據中心基礎設施。以前 CPU 每兩三年更新一次,最終被折舊。現在你們每年都在構建系統,人們都迫切希望盡快部署這些系統。

Jensen Huang

是的,現在說起來很簡單,但你知道,我們每年都在交付像這個房間大小的新計算機,包括所有的電纜、網絡、交換機、軟件,這真的很瘋狂。

Rene Haas

我想問一個更具賽前分析性的問題,這不僅僅是技術吸收的問題,這樣的速度還能繼續保持嗎?

Jensen Huang

我認為可以,但必須以系統化的方式進行。也就是說,我們在架構上的一切操作都要系統化。這意味著為昨天的集群(比如 Hopper )開發的軟件也可以在 Blackwell 上運行,並且 Ruben 上的軟件也可以運行在 Hopper 上。

這種架構兼容性非常關鍵,因為行業在軟件上的投資是硬件的 1000 倍,而且軟件永遠不會過時。如果你開發了軟件,並發佈了它,那麼你就必須一直維護它。所以, CUDA 的想法不僅僅是有數百萬人在為其編程,而是數億個兼容的 GPU ,軟件不會消亡。

Rene Haas

軟件永遠不會消亡。

Jensen Huang

所以,你在一個 GPU 上的投資可以延續到所有其他 GPU 上。今天編寫的所有軟件將來會變得更好,未來的所有軟件也能在現有的安裝基礎上運行。

因此,首先我們必須在架構上保持嚴謹。其次,即使在系統層面,我們也能在不拋棄之前成果的情況下改進技術。

例如,當我們首次進入數據中心業務時,超大規模數據中心的電力分配大約是每機架 12 千瓦。而 Blackwell 的電力分配是每機架 120 千瓦,是密度的 10 倍。

當然,密度的提升使得服務器數量減少了數百萬台,全部壓縮到一個機架中,因此節省的能量、空間簡直是不可思議的。

Rene Haas

這與我們的故事很相似。Arm 架構已經存在了 30 年,為它編寫的軟件也有幾十年了。這是人們有時沒有意識到的。

Jensen Huang

沒錯,我們關心每一個 Arm 芯片上的開發成果。最近有人做了基準測試,Grace 每瓦性能是世界上最好的 CPU 的四倍。是的,能效至關重要。

Rene Haas

是的,這一切都很重要。你認為當數據中心從 500 兆瓦增長到 5 吉瓦時,從架構角度上是否會出現什麼問題,比如網絡延遲之類的?不涉及機密內容的話,從物理的角度來看,是否會開始出現一些瓶頸?

Jensen Huang

當然會,一切都會遇到問題。物理規律必須遵循,這就是挑戰所在。首先,我們正在快速推進功率密度曲線,從 12 千瓦到 40 千瓦,再到 120 千瓦,這還會繼續增加。因此,我們儘可能地壓縮和提高計算密度。

在這個過程中,液冷的效率更高,並且我們可以更長時間地使用銅纜。儘可能長時間地使用電傳輸是有利的,因為一旦轉換為光傳輸,成本和複雜性都會增加。

所以,我們會儘量保持電傳輸的狀態。這種策略更加經濟高效、節能且可靠,因此我們會繼續提高密度。

另一個提高密度的好處是,位於同一機架或相鄰機架的所有 GPU 可以像一個統一的設備一樣運行,真是相當驚人。

Rene Haas

我一直很好奇,Jensen,你在 Computex 的主題演講。我記得你有一次是在星期天晚上進行的,演講內容的體量和深度令人難以置信。

作為一個也會做主題演講的人,我的內容遠沒有那麼長和深入,我真的很佩服你是怎麼做到的。

你是進行了大量的排練嗎?我記得當我們以前一起工作的時候,有時會在演講前一天晚上還在修改內容,你依然能出色地完成。現在你的演講尤其涉及數據中心架構,並且涵蓋了更多內容,你是如何準備這些的?

Jensen Huang

我們每天都在為此準備。我們的工作和演員不同,實際上我們是在生活中做這些事情,對吧?所以首先,我們每天都在準備。

坦率地說,我們所做的很多事情本質上是教學,為了引導行業、塑造市場並引入新思想,我們的工作很多是教學。

我們不是做廣告,因為我們是一個平台公司,這意味著我們不能獨自完成我們的工作,需要其他人的參與和合作。

所以,我們的工作是教學、啟發、展示、演示,並希望一步步地吸引更多人加入,從 CUDA 的早期,到今天的英偉達加速計算,以及 AI 的發展旅程。

現在,我們正在研究的下一個大事是「物理 AI 」,即如何讓 AI 既遵循物理規律,又理解物理規律。

我認為這個旅程相當漫長,而 GTC 和 Computex 給了我們這樣的機會,讓我們慶祝我們的生態系統和他們的成果,啟發他們展望未來。

Rene Haas

很相似。我做季度業務回顧和演講時,團隊會說,幻燈片很簡單,感覺是你整天都在講的東西。我會想,怎麼可能不一樣呢?但事實上還是很難的。

Jensen Huang

說實話,確實不容易。因為我們實際上沒有時間排練。並不是因為我們選擇不排練,而是當所有內容都準備好時,已經沒有時間去排練了。所以,我們只能「即興發揮」。

>>> 文末參與矽谷最新 2024 AI 峰會,超 100 個專題討論,500多家參展初創企業,150+ 重量級演講嘉賓,包括來自 Google、Microsoft、Meta 等科技巨頭的高層管理者,以及 Glean、Interdimensional、Forethought、Weights & Biases、Mistral AI、Typeface AI 等AI領域領軍公司的創始人、CEO、CTO。