起猛了!M4 Ultra性能超越RTX 4090,蘋果放大招

來源:雷科技AI硬件組 | 編輯:TSknight | 排版:Kenny

自從蘋果在10月份發佈了搭載M4 Pro和M4 Max的MacBook Pro後,M4系列芯片的性能表現就引起了很多關注。但是,瞭解蘋果產品線的朋友都知道,M4系列還有一個隱藏BOSS——M4 Ultra尚未發佈。

雖然Ultra型號缺席了前代M3系列,但是M2 Ultra的性能卻給大家留下了深刻印象,加上很早之前就曝光M4 Ultra已經流片,無疑讓人們對這顆蘋果的真·旗艦芯片性能有了很大期待。

在海外媒體的推算中,如果M4 Ultra採用與M2 Ultra相似的架構設計,也就是將兩個Max版芯片通過UltraFusion封裝技術連接在一起,那麼M4 Ultra的GPU性能應該會是M4 Max的1.7倍左右。

再結合M4 Max在Geekbench 6的GPU測試中得到的197754分,M4 Ultra的GPU測試得分大概率會在330000左右,作為對比,目前消費級的最強顯卡RTX 4090得分也只有310000-320000。

圖源:Max Tech圖源:Max Tech

M4 Ultra爆殺RTX 4090?這個消息恐怕老黃看了都要做噩夢,不過也有人提出疑問:M4 Ultra的GPU真的能有這麼高的性能嗎?在實際使用場景中真的能媲美RTX 4090嗎?

M4 Ultra跑分曝光,

到底有多強?

M4 Ultra雖然還未發佈,但是我們可以從已經發佈的M4 Pro和M4 Max上一窺這個系列芯片的性能表現。如果單看Geekbench 6的測試結果,你會發現M4 Pro的得分屬實恐怖,在單核測試中以3925的成績超越了AMD和英特爾的最新桌面端旗艦處理器,而在多核測試里,也明顯領先Ryzen 9 9950X,僅略輸於酷睿Ultra 9 285K。

圖源:Max Tech圖源:Max Tech

至於性能定位更高的M4 Max,則是在單核、多核測試中均碾壓了Ryzen 9 9950X和酷睿Ultra 9 285K,讓整個PC市場感受到了蘋果的強大。而且,在測試中M4系列芯片的核心主頻及核心數都明顯低於兩個對手,只有4.5GHz,但是卻展現了更高的單核及多核性能。

圖源:Max Tech圖源:Max Tech

可怕嗎?很可怕。要知道酷睿Ultra 9 285K和Ryzen 9 9950X都是桌面端處理器,滿載功耗均超過200W,而M4 Pro和M4 Max卻是MacBook Pro的移動端芯片,足見其能效比之高。

以目前M4 Max的性能推算,採用兩顆M4 Max芯片組合而成的M4 Ultra在多核性能上或將達到45000分,是酷睿Ultra 9 285K的兩倍。單核性能則一般不會有太大提升,不過仍然會高於M4 Max,成為目前消費級市場的最強處理器。

M4 Ultra GPU一舉超越英偉達RTX 4090

再來看看GPU性能,曝光稱其跑分會超過RTX 4090,而依據則是Geekbench 6的GPU測試,這個測試涉及GPU的圖像處理、計算攝像、機器學習、物理模擬和計算金融五個模塊,並不單單測試遊戲性能,這就給了M4 Ultra更多的得分空間。

所以,結合目前實測的M4 Max GPU性能數據,這個推測是有一定道理的,在極客灣的實測中,M4 Max的AI大模型計算性能已經達到RTX 4090的60%。甚至可以在RTX 4090因為爆顯存而性能暴跌的情況下, 借助128G統一內存的優勢繼續流暢運行更大參數量的AI模型。

圖源:極客灣圖源:極客灣

這也意味著,只要M4 Ultra的架構不發生根本性變化,至少在AI計算等方面的性能是可以超越RTX 4090,成為消費級最強的AI GPU。

那麼遊戲方面呢?從目前的實測結果來看,M4 Ultra的遊戲性能肯定無法與RTX 4090相比的,因為即使是運行原生Mac遊戲《保迪之門3》,高解像度下幀數也只是比RTX 4070移動版略高30%,尚未達到RTX 4080移動版的水平。

而在3DMark的測試中,RTX 4090桌面端的性能約為RTX 4080移動端的兩倍,這也意味著M4 Ultra在最理想狀態下,遊戲性能也只能達到RTX 4090的75%左右。不過若是對比移動端的RTX 4090,那麼倒是有機會反超,畢竟移動端RTX 4090本質上就是RTX 4080桌面端,差距還是非常明顯的。

另外,如果是非原生遊戲,那麼GPU的性能還會受到明顯的削弱,實測中幀數直接從領先RTX 4070移動版30%變成落後30%甚至50%,這時候別說挑戰RTX 4090了,可以直接考慮和RTX 4060坐一桌。

對於想用M4 Ultra打遊戲的朋友來說,個人建議是不如拿一萬裝台遊戲電腦,體驗會比M4 Ultra好很多。但是如果你的需求是用來跑本地AI大模型、影片剪輯、模型渲染等,那麼M4 Ultra的表現或許會超過目前最強的消費級PC也說不定,對於英偉達和AMD的消費級GPU市場部門來說,這並不是一個好消息。

「蘋果芯」跑分屢創新高,

Arm是關鍵

蘋果的自研M系列芯片跑分屢創新高,著實讓英特爾、AMD等傳統半導體廠商冷汗直冒,甚至不得不聯手成立x86架構生態小組,共同探討x86架構的未來,能讓兩個曾經的死對頭聯手,可想而知Arm帶來的壓力有多大。

實際上很多人也好奇,為什麼Arm架構芯片的能效比可以如此驚人?其實關鍵就在於指令集上,Arm的指令集相較於x86要精簡很多。

你可以將x86看作是一台複雜的多功能卡車,它可以一次性處理大量的數據和任務,但是在面對簡單任務時,複雜且龐大的指令集也讓其難以降低自己的資源佔用率。而Arm則是電單車,雖然每次只能執行單個任務和少量數據,但是可以通過靈活的車輛調度,分配執行任務的最佳車輛數,讓Arm芯片在運行時有著更好地能效。

基於Arm架構的特性,蘋果等企業很快就意識到通過增加核心數(準備更多的電單車)和優化指令集(專車專用提升效率),就可以讓Arm芯片在性能上取得突破,Arm指令集的高能效比也讓Arm芯片可以輕鬆堆砌大量核心,而不用過多的考慮功耗問題。

此外,Arm架構的靈活性,讓蘋果可以根據需求定製化設計專門的模塊負責對應的任務,使得芯片效率進一步提升,加上統一內存架構帶來的低延遲特性,讓M系列芯片的整體執行效率遠程傳統芯片。

圖源:蘋果圖源:蘋果

得益於多項優化,量變最終引起了質變,讓Arm芯片成功在單核及多核性能上都超越了傳統x86芯片,成為PC市場的新興勢力,而不再是固守在移動設備市場。而且,蘋果很快就發現這個套路在GPU上也同樣可行,通過堆砌核心數的方式讓GPU性能同樣進入爆髮式增長。

以M4 Pro和M4 Max為例,前者的GPU核心數為20個,後者則是40個,而在實際測試中,後者的各項性能基本上就是前者的兩倍。理論上,只要蘋果願意,在達到芯片內部延遲的上限之前可以無限堆疊核心,打造更強的GPU。

圖源:蘋果圖源:蘋果

不過蘋果本身並非半導體企業,其芯片設計更多的是為產品服務,所以並不會像英偉達、AMD那樣為了銷售芯片而設計出功耗、性能都「爆炸」的產品。但是蘋果不這麼做,不代表其他企業也這麼想,比如高通就一直在關注Arm GPU和CPU,除了消費端,服務器和數據中心同樣是高通的目標市場。

在2024年,高通就宣佈重回服務器芯片市場,推出基於Nuvia內核設計的服務器芯片,截止目前為止,相關機構預估服務器市場的Arm芯片佔比已經達到10%。其中不少AI算力中心都有增加Arm GPU算力服務器的計劃,因為Arm的高能效可以顯著降低AI推理時的電力成本,進而降低單位算力的成本。

正是因為Arm架構所帶來的巨大威脅,前段時間英特爾與AMD簽署合作協議時,英偉達也同樣到場,並且同為生態小組的合作企業之一。目前,對於英偉達等企業來說,最好的消息是蘋果無意參與到半導體芯片市場中,而壞消息則是,高通的Nuvia內核表現不錯,恐怕會成為GPU市場的一匹黑馬。

可以預見的是,在未來的PC市場中,Arm必然會有一席之地,並且有望徹底挑戰x86架構和英偉達的市場地位。