個人跑大模型,英偉達「皮衣刀客」新出的Project DIGITS與M4 Mac Mini到底哪個好?
機器之心原創
機器之心編輯部
前些天,英偉達發佈了一大堆東西,其中包括一款 AI 超級計算機 Project DIGITS,機器之心也在第一時間進行了報導,參閱《RTX5090 震撼發佈,國行 16499 元起,黃仁勳「美國隊長」pose 亮翻全場》。在這篇文章的評論區,一位讀者的問題引發了不少爭議。
雖然該問題的最高讚回覆表示這是「英偉達被黑得最慘的一次」,但實際上使用 Mac Mini 作為個人的大模型運行平台並不是什麼罕見操作。
Fast Company 甚至認為 M4 Mac Mini 是「測試 AI 的完美計算機」。
你也能在社交網絡上找到許多用戶分享的經驗。
其實,上圖中的這位 Alex Cheema 不僅僅是在 Mac Mini 上運行自己的個人 LLM 集群,也是在為自家公司 EXO Labs 做概念驗證。其在今年初宣佈推出了 EXO Gym 競賽,開始測試能否在較慢的互聯網帶寬上實現有效的低延遲訓練,而他們為此準備的 Mac Mini 數量更是多達 1000 台!是的,你沒有看錯,不只是使用 Mac Mini 來執行推理,還使用它們來訓練模型。
當然,這種做法同樣也是極具爭議,不過有興趣自己嘗試的讀者也可使用他們的開源軟件庫,目前該項目已經收穫了超過 1.84 萬 star。
-
GitHub 地址:https://github.com/exo-explore/exo
總之,至少在運行推理方面,看起來使用 Mac Mini 確實可行。現在,我們就來嚴肅地討論一下這個問題:對於個人用戶而言,如果想自己跑本地大模型,Mac Mini 和英偉達 Project DIGITS 到底選哪個更好?
參數對比
比較誰更勝一籌的最直觀方法是比較它們的參數。
價格
首先來看價格。
根據芯片、內存和硬盤的不同配置,M4 和 M4 Pro 芯片的國行版 Mac Mini 價格從 4499 元到 35749 元人民幣不等,國際版則是從 599 美元到 4699 美元不等。
而 Project DIGITS 目前已知的起售價為 3000 美元。而這個 3000 美元版本的配置情況大概是 128GB 內存和高達 4TB 的 NVMe 存儲。
而 64GB 內存和 4TB 硬盤的 M4 Pro 版 Mac Mini 的官方價格就已經達到了 3199 美元起,超過了 Project DIGITS。
配備 12 核 CPU、16 核 GPU 和 16 核 Neural Engine 的 M4 Pro 芯片的 Mac Mini,當選擇 64GB 內存和 4TB 硬盤時,售價為 3199 美元
因此至少在價格上,Project DIGITS 先拿下一分。
性能參數
目前,由於 Project DIGITS 還沒上市,因此我們自然無法獲取其與 Mac Mini 的直接性能對比數據,但我們可以通過一些基本的配置情況來進行最基礎的評估。
首先是 CPU 和 GPU。Project DIGITS 採用的計算核心是 GB10 Superchip,由 Grace CPU 和 Blackwell GPU 組成。其中,Grace CPU 配置了 20 個採用 Arm 架構構建的高能效核心,GPU 則是先進的 Blackwell,採用了最新一代 CUDA 核心和第五代 Tensor Cores,可實現 1 PetaFLOP FP4 的 AI 計算。1 PetaFLOP!著實嚇人,不過這是 FP4 精度的。如果等價到 FP16 精度,則可以說是 250 TFLOPS(當然這種算法很不嚴謹)。
英偉達表示,借助這款超級計算機,開發者可以運行多達 2000 億參數的大型語言模型,從而加速 AI 創新。此外,借助 NVIDIA ConnectX 網絡,還可將兩台 Project DIGITS AI 超級計算機連接起來,運行多達 4050 億參數的模型。也就是說,足以運行 Llama 3.1 405B。
而 Apple M4 Pro 芯片的 CPU 則是 12 核,其中包含 8 個性能核心與 4 個效率核心;GPU 則是 16 核版本。而其在 FP16 精度下的速度為 17 TFLOPS 。
根據 Alex Cheema 的計算,Project DIGITS 可以說在各個層面都碾壓了 M4 Pro Mac Mini。
簡單算算性價比:
-
Project DIGITS:250 TFLOPS / $3,000 ≈ 0.083 TFLOPS/美元
-
M4 Pro Mac Mini:17 TFLOPS / $2,200 ≈ 0.0077 TFLOPS/美元
也就是說,用同樣的錢,能從 Project DIGITS 獲得超過 M4 Pro Mac Mini 超過 10 倍的算力!
不過知乎用戶 Karminski – 牙醫也指出了 Project DIGITS 的一大不足。他表示「它是統一內存,即 CPU 和 CPU 共享 LPDDR5X。它不是 GDDR6,也不是 HBM2 的。」
雖然該設備的內存有 128 GB,「但是根據 Grace 架構 CPU 的 Product Brief,單 CPU 的內存帶寬最大隻有 512GB/s。所以如果用這個設備來運行大語言模型,瓶頸就會變成這個內存帶寬。」
他也做了一番計算,得出的結論是「在 512GB/s 的情況下,運行 70b-4bit 規模的模型,生成速度理論最大值是 512/40=12.8 token/s。如果想要運行 200B 規模的模型 (200B4bit 量化大概是 114GB),理論生成速度是 512/114≈4.5token/s」。
因此,Project DIGITS 可能也暗暗經受了老黃擅長的刀法。
Project DIGITS 果真賽高
整體來看,讀者 Thomas Copper 確實沒有說錯,至少在 AI 計算任務上,Mac Mini 確實遠遠不及 Project DIGITS。但需要說明,Mac Mini 並不是專為 AI 任務打造,也適用於各種日常和工作任務。
之前不少人表示 Mac Mini 是實現 AI 普及化(democratize AI)的開始,但實際比較下來,或許真正的開始是英偉達 Project DIGITS!
不過也需指出,Project DIGITS 才剛剛露臉,預計要到 5 月份才上市,市場表現究竟如何還有待檢驗——畢竟我們到時才能真正知道「皮衣刀客」究竟刀了哪些地方。但至少從社交網絡上的分享來看,已經有不少人準備好自己的錢包了。
對此,你有什麼看法呢?
參考鏈接:
https://www.jeffgeerling.com/blog/2024/m4-mac-minis-efficiency-incredible
https://x.com/alexocheema/status/1876676954549620961
https://www.zhihu.com/question/8953765123/answer/73915191447