496GB 顯存！最壕 DeepSeek 玩家 8 台 Mac 跑 R1

01月28日 17:36 新浪網 tech-auto-hilite

DeepSeek-R1，正在接受全球網民真金白銀的檢驗。

花30秒用manim代碼製作解釋勾股定理的動畫，一次完成無錯誤。

為了玩上這樣的模型，有人花上10多萬元，組7台M4 Pro Mac mini+1台M4 Max Macbook Pro的家用超算。

總計496G顯存（64*7+48），才能跑起個4bit量化版，但屬實算得上「家用AGI」配置了。

另一個極端是選擇R1數據蒸餾版Qwen 1.5B小模型，小到瀏覽器就能跑，每秒能輸出60個tokens。

與此同時，各種榜單也在抓緊測試，紛紛跑出了結果。

R1橫掃各大榜單

首先是LiveBench，與LiveCodeBench一樣，題目是隨時間更新的，所以相對受認可。

R1的表現在o1-preview到o1之間，其中只有數據一項超過o1。

不過再帶上成本成本約1/30這個條件看，又是不一樣的感覺，給老哥整無語了。

唯一的抱怨是上下文窗口太短。

o1系列一戰成名的ARC-AGI，測試結果分為公開數據和私有數據兩部分。

DeepSeek R1在私有數據上解決了15.8%的問題，與DeepSeek-V3相比翻倍還多。

公開數據上更是解決了20.5%的問題，與DeepSeek-V3相比上漲約46%。

總的來看，DeepSeek-R1表現與o1-preview相近，但稍低。

但同樣，帶上幾毛錢就能解決一道題，o1系列至少要10塊錢這個背景來看，又是不一樣的感覺。

考驗任務規劃能力的PlanBench，同樣的劇本再次上演。

在開發者Xeophon自己的個人測試上，甚至超過了o1-preview。

同一個測試上，R1數據蒸餾的Qwen 32B，與DeepSeek-V3，GPT-4o和Gemini Flash處於同一水平。

最後，還有人從中看到新的創業機會。

誰來構建一個平台，能輕鬆地在DeepSeek R1上進行OpenAI風格的強化微調。

至少在短期內，是一個巨大的機會。

R1在正確數據和微調方法下，可能在特定任務上大幅提升。

參考鏈接：

[1]https://x.com/alexocheema/status/1881561143736664180

[2]https://x.com/reach_vb/status/1881809400995934640

[3]https://livebench.ai/#/

[2]https://x.com/arcprize/status/1881761987090325517

[3]https://x.com/TheXeophon/status/1881443117787984265