別再被DeepSeek R1本地部署割韭菜,我幫你把坑都踩遍了,附免費教程

買它!趁著過年有空學起來。 

這個春節,DeepSeek 像一條鯰魚攪動了海內外無數人的心弦。當矽谷還沉浸 DeepSeek 帶來的震撼時,一場聲勢浩大的 AI「淘金熱」也在逐漸滲透國內主流電商平台。 

號稱內置 DeepSeek 的智能鍵盤日銷近百萬,博主兜售的課程輕鬆日入五萬,就連仿冒網站也如雨後春筍般冒出了 2650 個,惹得 DeepSeek 官方突發緊急聲明。 

人群中有焦慮者、有淘金者,還有更多懷揣期待的觀望者,當打工人節後終於有時間靜下心來體驗這個 AI 神器時,得到的卻是 DeepSeek R1 冰冷的回應: 

服務器繁忙,請稍後再試。 

得益於 DeepSeek 的開源策略,在焦躁的等待中,本地部署 DeepSeek R1 的教程也迅速在全網刷屏,甚至成為新一輪收割韭菜的 AI 秘籍。 

今天,不用 998 ,也不用 98 ,我們給家人們送上一份本地部署 DeepSeek R1 的教程。 

不過,部署了,但沒完全部署。 

儘管許多賣課博主聲稱能輕鬆運行滿血版 DeepSeek R1,但滿血版 R1 模型參數高達 671B,僅模型文件就需要 404GB 存儲空間,運行時更需要約 1300GB 顯存。 

對於沒有卡的普通玩家來說,運行的條件苛刻,且門檻極高。 基於此,我們不妨將目光轉向 DeepSeek R1 四款分別對應 Qwen 和 Llama 的蒸餾小模型: 

  • DeepSeek-R1-Distill-Llama-8B
  • DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Qwen-32B
  • DeepSeek-R1-Distill-Llama-70B

海外博主已經整理出相關配置供大家參考,注意,只要 GPU 等於或超過 VRAM 要求,模型仍然可以在規格較低的 GPU 上運行。但是設置不是最佳的,並且可能需要進行一些調整。 

🔗 https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48 

本地部署 R1 小模型,兩種方法,一學就會 

我們這次手上體驗的設備正是 M1 Ultra 128GB 內存的 Mac Studio。 關於主流本地部署 DeepSeek 的教程,兩種方法,一學就會。 

  • LM  Studio

首先登場的是小白極簡版本,在官網(lmstudio.ai)根據個人電腦型號下載 LM Studio,接著為了方便使用,建議點擊右下角修改語言為簡體中文。

然後搜索 deepseek-r1 選擇合適的版本下載,作為示例,我選擇使用阿里 Qwen 模型為基座蒸餾出來的 7B 小模型。

配置完成後,即可一鍵啟動。

使用 LM Studio 的好處就是不用代碼、界面友好,但跑大型模型的時候對性能要求高,因此更適合新手入門使用基礎功能。

  • Ollama

當然,對於追求更深層次體驗的用戶,我們也準備了進階方案。

首先從官網(ollama.com)獲取並安裝 Ollama。

啟動後打開命令行工具。Mac 用戶鍵盤 Command+空格 打開「終端」工具,Windows 用戶鍵盤運行 Win+R ,輸入 cmd 打開「命令提示符」工具。

在窗口中輸入代碼指令(ollama run deepseek-r1:7b)即可開始下載。請注意英文狀態輸入,檢查空格和橫杠,冒號後輸入所需要的版本名稱。

配置完成後就能在命令行窗口開始對話。

這個方法對性能要求很低,但需要熟悉命令行操作,模型的兼容性也有限,更適合進階開發者實現高級操作。

如果你想要比較好看的交互界面,不妨在 Chrome 瀏覽器安裝插件,搜索安裝 PageAssist。

選擇本地已安裝的模型,開始使用。

右上角設置里修改好語言,主頁選擇模型就可以開始對話,而且支持基礎的聯網搜索,玩法也更多樣。

能跑是能跑,但… 

我們這次體驗則用到了 LM Studio。 

憑藉其出色的優化能力,LM Studio 使得模型能夠在消費級硬件上高效運行。 比如 LM Studio 支持 GPU 卸載技術,可以將模型分塊加載到 GPU 中,從而在顯存有限的情況下實現加速。 

如同調教賽車,每個參數都會影響最終的表現,在體驗之前,建議在 LM Studio 的設置中,根據需求調整推理參數的能力,以優化模型的生成質量和計算資源分配。 

  • 溫度 (Temperature):控制生成文本的隨機性。
  • 上下文溢出處理 (Context Overflow Handling):決定如何處理超長輸入。
  • CPU 線程:影響生成速度和資源佔用。
  • 采樣策略:通過多種采樣方法和懲罰機制,確保生成文本的合理性和多樣性。

DeepSeek 研究員 Daya Guo 在 X 平台分享了他們內部的調教指南,最大生成長度鎖定在 32768 個 token,溫度值維持在 0.6,top-p 值定格在 0.95。每個測試都生成 64 個響應樣本。 

詳細的配置建議如下: 

1. 將溫度設置在 0.5-0.7 之間(建議設置為 0.6),以防止模型輸出無盡的重覆或不連貫的內容。 

2. 避免添加 system prompt,所有指令應包含在用戶提示中。 

3. 對於數學問題,建議在提示中包含指令,例如:「請逐步推理,並將最終答案放在 \boxed{} 中。」 

4. 在評估模型性能時,建議進行多次測試,並取結果的平均值。 5. 此外,我們注意到 DeepSeek-R1 系列模型在響應某些查詢時,可能會繞過思維模式(即輸出 「\n\n」),這可能會影響模型的性能。為了確保模型進行充分的推理,我們建議在每次輸出的開始,強製模型以 「\n」 開始其響應。 

DeepSeek 官方給出的蒸餾版模型的評測對比 DeepSeek 官方給出的蒸餾版模型的評測對比 

更大的參數量並不一定能帶來更好的效果,在我們體驗的這幾款小模型中,相臨參數量模型的實力差距整體倒也沒有那麼等級森嚴。我們也做了一些簡單的測試。 

「deekseeeek 里有多少個 e?」 

8B 模型的響應速度很快,基本能跑到 60 token/s,但答得快不意味著答得對,差之毫釐,謬以千里。思考過程顯示,模型更像是基於知識居里的「DeepSeek」單詞作出回答。 

14B 模型也沒答對。直到 32B 模型的出場,才終於看到了可靠的答案。70B 模型展示出更縝密的推理過程,但同樣回答錯誤。 

「請幫我寫一版京劇的《哈利樸達與魔法石》」 

DeepSeek-R1-Distill-Qwen-32B  

DeepSeek-R1-Distill-Llama-70B DeepSeek-R1-Distill-Llama-70B 

就該問題的回答質量來說,32B 和 70B 各有千秋,32B 在劇今場景的細節把控更完美,而 70B 則交出了一份角色飽滿、劇情完整的答卷。 

「在一天的 24 小時之中,時鍾的時針、分針和秒針完全重合在一起的時候有幾次?都分別是什麼時間?你怎樣算出來的?」 

「某人在北半球某地乘飛機依次向正東、正北、正西、正南各飛行 2000 千米。最後,他能回到原地嗎?」 

DeepSeek-R1-Distill-Qwen-32B 

DeepSeek-R1-Distill-Llama-70BDeepSeek-R1-Distill-Llama-70B

當然,這幾款模型中,參數越小的模型的回答準確率往往越低,即便思考過程摸著門道了,但後續也因不堅定而出錯,遇上數學計算領域,不同量級模型的實力差距則會比較明顯。 

本地部署有三大優勢,敏感數據無需上傳雲端;斷網也能流暢使用;以及免除 API 調用費用,長文本任務更慳錢,尤其適合企業、開發者及對隱私敏感的用戶。 

但不支持聯網也有其弊端,如果你不喂給它「資料」,不及時更新知識庫,那它的信息認知水平也會停滯不前。比方說知識庫截止到 2024 年,那它就沒法回答你最新的 AI 新聞。 

本地部署最常用的功能當屬打造自己的知識庫,方法則是在安裝 LM Studio 之後,增加與 Anything LLM 聯動的部署步驟。 

考慮到效果和適用性,我們使用了 32B 模型作為聯動模型,結果顯示效果也很一般,其中最大的挑戰來自上下文窗口的限制。 

依次輸入只有 4000 字的文章和 1000 字左右的文章,前者回答依舊很迷糊,後者則能勝任,但處理 1000 字左右的文章稍顯雞肋,所以當個玩具還行,生產力還差點意思。 

另外需要特別強調的是,一方面,撬開這四款模型的嘴難度極高,另一方面,我們也不建議大家去嘗試「越獄」。網上雖然流傳著許多所謂容易「越獄」的新版本模型,但出於安全和倫理考慮,我們並不建議隨意部署。 

不過,既然到這一步了,不妨再本著一竅通百竅通的原則,嘗試下載和部署一些經過正規渠道發佈的小模型。 

那除了本地部署 R1 蒸餾小模型,滿血版 R1 有沒有窮鬼套餐呢? 

Hugging Face 的工程師馬修·卡里根前不久在 X 平台展示了運行完整 DeepSeek-R1 模型,Q8 量化,無蒸餾的硬件 + 軟件設置,成本大約為 6000 美元。 

附上完整配置鏈接:https://x.com/carrigmat/status/1884244369907278106

言歸正傳,所以我們真的需要本地部署一個蒸餾版的 DeepSeek R1 嗎? 

我的建議是不要將這幾款 R1 蒸餾小模型想像成特斯拉,它充其量更像是五菱宏光,能跑是能跑,但要麼性能表現相去甚遠,要麼缺胳膊少腿。 

在本地部署最常用的自定義知識庫能力的體驗中,效果就不盡如人意。面對具體問題時,它無法準確「按圖索驥」,或者乾脆胡編亂造,準確率堪憂。 

對絕大多數用戶來說,老老實實用官方版或者使用第三方平台才是目前最優解,它不需要投入昂貴的硬件成本,也不用擔心性能受限。 

甚至折騰了半天,你會發現與其投入大量時間、精力和金錢去折騰本地部署這些小模型,不如下班後吃頓好的。 

而對於企業用戶、開發者或對數據隱私有特殊需求的用戶,本地部署依然是一個值得考慮的選擇,但前提是你清楚自己為什麼需要它,以及它存在的各種局限性。  

附上小白 QA 問答: 

‍問: 我能在普通的電腦上部署 DeepSeek 嗎?答: DeepSeek 的完整版對電腦要求較高,但是,如果你只是想用它進行簡單的操作,可以選擇一些蒸餾小模型,不過仍需量力而行。

問:什麼是 DeepSeek R1 的蒸餾版模型?答: 蒸餾版模型是 DeepSeek R1 的簡化版本,硬件要求更低,運行起來速度也更快。

問: 我能在沒有網絡的情況下使用 DeepSeek 嗎?答: 如果你選擇本地部署 DeepSeek,那麼在沒有互聯網的情況下也能使用它。如果你通過雲端或第三方平台使用,就需要網絡連接才能訪問。

問: 使用 DeepSeek 時,我的個人數據是否安全?答: 如果你選擇本地部署 DeepSeek,那麼你的數據不會上傳到雲端,更加安全。如果使用在線版本,確保選擇可信的服務平台,保護個人隱私。‍

本文來自微信公眾號「APPSO」,作者:發現明日產品的,36氪經授權發佈。