面壁智能聯創談DeepSeek出圈:與OpenAI o1不開源有關,R1模型創造了新的ChatGPT時刻
新浪科技訊 2月5日下午消息,近日,面壁智能聯合創始人兼首席科學家劉知遠在談及DeepSeek近期引發的熱潮時指出,“DeepSeek 最近發佈R1模型的重要價值在於它能夠完美複現OpenAI o1的深度推理能力,並且他通過開源的方式發佈了相對詳細的介紹,為行業作出了重要貢獻。”
劉知遠指出,“因為OpenAI o1本身並沒有提供關於其實現細節的任何信息,它相當於引爆了一個原子彈,但沒有告訴大家秘方,而DeepSeek可能是全球首個能通過純粹的強化學習技術複現OpenAI o1能力的團隊,並且還把這種能力開源了。”
劉知遠總結指出,DeepSeek R1的整個訓練流程有兩個非常重要的亮點或價值:一是通過規則驅動的方法實現了大規模強化學習;二是通過深度推理 SFT 數據與通用 SFT 數據的混合微調,實現了推理能力的跨任務泛化;這使得 DeepSeek R1 能夠成功複現OpenAI o1 的推理水平。

首先,DeepSeek R1創造性地基於DeepSeek V3基座模型,通過大規模強化學習技術,得到了一個純粹通過強化學習增強的強推理模型,即DeepSeek-R1-Zero,這具有非常重要的價值,因為在曆史上幾乎沒有團隊能夠成功地將強化學習技術很好地應用於大規模模型上,並實現大規模訓練。DeepSeek能夠實現大規模強化學習的一個重要技術特點是其採用了基於規則(rule-based)的方法,確保強化學習可以規模化,並實現面向強化學習的擴展(Scaling),這是它的第一個貢獻。
其次,DeepSeek R1 的第二個重要貢獻在於其強化學習技術不僅局限於數學、算法代碼等容易提供獎勵信號的領域,還能創造性地將強化學習帶來的強推理能力泛化到其他領域。這也是用戶在實際使用DeepSeek R1進行寫作等任務時,能夠感受到其強大的深度思考能力的原因。
“這種泛化能力的實現分為兩個階段:首先,基於DeepSeek V3基座模型,通過增強推理過程的可讀性,生成了帶有深度推理能力的SFT(Supervised Fine-Tuning)數據,這種數據結合了深度推理能力和傳統通用SFT數據,用於微調大模型;隨後,進一步通過強化學習訓練,得到了具有強大泛化能力的強推理模型,即 DeepSeek R1。”劉知遠表示。
在他看來,DeepSeek R1能夠取得如此全球性的成功呢,與OpenAI在發佈o1之後選擇不開源,同時將o1深度思考的過程隱藏起來,並且採用了非常高的收費方式有關。“這使得o1無法在全球範圍內讓儘可能多的人普惠地感受到深度思考所帶來的震撼,而DeepSeek R1則像2023年初 OpenAI的ChatGPT一樣,讓所有人真正感受到了這種震撼,這是 DeepSeek R1 出圈的非常重要的原因。”(文猛)