國產AI最卷一夜,大模型黑馬DeepSeek、Kimi硬剛OpenAI o1,實測體驗到底有多強
趕在放假前,支棱起來的國產 AI 大模型廠商井噴式發佈了一大堆春節禮物。
前腳 DeepSeek-R1 正式發佈,號稱性能對標 OpenAI o1 正式版,後腳 k1.5 新模型也正式登場,表示性能做到滿血版多模態 o1 水平。
如果再加上此前強勢登場的智譜 GLM-Zero,階躍星辰推理模型 Step R-mini,星火深度推理模型 X1,年末上大分的國產大模型拉開了真刀真槍的帷幕, 也給以 OpenAI 為代表的海外廠商狠狠上了一波壓力。

DeepSeek-R1 :在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版
月之暗面 k1.5:數學、代碼、視覺多模態和通用能力全面超越 GPT-4o 和 Claude 3.5 Sonnet
智譜 GLM-Zero:擅長處理數理邏輯、代碼和需要深度推理的複雜問題
階躍 Step-2 mini:極速響應,平均首字時延僅 0.17 秒,還有 Step-2 文學大師版
星火 X1:數學能力亮眼,有全面思考過程,拿捏小學、初中、高中、大學全學段數學
井噴不是偶然的爆發,而是積蓄已久的力量,可以說,國產 AI 模型在春節前夕的突圍,將有望重新定義 AI 發展的世界坐標。
中國版「源神」爆火海外,這才是真·OpenAI
昨晚率先發佈的 DeepSeek-R1 現在已經上架 DeepSeek 官網與 App,打開就能用。
9.8 和 9.11 哪個大以及 Strawberry 里有幾個 r 的難題在第一次測試中就順利過關,別看思維鏈略顯冗長,但正確答案事實勝於雄辯。

面對弱智吧難題「跳多高才能跳過手機上的廣告」的拷問, 響應速度極快的 DeepSeek-R1 不僅能夠避開語言陷阱,還提供了不少規避廣告的的建議,十分人性化。

幾年前,有一道名為「如果昨天是明天,今天就是星期五,實際今天是星期幾」的邏輯推理題走紅網絡。
在面臨同樣問題的拷問後,OpenAI o1 給出的答案是週日,DeepSeek-R1 則是週三, 但就目前來看,至少 DeepSeek-R1 更靠近答案。

據介紹,DeepSeek-R1 在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版,理論上更偏向於理科生。
正好趕上小紅書上中美兩國網民在友好交流數學作業,我們也讓 DeepSeek-R1 幫忙解疑答惑。
插個冷知識,上回 DeepSeek 海外爆火時就有網民發現,其實 DeepSeek 也支持圖片識別,我們可以直接讓它分析試捲圖片。

攏共兩道題,第一道題選 C,第二道題選 A,並且,「自信滿滿」的 DeepSeek-R1 推測第二道題原題的選項中無 18,結合選項推測原題可能存在筆誤。
在隨後的線性代數證明題中,DeepSeek-R1 提供的證明步驟邏輯嚴謹,同一道題目還提供了多種驗證方法,展現出深厚的數學功底。

始於性能,陷於成本,忠於開源。DeepSeek-R1 正式發佈之後,也同步開源模型權重。我宣佈,來自中國東方的 DeepSeek 才是真正的 OpenAI。
據悉,DeepSeek-R1 遵循 MIT License,允許用戶通過蒸餾技術借助 R1 訓練其他模型。DeepSeek-R1 上線 API,對用戶開放思維鏈輸出,通過設置 model=’deepseek-reasoner’ 即可調用。

並且,DeepSeek-R1 訓練技術全部公開,論文指路👉 https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek\_R1.pdf
DeepSeek-R1 技術報告里提到一個值得關注的發現,那就是 R1 zero 訓練過程里出現的「aha moment(頓悟時刻)」。
在模型的中期訓練階段,DeepSeek-R1-Zero 開始主動重新評估初始解題思路,並分配更多時間優化策略(如多次嘗試不同解法)。換句話說,通過 RL 框架,AI 可能自發形成類人推理能力,甚至超越預設規則的限制。
並且這也將有望為開發更自主、自適應的 AI 模型提供方向,比如在複雜決策(醫療診斷、算法設計)中動態調整策略。正如報告所說, 「這一時刻不僅是模型的『頓悟時刻』,也是研究人員觀察其行為時的『頓悟時刻』。」

除了主打的大模型,DeepSeek 的小模型同樣實力不俗。
DeepSeek 通過對 DeepSeek-R1-Zero 和 DeepSeek-R1 這兩個 660B 模型的蒸餾,開源了 6 個小模型。其中,32B 和 70B 型號在多個領域達到了 OpenAI o1-mini 的水準。
並且, 僅 1.5B 參數大小的 DeepSeek-R1-Distill-Qwen-1.5B 在數學基準測試中超越了 GPT-4o 和 Claude-3.5-Sonnet,AIME 得分為 28.9%,MATH 得分為 83.9%。
HuggingFace 鏈接:https://huggingface.co/deepseek-ai

在 API 服務定價方面,號稱 AI 屆拚多多的 DeepSeek 也採用了靈活的階梯定價:每百萬輸入 tokens 根據緩存情況收費 1-4 元,輸出 tokens 統一 16 元,再次大幅降低開發使用成本。
DeepSeek-R1 發佈以後,也再次在海外 AI 圈引起轟動,收穫了大量「自來水」。其中,博主 Bindu Reddy 更是給 Deepseek 冠上了開源 AGI 和文明的未來之稱。


出色的評價源於模型在網民的實際應用中出色的表現。從 30 秒詳細闡釋勾股定理,到 9 分鐘深入淺出地講解量子電動力學原理並提供可視化呈現。DeepSeek-R1 沒有任何差錯。

甚至也有網民特別欣賞 DeepSeek-R1 所展示的思維鏈,認為「像極了人類的內心獨白,既專業又可愛」。

英偉達高級研究科學家 Jim Fan 對 DeepSeek-R1 給予了高度評價。他指出這代表著非美國公司正在踐行 OpenAI 最初的開放使命,通過公開原始算法和學習曲線等方式實現影響力, 順便還內涵了一波 OpenAI。
DeepSeek-R1 不僅開源了一系列模型,還披露了所有訓練秘密。它們可能是首個展示 RL 飛輪重大且持續增長的開源項目。 影響力既可以通過『ASI 內部實現』或『草莓計劃』等傳說般的項目實現,也可以簡單地通過公開原始算法和 matplotlib 學習曲線來達成。

在深入研究論文後,Jim Fan 特別強調了幾個關鍵發現:
完全由強化學習驅動,沒有任何 SFT(監督微調)。讓人聯想到 AlphaZero——從零開始掌握圍棋、將棋和國際象棋,而不是先模仿人類大師的棋步。這是論文中最關鍵的發現。使用硬編碼規則計算的真實獎勵。 避免使用強化學習容易破解的學習獎勵模型。隨著訓練進展,模型的思考時間逐步增加——這不是預先編寫的程序,而是一種湧現特性!自我反思和探索行為的湧現。 GRPO 替代了 PPO:它移除了 PPO 的評論網絡,改用多個樣本的平均獎勵。這是一種減少內存使用的簡單方法。需要注意的是,GRPO 是作者團隊提出的一種創新方法。 整體來看,這項工作展示了強化學習在大規模場景中實際應用的開創性潛力,並證明某些複雜行為可以通過更簡單的算法結構實現,而無需進行繁瑣的調整或人工干預。
一圖勝千言,更明顯的對比如下:

就這樣,DeepSeek 再次在海內外完成二次爆火,不僅是一次技術突破,更是中國乃至世界的開源精神的勝利,也因此收穫了不少海外忠實擁躉。
新模型比肩 OpenAI o1,三個月三次突破,Kimi 讓海外集體沸騰
同一天上線的還有 Kimi v1.5 多模態思考模型。
自去年 11 月 Kimi 推出 k0-math 數學模型,12 月發佈 k1 視覺思考模型以來,這是第三次 K 系列的重要上新。
在短思考模式(short-CoT)的較量中,Kimi k1.5 展現出壓倒性優勢,其數學、代碼、視覺多模態和通用能力全面超越了行業翹楚 GPT-4o 和 Claude 3.5 Sonnet。

在長思考模式(long-CoT)的競爭中,Kimi k1.5 的代碼和多模態推理能力已經比肩 OpenAI o1 正式版, 成為全球範圍內首個在 OpenAI 之外實現 o1 級別多模態推理性能的模型。

伴隨著模型的重磅發佈,Kimi 還首次公開了完整的模型訓練技術報告。
GitHub 鏈接:https://github.com/MoonshotAI/kimi-k1.5
據官方介紹,k1.5 模型的核心技術突破主要體現在四個關鍵維度: 長上下文擴展。我們將 RL 的上下文窗口擴展到 128k,並觀察到隨著上下文長度的增加,性能持續提升。我們的方法背後的一個關鍵思想是,使用部分展開(partial rollouts)來提高訓練效率——即通過重用大量先前的軌跡來采樣新的軌跡,避免了從頭開始重新生成新軌跡的成本。我們的觀察表明,上下文長度是通過 LLMs 持續擴展RL的一個關鍵維度。
改進的策略優化。我們推導出了 long-CoT 的 RL 公式,並採用在線鏡像下降的變體進行穩健的策略優化。該算法通過我們的有效采樣策略、長度懲罰和數據配方的優化進一步得到改進。
簡潔的框架。長上下文擴展與改進的策略優化方法相結合,為通過 LLMs 學習建立了一個簡潔的 RL 框架。由於我們能夠擴展上下文長度,學習到的 CoTs 表現出規劃、反思和修正的特性。增加上下文長度的效果是增加了搜索步驟的數量。因此,我們展示了可以在不依賴更複雜技術(如蒙地卡羅樹搜索、價值函數和過程獎勵模型)的情況下實現強大的性能。
多模態能力。我們的模型在文本和視覺數據上聯合訓練,具有聯合推理兩種模態的能力。該模型數學能力出眾,但由於主要支持 LaTeX 等格式的文本輸入,依賴圖形理解能力的部分幾何圖形題則難以應對。
k1.5 多模態思考模型的預覽版將陸續灰度上線官網和官方 App。值得一提的是,k1.5 的發佈同樣在海外引起了巨大的反響。也有網民對這個模型不吝讚美之詞,讓海外見證了中國 AI 實力的崛起。


實際上,年末國內推理模型的密集發佈絕非偶然,這是 OpenAI 去年 10 月發佈 o1 模型在全球 AI 領域掀起的漣漪終於傳導至中國的顯著標誌。
短短數月從追趕到比肩,國產大模型用行動證明了中國速度。
費爾茲獎得主、數學天才陶哲軒曾認為這類推理模型或許只需再經過一兩輪迭代與能力提升,就能達到「合格研究生」的水準。而 AI 發展的遠景遠不止於此。

當前,我們正見證著 AI 智能體一個關鍵的轉型時刻。從單純的「知識增強」向「執行增強」跨越,開始主動參與決策製定和任務執行的過程。
與此同時,AI 也在突破單一模態的限制,向著多模態融合的方向快速演進。當執行遇上思考,AI才真正具備了改變世界的力量。

基於此,像人一樣思考的模型正在為 AI 的實際落地開闢更多可能性。
表面上看,年末這波國內推理模型的密集湧現,或許帶有「中國式跟隨者創新」的影子。
但深入觀察就會發現,無論是在開源策略的深度,還是在技術細節的精確度上,中國廠商依然走出了一條獨具特色的發展道路。
本文來自微信公眾號「APPSO」,作者:發現明日產品的,36氪經授權發佈。