Kimi K2 Thinking,是月之暗面的「復仇」
Kimi K2 Thinking的發佈,對於月之暗面而言,就像是《基督山伯爵》里那座名為曼治 基斯托的寶藏島,曾被困在伊夫堡的那個「人」回來了,而且帶著一個讓世界措手不及的計劃。
在年末預計發佈的Gemini 3和GPT-5.1,以及DeepSeek的新模型之前,中國大模型廠商月之暗面先拿出了里程碑之作——Kimi K2 Thinking。
該如何形容Kimi K2 Thinking的價值?
或許HuggingFace聯合創始人 Thomas Wolf的評價,反映出大多數人的心聲,「這是又一個‘DeepSeek’時刻麼,開源再次超過閉源。」
彼時,開源的DeepSeek R1超過OpenAI閉源模型旗艦模型o1,如今,Kimi K2 Thinking直接對標GPT-5、Claude 4.5 Sonnet 這樣的頂尖閉源模型,儘管還有一些瑕疵,但是不妨礙月之暗面的成功。
如果說此前的大肆投流商業化以及DeepSeek的成功,讓不少人對月之暗面心有懷疑,還能不能做最有希望的大模型創業企業,此後Kimi K1.5可以視為月之暗面的推理摸索,K2已經讓人感到驚豔,Kimi K2 Thinking則是確定了內外部的信心。
月之暗面證明了自己,仍然有能力站在大模型第一梯隊。
11月11日淩晨,月之暗面創始人楊植麟以及合夥人周昕宇、吳育昕,在海外Reddit社區辦了一場有問必答線上活動,回答關於Kimi K2 Thinking以及大模型相關的問題。

460萬美元成本不重要,K3或有新架構特性
圍繞Kimi K2 Thinking的橫空出世,外界對其訓練方法、工程策略與未來規劃一直充滿好奇,月之暗面從460萬美元訓練成本的真偽,聊到為何大膽採用未經驗證的Muon優化器,再到長鏈推理背後的技術突破,這是一場難得的技術直球交流。
Kimi團隊首先澄清了「460萬美元訓練成本」這一熱門傳聞。團隊表示,這並非官方數字。訓練成本難以量化,尤其是大模型預訓練大量依賴研究、探索和失敗實驗,本身就難以用單純的金錢衡量。
而關於外界最驚訝的一點——為什麼敢在如此大型模型上使用一個幾乎沒人測試過的Muon優化器——團隊解釋得相當直白:Muon雖然未經他人驗證,但他們嚴格遵循了縮放定律的驗證流程,確保它在所有小規模測試中表現穩定。在Muon出現之前,已有幾十種優化器和架構被淘汰,這讓團隊對自己的研究體系建立起了信心。
在硬件方面,Kimi確認他們使用的是Infiniband互聯的H800 GPU,相比美國廠商的高端算力設備並不佔優。但團隊強調:「我們充分壓榨了每一張卡。」在嚴格預算下最大化產出,是這支團隊的一大風格。
談到預訓練期間的核心指標,團隊強調最重要的依然是損失(Loss)、基準測試表現,以及內部穩定性。每一次架構消融都必須在更大規模前通過驗證,不允許跳步。如果模型出現任何異常,擴容會被立刻暫停。
關於數據,Kimi用了一個頗具浪漫氣質的比喻:「找到合適的數據集,是一門藝術。」團隊認為數據之間存在大量交互效應,直覺固然重要,但最終必須以實驗為準。
對於外界關心的方向策略,Kimi也給出了明確態度。選擇先發佈純文本模型,是因為影片模型的數據準備與訓練週期都更長;至於1M上下文窗口,團隊已做過嘗試,只是目前服務成本過高,未來版本中很可能重新引入。
被許多用戶稱道的「K2獨特散文風格」來自何處?Kimi表示,這既來自預訓練階段打下的知識底蘊,也來自後訓練階段的風味調校,甚至不同的強化學習策略都會導致截然不同的「風味差異」。模型性格,某種程度上也反映了團隊本人的喜好。
對於一些用戶提出的批評,例如模型在戰鬥場景或衝突對話中過於「安全」、略顯「有毒的積極」,Kimi團隊坦言這是長期挑戰,但相信有解決方案。他們也正在探索如何在保持安全的前提下降低不必要的審查力度。至於NSFW內容,團隊並不排斥可能性,但前提是建立可靠的年齡驗證機制並調整服務條款。
關於技術棧,Kimi繼續強調他們在長鏈推理上的獨特優勢。K2 Thinking目前能穩定完成200到300步的工具調用,團隊將其歸功於端到端智能體強化學習訓練方式。再加上INT4推理帶來的速度優勢,使得單次長推理成為可能。
至於未來技術升級路線,Kimi透露他們正在研究新架構KDA(Kernel Attention Dual Architecture),並很可能在K3模型中投入使用。此外,團隊不排斥進一步開源更多組件,包括安全對齊技術棧,但同時強調需要找到機制確保開源細化不會被濫用。
Kimi K2 Thinking強在哪?
按照官方介紹,這是月之暗面目前最強的開源思考模型,擁有1萬億參數規模,採用384個專家混合架構,它以「思考型智能體」為目標打造,能夠在使用工具的同時逐步推理,在 Humanity’s Last Exam(HLE)、BrowseComp 等多個基準測試上取得最新的業界領先成績,在推理、智能體搜索、代碼、寫作以及通用能力等方面都有大幅提升。
當然,對評分不那麼感冒的朋友,更看重實效。Kimi K2 Thinking 能在沒有人工干預的情況下,連續執行 200 到 300 次工具調用, 並在數百步的鏈式推理中保持連貫,解決複雜問題,標誌著在測試時擴展(test-time scaling)上的最新進展,包括擴大思考 token 的規模,以及擴大工具調用的鏈路深度,這是堪比Claude長程規劃和自適應推理能力,Kimi K2 Thinking直接把門檻大幅拉低。
Kimi K2 Thinking 在多項衡量推理、編碼和智能體能力的基準上刷新記錄。它在帶工具的 HLE 中達到 44.9%,在 BrowseComp 上達到 60.2%,在 SWE-Bench Verified 上達到 71.3%,展現了作為頂級思考型智能體模型的強泛化能力。
圖片來自AI生成Kimi K2 Thinking 還能在推理過程中主動調用多種工具,數百步的序列中也能完成規劃、推理、執行與自適應調整,處理一些最具挑戰性的學術與分析類問題。在某次測試中,它通過 23 次交錯進行的推理與工具調用,成功解決了一道博士級數學難題,充分展示了其深度結構化推理能力與長程問題求解能力。
編碼也是體現智能體能力的重點,Kimi K2 Thinking 在編碼和軟件開發任務上表現出顯著提升,尤其在HTML、React 以及組件密集型前端任務上表現突出,能夠將想法轉化為功能完整、響應靈敏的產品。在代理式編碼場景中,它在調用工具的同時進行推理,能夠流暢地融入軟件代理,精確且靈活地執行複雜的多步驟開發工作流。
低比特量化(Low-bit quantization)是減少大規模推理服務器延遲和 GPU 內存佔用的有效方法。然而,思考型模型通常使用過長的解碼長度,因此量化往往會導致顯著的性能下降。
為解決這一挑戰,月之暗面在後訓練階段採用了 量化感知訓練(Quantization-Aware Training, QAT),並對 MoE 組件應用 僅權重的 INT4 量化。這使得 K2 Thinking 能夠支持原生 INT4 推理,在生成速度上大約提升 2 倍,同時仍保持最先進的性能。
總體來看,月之暗面通過K2 Thinking證明其大模型技術能力,也更清晰地印證了當前大模型發展的一個核心趨勢:從追求規模參數轉向追求推理效能和實用化能力。
但其長期競爭力,仍需放在與Gemini、GPT等巨頭模型的持續迭代和更廣泛的市場檢驗中觀察。行業的競爭,已進入一個比拚技術深度、工程效率與生態策略的更為複雜的綜合階段。(文 | TechPulse ,作者 | 張帥,編輯 | 蓋虹達)
















