解析梁文鋒署名DeepSeek新論文:讓記憶和計算分開

1月12日晚間,DeepSeek發佈梁文鋒署名的新論文,主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直譯為基於可擴展查找的條件記憶:大語言模型稀疏性的新維度),這也是2026開年至今,DeepSeek團隊的第二篇重磅論文。

此前,在1月1日發佈的論文中,DeepSeek提出一種名為「mHC」(直譯為「流形約束超連接」)的框架,可以有效解決大模型訓練中的穩定性問題。而在本次發佈的論文中,DeepSeek聯合北京大學提出了「條件記憶」這一概念,直指當前大語言模型基礎架構Transformer在知識檢索方面存在的低效和算力消耗問題。

在這篇論文里,DeepSeek通過創新的Engram(直譯為:記憶痕跡)架構為模型規模化擴展提供了新的技術路徑,若以簡單的比喻來理解,就是DeepSeek設計了一種新架構,將大模型的「條件記憶」和「計算」分開,最終達到了降低錯誤、節省算力的目的。

預印本網站上DeepSeek的論文頁面截圖,紅框為梁文鋒名字。預印本網站上DeepSeek的論文頁面截圖,紅框為梁文鋒名字。

大模型「痛點」:簡單問題需要複雜推理,容易「遺忘」

許多AI大模型用戶均曾在使用過程中發現過一個現象:AI會偶爾「忘記」自己曾經說過的話。對於這一問題,有AI聊天重度用戶曾對記者表示,可以通過再次「提醒」的方式來讓AI重覆記起,ChatGPT等應用也對此進行過設置,讓用戶可以保存一些較為重要的信息到「長期記憶」中。

然而,這一切只能「治標」不能「治本」。究其原因,根據美國約翰斯·霍普金斯大學和中國人民大學的研究團隊2025年3月發佈的論文《大型語言模型不具備類人工作記憶》(LLMs Do Not Have Human-Like Working Memory),大語言模型所依賴的「上下文窗口」與工作記憶存在本質區別。

根據研究人員測試,模型在處理超過5輪的多步驟邏輯推理任務時,會出現關鍵信息丟失的現象,在長文本生成場景下,前文設定的人物關係、情節線索極易發生偏差。

在實際應用中,這一缺陷有可能被無限放大。如在企業客服場景,模型無法長期記住用戶的個性化需求;在醫療問診場景,患者此前提及的病史、用藥禁忌可能被忽略;在代碼生成場景,跨文件的函數調用邏輯易出現混亂。可以說,記憶短板已成為大模型從 「通用工具」 邁向 「垂直領域專用系統」 的最大障礙。

究其原因,在多輪對話中,早期輸入的關鍵信息會隨著對話輪次增加而逐漸衰減,最終被新信息覆蓋。這種 「答後忘前」的現象,本質是模型的短時記憶無法有效轉化為長期可用的知識。另一方面,密集型注意力計算模式下,記憶存儲與邏輯推理共享算力資源,二者存在天然的資源競爭關係 —— 模型難以同時兼顧 「記住更多信息」 與 「精準完成推理」。

這一背景下,DeepSeek則保持了一貫的「慳錢」作風,看到了這之中存在的算力消耗問題。梁文鋒署名的新論文表示,語言建模本質上包含兩類子任務:一類是組合式推理,需要依賴深層、動態計算完成;另一類是知識檢索,面向命名實體等相對靜態的內容,理論上可以通過簡單查找更高效地處理。然而,現有Transformer架構缺乏原生的查找組件,遇到這類靜態信息時往往仍要反復調用深層網絡進行重建,從而加劇算力浪費並推高推理成本。

DeepSeek在論文中指出,當前主流模型在內部運行方式上仍存在明顯低效。大量固定知識和常見語言模式並不需要複雜推理,但模型在推理時往往仍要通過多層計算重新構建相關信息,導致算力被大量消耗在記憶相關操作上。在長文本和知識密集型任務中,這一問題更為突出,重覆靜態信息的重建會增加額外的推理開銷並拉長推理鏈路。

首創MoE+Engram雙稀疏軸架構,實現「推理+檢索」分工協作

那麼,如何解決上述問題呢?

根據DeepSeek的論文,研究人員首次將條件記憶(Conditional Memory)作為混合專家模型(MoE)條件計算的互補維度,提出計算與記憶雙稀疏軸的設計思路,這也是此次研究的核心創新點。

所謂「條件記憶」,是指模型能夠基於輸入中的局部上下文模式,以常數時間從大規模參數化記憶中檢索並融合靜態知識表示,從而避免在推理過程中反復通過深層計算重建高頻、模板化信息,類似於人類在面對熟悉知識時直接調用既有記憶,而非重新推導。

Engram架構示意圖 來源:DeepSeek論文截圖Engram架構示意圖 來源:DeepSeek論文截圖

具體而言,條件記憶通過Engram模塊(記憶痕跡)實現靜態知識存儲與動態計算的分離,達成靜態模式的常數時間O(1)查找。其核心邏輯是為語言建模的兩類子任務進行分工:MoE專注處理需要深層思考的組合式推理任務,Engram則依託條件記憶機制負責靜態知識的快速檢索,從架構上優化了算力資源分配,改變了傳統模型用計算模擬記憶的低效模式。當大約20%至25%的稀疏參數預算分配給Engram,剩餘部分留給MoE時(75% -80%),模型性能達到最佳。

這種稀疏性設計帶來兩大優勢:一是大幅降低算力消耗,靜默狀態的記憶資源不佔用計算資源,提升模型運行效率;二是拓展記憶容量,稀疏存儲模式可支持更大規模的知識存入,突破傳統注意力窗口的物理限制。

論文給出了這一新方案在準確性上所得到的提升:在長上下文檢索方面,研究人員採用業內公認的兩個長上下文評測基準。實驗結果顯示,在32k上下文長度下,Engram-27B 在多項 Needle-in-a-Haystack(NIAH)任務中顯著優於MoE基線模型,Multi-Query NIAH的準確率從 84.2%提升至97.0%,Variable Tracking從77.0%提升至89.0%。

目前,該研究的代碼已開源,DeepSeek團隊在論文最後表示,「我們認為條件記憶函數是下一代稀疏模型中不可或缺的建模基元。」這一表述的背後,是行業對大模型技術演進方向的共識——當參數競賽進入瓶頸期,稀疏性設計將成為提升模型效率與能力的核心路徑,而條件記憶或許可以成為稀疏模型在記憶領域的關鍵突破。

在業界猜測DeepSeek下一代模型將於春節前發佈的背景下,這篇論文的出現頗具風向標意義,論文提出的技術範式也為大模型的底層架構創新提供了新的思路。

新京報貝殼財經記者 羅亦丹 實習生 郭雯華

編輯 嶽彩周

校對 付春愔