RAG性能暴增20%!清華等推出「以筆記為中心」的深度檢索增強生成框架,複雜問答效果飆升
DeepNote團隊 投稿
量子位 | 公眾號 QbitAI
在當前大語言模型(LLMs)廣泛應用於問答、對話等任務的背景下,如何更有效地結合外部知識、提升模型對複雜問題的理解與解答能力,成為 RAG(Retrieval-Augmented Generation)方向的核心挑戰。
來自清華大學、中國科學院大學、華南理工大學、東北大學、九星(AI9Stars)的聯合研究團隊提出了一項全新的適應式RAG方法——DeepNote。
它首次引入「筆記(Note)」作為知識載體,實現更深入、更穩定的知識探索與整合,在所有任務上均優於主流RAG方法,相較於基礎RAG性能提升高達+20.1%。即使在使用中小參數量模型時,依然展現出強大的能力與泛化性。

研究動機:RAG 為何仍力不從心?
RAG技術通過引入外部知識(如 Wikipedia)來緩解大模型的幻覺與事實錯誤問題。然而,Vanilla RAG方法只支持一次性檢索。
想像一個問題需要跨越多個實體或事實推理,顯然「一問一檢索一答」的 Vanilla RAG 已遠遠不夠。這種知識不足現象特別是在具有複雜的知識需求的multi-hop QA、long-form QA 等任務中尤為嚴重。
為了應對這些複雜問答場景,一些研究提出多輪檢索RAG。然而,多輪檢索RAG往往不假思索地執行多次檢索,易引入大量無關或噪聲段落,導致檢索結果冗雜,從而降低最終回答的質量。
為了進一步構建有效且靈活的RAG系統,一些近期的工作提出自適應RAG,它引入動態決策機制,允許模型根據反饋判斷是否繼續檢索。但自適應RAG方法仍存在以下兩個核心問題:
-
檢索-生成耦合過緊:
每次檢索後立即生成答案,導致模型只能依據「當前輪」的知識作答,無法真正整合前後信息;
-
檢索策略決策不足:
大模型自行判斷「是否繼續檢索」容易偏離真正的知識需求,漏掉關鍵信息。
這些問題最終都導致一個核心困境:缺乏「信息生長」的能力——模型既無法感知自己是否「學到了新東西」,也無法真正「記住」與「利用」之前獲取的信息。
解決方案:DeepNote
為解決上述難題,團隊提出了DeepNote,一種以「筆記」為中心、以「知識生長」為目標的深度檢索增強生成框架。其關鍵特性是:用「記下的知識」引導檢索,用「最優筆記」生成答案。

DeepNote主要包含三個階段:
筆記初始化(Note Initialization)
系統基於初始問題和初次檢索內容構建出一份筆記,用於啟動整個知識積累過程。該筆記是 LLM 自主整理的結構化知識表示,作為後續所有檢索與判斷的依據。
基於筆記的適應式檢索(Note-Centric Adaptive Retrieval)
系統使用當前「最佳筆記」生成下一輪檢索查詢,並評估新獲取內容是否帶來了真正的知識增益。只有當模型判斷新知識「有價值」時,才會更新筆記並繼續下一輪;否則終止檢索。這一機制確保每一輪檢索都有明確目標、每一份信息都在「生長」。
基於最佳筆記的答案生成(Note-Informed Answer Generation)
最終,系統使用已積累的「最佳筆記」生成回答,確保答案來源清晰、內容完整、邏輯連貫。
這一設計模擬了人類解決複雜問題時的策略:邊查邊記、反復比對、直至知識充分。
DeepNote與主流方法對比
為了更直觀地展現DeepNote的特點,團隊整理了與現有代表性方法的能力對比表:

- 多次檢索:是否支持多次檢索。
- 自適應檢索:是否能根據當前信息動態地決定是否需要執行進一步的檢索動作以及檢索什麼。
- 模型訓練:是否對不同階段進行了針對性訓練或偏好優化。
- 一次性知識總結:是否在檢索後執行一次性檢索知識總結。
- 迭代知識總結:是否支持在多輪檢索中多次更新、積累、總結知識。
可以看到,DeepNote是目前唯一在自適應檢索控制、自適應知識積累與更新、模型優化三大核心維度上同時實現系統性突破的方法。這一框架不僅填補了自適應檢索與知識積累之間的空白,更在具有複雜知識需求的任務中展現出前所未有的探索深度和廣度,標誌著自適應RAG技術邁入了一個新的階段
實驗結果:顯著超越現有方法
在五個具有代表性的QA數據集上進行實證評估,涵蓋:
-
多跳問答(複雜):HotpotQA, 2WikiMQA, MusiQue
-
長形式問答 (複雜):ASQA
-
短形式問答 (簡單):StrategyQA
結果顯示,DeepNote在所有任務上均優於主流RAG方法,相較於基礎 RAG,性能提升高達+20.1%。即使在使用中小參數量模型時,依然展現出強大的能力與泛化性。

同時團隊還構建了一個高質量訓練數據集DNAlign,並結合DPO(Direct Preference Optimization)對模型進行精細優化,進一步提升了DeepNote在多任務流程下的指令遵循能力與表現。
核心結論與意義
DeepNote核心優勢分析如下
真正實現「信息生長」:
每輪檢索不是獨立的「抽樣」,而是建立在已有知識基礎上的持續拓展;
信息密度顯著提升:
相比傳統RAG,DeepNote的參考內容更緊湊、相關性更高;

Reference」指最終用於生成回答的檢索內容或筆記;其中,與回答問題直接相關的片段被標註為「Evidence」;而「Knowledge Density」則衡量Evidence在Reference中所佔比例,用以評估知識的精煉程度。
在知識密度與性能分析中,團隊系統考察了不同RAG方法對知識密度和質量的影響。實驗結果表明,Vanilla RAG檢索文檔篇幅冗長但其知識密度較低,存在大量噪聲信息;而初始筆記雖然能夠通過單次總結有效提升知識密度,但其性能提升主要來自於檢索內容總體長度的縮減,且由於知識總量下降,可能會出現性能下降現象。相比之下,DeepNote在保持高知識密度的同時,顯著提升了整體性能,表明基於筆記的自適應檢索機制能夠在降低噪聲干擾的同時,持續積累更加豐富、精煉且高相關度的知識,為最終生成提供了更堅實的信息支撐。
支持自適應停止與深度控制:
用戶可設定失敗閾值和最大步數,自由權衡探索深度與成本;

高通用性:
可搭配多種開源或閉源模型及檢索器,適用於多種實際任務場景。
DeepNote將「記憶式推理」機制引入RAG系統,打破了傳統RAG「檢索-生成」一步到位的瓶頸,使模型在複雜任務中具備了更接近人類的信息整合與推理能力。
該方法不僅適用於學術研究中對複雜信息的深入問答,還可用於法律、醫學、教育等對準確性與知識整合要求極高的真實場景,具備廣泛的落地潛力。
本項目由清華大學自然語言處理實驗室(THUNLP)、中國科學院大學信息工程研究所、華南理工大學、東北大學等單位共同完成,歡迎感興趣的研究者和開發者前來交流!
論文地址:https://arxiv.org/abs/2410.08821
開源項目: https://github.com/thunlp/DeepNote
一鍵三連「點讚」「轉發」「小心心」
歡迎在評論區留下你的想法!