港大最新研究成果:MiniRAG,「迷你版」RAG 小模型端側可用

MiniRAG讓僅有1.5B參數的小型模型也能達到接近GPT-4mini的RAG任務性能,大幅降低了算力需求。
傳統RAG系統的高資源需求和部署門檻一直是行業痛點,香港大學黃超教授團隊最新推出的MiniRAG框架為此提供了創新解決方案。通過突破性的架構優化設計,MiniRAG讓僅有1.5B參數的小型模型也能達到接近GPT-4mini的RAG任務性能,大幅降低了算力需求。這一突破不僅讓端側RAG系統部署成為可能,更為RAG技術的應用探索新途徑。
項目鏈接: https://github.com/HKUDS/MiniRAG
論文鏈接: https://arxiv.org/abs/2501.06713
實驗室主頁: https://github.com/HKUDS

1
為什麼需要 MiniRAG?現有 RAG 系統的局限性
高資源需求與部署門檻
傳統RAG系統通常依賴於大型語言模型(LLMs),這些模型雖然性能強大,但對計算資源和存儲空間的需求極高,導致其難以在資源受限的端側設備上部署。此外,大型模型的複雜性和高成本也限制了RAG技術在更廣泛場景中的應用。
小型語言模型的性能瓶頸
現有的RAG框架在設計上主要針對大型語言模型,直接將其應用於小型語言模型(SLMs)時,性能往往大幅下降。特別是在查詢理解、多步推理、語義匹配和信息合成等關鍵環節,小型模型的表現明顯不足,難以滿足實際應用需求。
數據隱私與端側需求
隨著數據隱私保護意識的增強,端側設備上的數據處理需求日益增加。然而,傳統RAG系統由於依賴雲端大型模型,難以在端側實現高效且隱私保護的知識檢索與生成。MiniRAG通過輕量級架構設計,成功解決了這一問題,為端側RAG系統的部署提供了可行方案。
2
MiniRAG的核心設計
MiniRAG通過突破性的輕量級架構創新,成功構建了一個高效的檢索增強生成系統。該系統無需依賴龐大的語言模型,不僅顯著降低了部署門檻,更能有效保護在端側RAG系統中用戶的數據隱私。

MiniRAG提出了兩大核心創新組件:語義感知異構圖索引和輕量級圖式知識檢索。這些設計使得系統能夠在保證檢索質量的同時,大幅降低對模型能力的依賴,特別適合在資源受限的端側設備上運行。
語義感知異構圖索引
MiniRAG通過融合文本塊和命名實體,構建層次化語義網絡。這種雙層結構不僅提高了檢索結果的準確度,還巧妙避開了小型語言模型在文本概括方面的短板,最大限度地保持了原始信息的準確性。
輕量級知識檢索
針對端側設備的計算資源限制,MiniRAG採用圖式知識檢索機制,結合語義感知異構圖和輕量級文本嵌入,實現了高質量的知識獲取。該機制通過簡化的解析流程和拓撲增強檢索策略,顯著降低了檢索過程對模型性能的要求。
LiHua-World:模擬真實端側場景的評測數據集

為全面評估MiniRAG在實際應用中的性能,研究團隊同步推出了首個專門面向端側環境的評測基準——LiHua-World。這個精心設計的數據集通過模擬真實的個人設備通信數據,系統性地覆蓋了端側場景下的多樣化檢索需求和知識增強應用,為輕量級RAG系統的發展提供了重要的評估工具。
數據集特點
-
問題類型豐富:包含單跳查詢、多跳推理和信息總結等多種任務類型。
-
場景多元:涉及社交、健身、娛樂和生活等領域,貼合端側應用特點。
-
專業標註:配備標準答案和相關文檔,確保評估的準確性和可靠性。
3
實驗評估與分析

系統性能對比
-
現有RAG系統的局限性:實驗結果表明,現有RAG系統在遷移至小型語言模型(SLMs)時存在嚴重的性能瓶頸。具體而言,LightRAG的整體性能顯著下降(降幅達45.43%),而GraphRAG在小模型場景下甚至無法維持基本的生成能力。這些問題充分暴露了傳統RAG架構對大型語言模型的深度依賴。
-
MiniRAG的創新突破:相比之下,MiniRAG通過雙節點異構圖索引結構和拓撲增強檢索機制,有效降低了對模型能力的依賴。實驗數據顯示,在遷移至小型語言模型時,MiniRAG的性能損失得到顯著控制 – 最大降幅僅為21.26%,最小降幅更是低至0.79%,展現出優異的模型適應性。

-
MiniRAG顯著的存儲優化: 實驗評估顯示,MiniRAG在存儲效率優化方面取得了突破性進展。與採用gpt-4-mini的LightRAG基線系統相比,MiniRAG僅需25%的存儲空間即可達到相當的性能水平。這種在大幅降低存儲需求(節省75%)的同時還能保持高檢索準確率的特性,不僅展現了MiniRAG在系統架構設計上的創新,更為資源受限場景下的RAG應用開闢了新的可能性。
組件效果分析

為全面評估 MiniRAG 各組件的性能貢獻,研究團隊設計了兩組系統化的消融實驗。第一組實驗 (-$I$) 將 MiniRAG 的異構圖索引替換為傳統的基於描述的索引方法,該方法與 LightRAG 和 GraphRAG 類似,主要依賴模型的語義理解能力來生成實體與關係描述。第二組實驗 (-$R_i$) 通過在圖檢索過程中選擇性停用特定功能模塊,以量化分析各模塊對系統整體表現的影響。
實驗結果表明:
-
小語言模型難以支撐傳統RAG方法。消融實驗結果明確顯示,當使用傳統的文本語義驅動索引技術(-$I$)替代MiniRAG的索引方法時,系統性能出現顯著下降。這一發現有力驗證了研究團隊的初始假設:小型語言模型(SLMs)在複雜知識圖譜生成和全面語義理解等方面存在固有局限。
-
推理路徑的有效性。結構組件的關鍵性通過實驗得到充分證實。無論是移除邊信息(-$R_{edge}$)還是塊節點(-$R_{chunk}$),都會導致系統性能明顯下降。這些組件展現出雙重價值:既通過查詢引導的推理路徑發現優化了查詢匹配效果,又在數據索引階段有效彌補了SLMs的能力限制。
實際場景案例研究

MiniRAG通過一個複雜的餐廳識別案例,有力展示了其在實際應用中的卓越性能,特別是在處理多約束查詢和克服小型語言模型局限性方面的優勢。
挑戰:複雜查詢解析的困境
研究團隊選取了一個具有挑戰性的測試案例,查詢內容為:Wolfgang和Li Hua為慶祝Wolfgang升職而共進晚餐的那家意大利餐廳叫什麼名字?這一查詢涉及多重約束條件,要求系統能從在線聊天數據中準確識別特定意大利餐廳及其相關上下文。在這個測試中,兩種RAG方法都使用phi-3.5-mini-instruct小語言模型。受限於小型語言模型的固有局限性,特別是在提取high-level信息和處理圖索引噪聲方面的不足,導致LightRAG的檢索效果不夠理想。
MiniRAG的解決方案
創新的知識發現機制,MiniRAG通過其獨特的查詢引導推理路徑發現機制成功應對了上述挑戰。系統利用異構圖索引結構,首先預測答案類型(如”社交互動”或”地點”),然後通過策略性分解查詢要素(專注於”意大利場所”和”餐廳”語境),結合目標實體匹配,實現了精確且具有上下文關聯的知識檢索。這種結構化推理方法使MiniRAG即便使用小型語言模型也能夠精確導航知識空間,最終成功定位目標餐廳——Venedia Grancaffe。
4
未來研究方向
-
增強小型語言模型的能力:通過模型壓縮和知識蒸餾等技術,進一步提升小型語言模型在RAG任務中的表現。
-
擴展應用場景:探索MiniRAG在更多端側設備上的應用,如智能家居、車載系統等。
-
優化隱私保護機制:進一步研究如何在保證性能的同時,增強端側RAG系統的數據隱私保護能力。
5
總結
MiniRAG的提出為端側RAG系統的研究與應用提供了全新的解決方案。通過其輕量級架構設計、創新的異構圖索引和高效的檢索機制,MiniRAG不僅突破了傳統RAG系統的高資源需求瓶頸,還為端側設備上的知識檢索與生成開闢了新的可能性。隨著LiHua-World評測基準的發佈,MiniRAG有望進一步推動RAG技術在端側設備上的普及與應用。如需瞭解更多信息,請訪問項目鏈接:
https://github.com/HKUDS/MiniRAG。