終於等到你,港大正選「輕量級RAG神器」MiniRAG,1.5B手機端可用

還在為部署RAG系統的龐大體積和高性能門檻困擾嗎?港大黃超教授團隊最新推出的輕量級MiniRAG框架很好地解決了這一問題。通過優化架構設計,MiniRAG使得1.5B級別的小模型也能高效完成RAG任務,為端側AI部署提供了更多可能性。

傳統RAG架構主要依賴大型語言模型(LLMs)的強大能力,但這種設計難以適應小型語言模型(SLMs)的固有局限,特別是在複雜查詢理解、多步推理、語義匹配和信息合成等關鍵環節。

為此,MiniRAG重新設計了信息檢索和生成流程,以極簡和高效為核心原則,通過創新的輕量級架構設計,成功實現了一個高效的知識增強系統,無需依賴大型語言模型,在保證性能表現的同時有效保護用戶數據隱私。

主要設計思路基於對小型語言模型的三個關鍵發現:

  1. 雖然在複雜語義理解上存在局限,但在模式匹配和局部文本處理方面表現優異
  2. 通過引入顯式結構信息,可有效彌補有限的語義理解能力
  3. 將複雜RAG任務分解為簡單明確的子任務,可在不依賴高級推理能力的情況下保持系統穩定性

基於以上認知,MiniRAG提出了兩個核心創新組件:異構圖索引和輕量級基於圖的知識檢索,以實現高效精準的信息檢索。

項目鏈接: https://github.com/HKUDS/MiniRAG

實驗室主頁: https://github.com/HKUDS

為了更好地評估MiniRAG在實際應用場景中的表現,研究團隊同時推出了專門面向端側環境的評測數據集——LiHua-World。該數據集通過模擬真實的個人數據,全面覆蓋了端側場景下常見的信息檢索和知識增強需求。

實驗結果顯示,當將大型語言模型(LLM)替換為小型語言模型(SLM)時,各框架表現差異顯著:GraphRAG則因無法保證生成質量而完全失效,LightRAG的性能斷崖式下降(最高降幅達45.43%)。

相比之下,MiniRAG展現出優秀的穩定性——性能降幅最大僅為21.26%,最小僅0.79%。更值得注意的是,MiniRAG僅使用了約1/4的存儲空間,便實現了這一出色表現。

MiniRAG框架設計

語義感知異構圖索引

為應對端側RAG的特殊挑戰,MiniRAG提出了語義感知異構圖索引機制。該機制通過系統性地整合文本塊和命名實體,構建了一個富有層次的語義網絡,實現高效精準的信息檢索。具體而言,異構圖包含兩類核心節點:

實體節點:包含從文本中提取的關鍵語義元素,如事件、地點、時間以及特定領域概念

文本塊節點:保持原始文本的連貫性和完整上下文信息

這種雙層節點結構設計使文本塊能在檢索階段直接參與匹配,有效確保檢索結果的相關性和準確性。同時,該方法也巧妙規避了小型語言模型在文本總結能力上的局限,最大程度減少信息失真。

輕量級知識檢索

考慮到端側RAG系統在計算能力和數據隱私方面的限制,無法使用大型語言模型和複雜文本嵌入模型。為此,MiniRAG設計了創新的圖式知識檢索機制,通過結合語義感知異構圖和輕量級文本嵌入,實現高效精準的知識獲取。

該檢索機制包含兩個核心設計:

查詢語義映射在檢索階段,系統需要準確識別查詢相關的文本元素,以支持模型生成精確響應。MiniRAG充分利用小型語言模型在實體提取方面的優勢,通過簡化的查詢解析流程,將用戶查詢高效映射到圖索引結構中。

拓撲增強檢索採用兩階段檢索策略,首先基於嵌入相似度確定初始種子實體,再利用異構圖的拓撲結構,沿著相關推理路徑發現更多相關信息。

模擬真實端側場景的評測數據集: 假如你是LiHua…

針對現有端側RAG評測數據集的局限,研究團隊創新性地構建了LiHua-World數據集。該數據集通過模擬虛擬用戶「李華」一年的日常通訊記錄,真實還原了端側檢索增強生成的應用場景。

數據集特點:

  1. 全面覆蓋單跳查詢、多跳推理和信息總結等多類型問題;
  2. 提供專業人工標註的標準答案和支持文檔;
  3. 內容涵蓋社交互動、健身訓練、娛樂活動、生活事務等日常場景;
  4. 特別適配端側RAG系統的評測需求;

實驗評估與分析

為全面驗證MiniRAG在端側RAG場景下與小型語言模型結合的優勢,研究團隊設計了系統化的評估方案,重點聚焦以下三個核心維度:

  1. 系統性能對比:通過與當前主流RAG系統的對比實驗,全面評估MiniRAG在檢索準確率、計算效率和資源消耗等關鍵指標上的表現
  2. 組件效果分析:深入研究MiniRAG核心組件的性能貢獻,包括語義感知異構圖索引機制的檢索效果、輕量級檢索策略的計算開銷,以及各模塊間的協同效應
  3. 實際場景案例研究:選取多個具有代表性的應用場景,重點驗證系統在處理多步推理、複雜查詢等高挑戰任務時的實際表現。通過詳實的案例分析,展示MiniRAG在真實應用環境中的優勢與潛力。

系統性能對比

現有RAG系統的局限性

實驗結果表明,現有RAG系統在遷移至小型語言模型(SLMs)時存在嚴重的性能瓶頸。具體而言,LightRAG的整體性能顯著下降(降幅達45.43%),而GraphRAG在小模型場景下甚至無法維持基本的生成能力。這些問題充分暴露了傳統RAG架構對大型語言模型的深度依賴。

MiniRAG的創新突破

相比之下,MiniRAG通過雙節點異構圖索引結構和拓撲增強檢索機制,有效降低了對模型能力的依賴。實驗數據顯示,在遷移至小型語言模型時,MiniRAG的性能損失得到顯著控制 – 最大降幅僅為21.26%,最小降幅更是低至0.79%,展現出優異的模型適應性。

MiniRAG顯著的存儲優化

實驗評估顯示,MiniRAG在存儲效率優化方面取得了突破性進展。與採用gpt-4-mini的LightRAG基線系統相比,MiniRAG僅需25%的存儲空間即可達到相當的性能水平。這種在大幅降低存儲需求(節省75%)的同時還能保持高檢索準確率的特性,不僅展現了MiniRAG在系統架構設計上的創新,更為資源受限場景下的RAG應用開闢了新的可能性。

組件效果分析

為全面評估MiniRAG各組件的性能貢獻,研究團隊設計了兩組系統化的消融實驗。第一組實驗(-I)將MiniRAG的異構圖索引替換為傳統的基於描述的索引方法,該方法與LightRAG和GraphRAG相似,主要依賴模型的語義理解能力來生成實體與關係描述。

第二組實驗(-Ri)通過在圖檢索過程中選擇性停用特定功能模塊,以量化分析各模塊對系統整體表現的影響。這一嚴謹的實驗框架使我們能夠精確評估每個創新組件的實際貢獻。

基於小語言模型RAG的挑戰

消融實驗結果明確顯示,當使用傳統的文本語義驅動索引技術(-II)替代MiniRAG的索引方法時,系統性能出現顯著下降。這一發現有力驗證了研究團隊的初始假設:小型語言模型(SLMs)在複雜知識圖譜生成和全面語義理解等方面存在固有局限。

Reasoning Path Discovery的有效性

結構組件的關鍵性通過實驗得到充分證實。無論是移除邊信息(-RedgeRedge)還是塊節點(-RchunkRchunk),都會導致系統性能明顯下降。這些組件展現出雙重價值:既通過查詢引導的推理路徑發現優化了查詢匹配效果,又在數據索引階段有效彌補了SLMs的能力限制。

實際場景案例研究

MiniRAG通過一個複雜的餐廳識別案例,有力展示了其在實際應用中的卓越性能,特別是在處理多約束查詢和克服小型語言模型局限性方面的優勢。

挑戰:複雜查詢解析的困境

研究團隊選取了一個具有挑戰性的測試案例,查詢內容為:Wolfgang和Li Hua為慶祝Wolfgang升職而共進晚餐的那家意大利餐廳叫什麼名字?這一查詢涉及多重約束條件,要求系統能從在線聊天數據中準確識別特定意大利餐廳及其相關上下文。儘管LightRAG採用了phi-3.5-mini-instruct模型,但受限於小型語言模型的固有局限性,特別是在提取high-level信息和處理圖索引噪聲方面的不足,導致其檢索效果不夠理想。

MiniRAG:創新的知識發現機制

MiniRAG通過其獨特的查詢引導推理路徑發現機制成功應對了上述挑戰。系統利用異構圖索引結構,首先預測答案類型(如「社交互動」或「地點」),然後通過策略性分解查詢要素(專注於「意大利場所」和「餐廳」語境),結合目標實體匹配,實現了精確且具有上下文關聯的知識檢索。這種結構化推理方法使MiniRAG能夠精確導航知識空間,最終成功定位目標餐廳——Venedia Grancaffe。

結論

MiniRAG作為一種創新的檢索增強生成系統,成功突破了小型語言模型(SLMs)在傳統RAG框架中的應用瓶頸。

系統通過創新的異構圖索引架構和輕量級啟髮式檢索機制,有效融合了文本與圖式RAG方法的優勢,同時顯著降低了對語言模型能力的依賴。

實驗驗證表明,即使採用SLMs,MiniRAG仍能達到與大語言模型方案相當的性能水平。為推動設備端RAG技術發展,研究團隊還發佈了首個針對性評估基準數據集,特別關注個人通信場景和多約束查詢等實際應用場景。

這些創新不僅標誌著設備端RAG系統研究的重要進展,更為保護用戶隱私、提升資源效率的邊緣AI應用開闢了新的發展方向。

參考資料:

https://github.com/HKUDS/MiniRAG

本文來自微信公眾號「新智元」,作者:LRST ,36氪經授權發佈。