三步拿下！大模型 RAG 王者上新！

當今企業運營的過程中，數據量呈爆炸式增長。企業內部積累了海量數據，涵蓋了業務流程的各個環節。然而，儘管數據資源豐富，企業卻往往難以從中高效提取出有價值的知識，大量數據處於被「閑置」的狀態。

隨著大模型等AI技術的發展迭代，RAG（Retrieval-augmented Generation，檢索增強生成）可以讓生成式大模型利用外部的知識源來增強生成能力，提高生成質量和可靠性，讓企業內部積累的大量數據得到有效利用，喚醒企業沉睡的知識。

但企業構建知識檢索系統並非易事，通常面臨開發門檻高、生成內容差等難題。借助浪潮信息元腦企智EPAI企業大模型開發平台，企業僅需三步即可高效創建大模型RAG，讓企業內部積累的大量數據得到有效利用，喚醒企業沉睡的知識，顯著提升大模型回答的準確性。

RAG：生成式大模型落地的優選實踐方案

在AIGC大模型落地企業應用過程中，必然會碰到的一個問題是，大模型從訓練到完成部署，並不意味著抵達了開發工作的「終點」。在真實場景中，每時每刻都在產生大量數據，知識會迭代得飛快，如新學說的出現、領域知識的更新、某個定義的延展、某個指標的調整等，「終身學習」不僅適用於人類本身，對AI來說同樣是必須具備的能力。一旦喪失這種能力，大模型會很快表現出能力的「天花板」，包括產生幻覺、缺乏對生成文本的可解釋性、專業領域知識理解差，以及對最新知識的瞭解有限等等。

針對這一問題，業界主要有兩種解決途徑：一種是微調（Fine Tune）來更新模型，另一種是讓AI能夠與外部世界互動，以不同的形式和方式獲取知識，即大模型+RAG。

微調固然效果好，可以讓模型真正的「學會」一些私域知識。但是微調也會帶來幾個問題：首先，由於生成模型依賴於內在知識（權重），因此模型還是無法擺脫幻覺的產生，在對理解門檻高且準確性要求嚴格的場景下，這是完全無法接受的。其次，模型微調並不是一個簡單的工作，無論是從數據準備、算力消耗、微調效果、訓練時間等各個角度來看，隨時用新產生的數據來進行微調都是不現實的，且最終微調的效果也無法保證，能夠做到每月更新一次都已經是很理想的狀態。

相比之下，RAG讓生成式大模型能夠利用外部的知識源（非模型本身的知識庫）來增強模型的生成能力，減少生成內容的偏差和錯誤，提高生成質量和可靠性，在有效緩解模型幻覺的同時，也能夠「喚醒沉睡的知識」，讓企業內部積累的大量數據得到有效利用。由於接入外部實時動態數據，RAG在理論上沒有知識邊界的限制，且無需頻繁進行模型訓練，故已經成為生成式大模型行業落地優選實踐方案。

RAG很好，但好的RAG不好開發

RAG雖好，但在實際開發應用的場景中，企業構建知識檢索系統並非易事，通常面臨較高的開發門檻和較差的生成內容等難題。

■ 技術門檻高，開發效率低

首先，即便技術人員編程能力紮實、深悟大模型架構原理，從海量開源方案里挑選出最合適的大模型+ RAG組合，也需要不斷的試錯，定製化開發的時間成本高昂。其次，RAG的構建包含知識文檔的準備、嵌入模型（embedding model）、向量數據庫、查詢檢索和生成回答五個基本環節，各個環節均有著極大的優化空間。如在處理企業數據時，仍需設計流程，清洗、分類、標註各類數據，保其質量達模型訓練標準；檢索參數配置同樣如此，向量模型選取與優化若有差池，也易使模型訓練失敗、檢索不準。而遵循效果相乘疊加的定律，90%×90%×90%×90%×90%=59%，這意味著任何一個環節優化效果不佳，將會導致最終的生成效果與最初設想相距甚遠。

■ 複雜文檔解析能力不足，生成效果差

企業數據文檔種類繁雜，高質量的文檔解析能力會極大影響最終的知識檢索成效。以金融機構為例，合約、報告、Excel 財務數據表及 PPT 產品介紹等文檔多格式並行，開源RAG方案對此的解析能力較差，如在合約關鍵條款的提取方面失準，條款解讀發生偏差；進行產品比對推薦時，易導致檢索參數及大模型抉擇失當，推薦金融產品難以滿足個性化需求，使客戶對企業信任與滿意度滑坡。

元腦企智EPAI：構建大模型RAG僅需三步，喚醒企業沉睡的知識

針對當前企業在構建RAG上普遍面臨的難題，浪潮信息元腦企智EPAI（Enterprise Platform of AI）為企業發掘數據資產、「喚醒沉睡的知識」提供了強大的開發平台，文檔解析、知識庫構建、檢索增強生成等特色功能，不僅極大提升了企業知識管理系統的構建效率，還顯著增強了大模型回答的準確性。

■ 高效的文檔解析與知識庫構建

元腦企智EPAI適配PDF、TXT、DOCX等多類文檔格式上傳解析，可深度處理文檔內容，通過強大數據清洗和靈活的知識分塊，幫助企業建立高質量私域知識庫，並支持複雜問題、大型數據集或跨多個文檔查詢。

■ 更優的檢索增強生成效果

元腦企智EPAI囊括關鍵詞檢索、語義檢索、混合檢索等多元檢索模式，精準適配各類場景檢索訴求。用戶可依自身特定需求，選擇最合適的檢索方法。借由自動化 RAG pipeline技術，能敏捷抓取最新知識融入大模型，實現檢索庫的定期更新，從而確保生成的文本內容基於最新的信息，提升生成內容的準確性和效率，切實滿足企業多樣化的使用需求。

經過浪潮信息在大模型+RAG開發上的反復實踐與驗證，元腦企智EPAI封裝了浪潮信息深度優化的RAG環境，開發者僅需三步即可快速完成檢索增強生成系統的構建。

Step1 創建知識庫，奠定知識基石

首先，用戶需要在元腦企智EPAI上創建一個知識庫並上傳企業文檔。元腦企智EPAI支持多種文檔格式，包括PDF、TXT、DOCX等。然後選配解析參數，如編碼模型、文本分塊長度等。開始文檔解析。文檔解析是將文檔的內容進行抽取並對其進行分塊，元腦企智EPAI在解析中支持文檔版式識別，對錶格、圖片的文字都能做到精準提取。

文檔解析成功後，內容將被存儲在知識庫中，形成結構化的知識塊。

Step2 配置檢索參數，優化檢索效能

在文檔解析完成後，用戶需要配置大模型和檢索參數，以優化檢索效果。元腦企智EPAI提供了多種檢索參數，包括粗排引用數量、引用數量、檢索類型等。在檢索策略上，支持混合檢索、關鍵詞檢索、向量檢索等。

配置好檢索參數後，用戶可以進行檢索測試，以驗證文檔分塊和檢索效果。在檢索測試界面，用戶可以輸入測試文本，查看檢索結果。

Step3 對話交互，實現智能應用

測試完成後，元腦企智EPAI可以將知識庫發佈為知識助手，並且提供在線交互和API兩種使用方式。

在線交互中，用戶輸入問題，元腦企智EPAI將結合知識康尼容，通過大模型生成準確的回答，並展示引用源。下圖展示，元腦企智EPAI作為營養問答助手，通過檢索增強生成，提供營養方面的回答。

如果選擇用API的方式，用戶可以通過元腦企智EPAI創建自定義助手，將配置好的模型和知識庫保存為助手，並通過API接口調用。這一功能使得用戶可以輕鬆地將元腦企智EPAI的RAG能力集成到現有的信息系統中，提升系統的智能化水平。

元腦企智EPAI讓某領先IT企業智能生產力激增

業界領先的某IT企業積極利用元腦企智EPAI平台推動內部的智能化轉型，目前已「零代碼」開發出IT售前助手「元小智」和撰稿助手「元小墨」。

在「元小智」開發過程中，該企業售前團隊（非專業開發人員）利用元腦企智EPAI內置的數據處理工具，自動化解析結構及非結構化數據，從超 1500 份涵蓋 PDF、DOCX、DOC、XLS等多樣格式的數據資源里，成功構築8大業務線所有在售產品知識庫，整個開發時間僅耗時1人1月，有力驅動知識集成與業務精進。

在「元小墨」開發過程中，該企業市場部團隊（非專業開發人員）按照不同業務線、稿件類型收集了1300+篇成文稿件、背景資料、速記、白皮書，一鍵打包上傳，不用任何代碼即構建起專用知識庫。同時通過自動化的RAG pipeline 技術將最新的知識融入大模型，通過選擇關鍵詞檢索、語義檢索、混合檢索等不同的檢索策略，有效提升檢索生成內容的準確性。

在「元小墨」的加持下，該企業市場部團隊資料搜索時間縮減80%，同時內容生成質量躍升，緊密貼合多元需求，驅動市場傳播創新。如在內容策劃時，關鍵詞檢索鎖定產品亮點與市場趨勢報告；定製文案階段，語義檢索精準捕捉品牌意圖，推送契合風格文案；官微運營中，利用混合檢索融合優勢，從海量素材中精準定位熱點關聯素材助力推文。

元腦企智EPAI(Enterprise Platform of AI)是浪潮信息的大模型應用落地解決之道，能夠為企業AI大模型落地應用提供高效、易用、安全的端到端開發平台，提供數據準備、模型訓練、知識檢索、應用框架等系列工具，支持調度多元算力和多模算法，幫助企業高效開發部署生成式AI應用、打造智能生產力。在大模型技術持續演進的進程中，元腦企智EPAI 將以持續創新，助力企業智能應用創新與效率提升。

你可能喜歡