文檔處理效能飆升!浩鯨科技「文檔大模型」核心技術揭秘!

機器之心發佈

機器之心編輯部

在當今大模型技術日新月異的背景下,數據已躍升為構建企業大模型知識庫、優化訓練與微調,乃至驅動模型創新不可或缺的核心要素。

對於企業來說,積累的寶貴知識廣泛散佈於形式多樣的電子文檔之中,這些文檔不僅格式多樣,其內容質量亦呈現出顯著的差異性。對海量數據進行精細化的清洗與預處理工作,已成為提升數據價值、確保模型精準高效的關鍵一環,如何有效提取並利用這些寶貴的知識資源,成為了擺在所有企業面前的一道難題。

9 月 20 日,老牌數字化轉型技術服務提供商浩鯨科技在雲棲大會期間,成功舉行鯨智大模型技術體系發佈會,作為企業內部的 「資產沉澱專家」,鯨智文檔大模型重磅正選。

據瞭解,本次發佈的 「鯨智文檔大模型」,專門針對企業文檔場景構建了一組垂直領域模型,浩鯨科技大模型創新中心總經理王玉木表示,鯨智文檔大模型與同類產品最大的差異在於,它提供了可快速價值落地的整體性方案,不僅包含了文檔大模型能力,還提供了多模態文檔工具鏈 DocChain 和開箱即用的軟硬件一體機,基於垂直模型能力和軟硬件相互配合,可幫助企業實現文檔的知識抽取、知識融合,直至知識推理和問答的全流程覆蓋,為企業知識資產的沉澱、高效管理與利用提供了有效通路。

鯨智文檔大模型的實踐邏輯

浩鯨科技成立於 2003 年,立足於電信行業,智慧觸角已觸及政務、電力、泛零售等多個領域,迄今已為全球 80 多個國家和地區的電信運營商、700 + 政企客戶提供全棧數智化產品技術服務。

「鯨智文檔大模型」 始於浩鯨科技 20 餘年的數據治理、知識沉澱能力積累,作為垂直領域模型,它從端到端解決場景需求的視角出發,結合了大小模型協作等思路,基於基礎大模型構建一套緊密配合的模型組合,主要分三個層面:

  • 底層,精準知識提取:通過標題提取、表格提取、版面分析等多種模型,精準捕捉文檔中的關鍵信息,確保內容的完整提取。同時,知識密度分類與語義壓縮模型的加入,進一步提升了知識提取的效率與質量。

    知識提取中,「標題提取模型」 是最為優先的。文檔標題可用於文檔知識塊拆分、知識塊召回等場景,可解決指代消歧等問題,具有重要作用,但在服務企業過程中,大部分文檔格式不規範,直接影響了知識問答成功率。「標題提取模型」 基於基礎大模型進行微調訓練,強化了標題識別能力,能夠用於從正文中識別標題,補全缺失標題等場景,可以解決企業文檔標題和目錄不規範,甚至標缺失的問題,有效提升了成功率。

  • 中間層,深度知識融合:在知識塊的基礎上,進行抽像總結與多模態數據關聯,將碎片化知識整合為系統化的知識體系,並映射至高維向量空間,為後續的知識推理奠定堅實基礎。浩鯨科技積累的的主要模型有:

    文本總結模型:生成短文本摘要,為知識萃取提供支持;

    文本向量模型:提供更加準確的文本特徵提取能力,為知識的召回提供保障;

    界面識別模型:圖片特徵提取模型,支持圖文向量對齊;

    文本重排模型:對多模態,多路徑召回的文本內容,進行重排序,進一步提升回答的準確率。

    其中,「界面識別模型」 強化了對用戶手冊中最常見軟件界面的支持,主要得益於很多用戶都喜歡使用截圖來對知識庫進行提問。該模型訓練數據提取自浩鯨科技研發雲平台,將軟件測試報告中的軟件界面圖片和內容來構建訓練集,並使用反轉、隨機截取、變形、疊加反光等手段擴增圖片庫,實現了一個支持軟件界面匹配的圖片識別模型,解決了現有大模型在軟件界面識別方面效果一般的問題。該模型的應用顯著提升了圖片搜索的準確率,文本檢索圖片召回成功率提升 25%,圖片檢索圖片召回成功率提升 40%。

  • 上層,智能知識推理:構建了知識問答模型和 BPO 優化模型。面向知識問答任務場景,構建了針對場景優化的問答模型,強化根據參考知識信息進行精準回答,減少幻覺。另外一方面通過優化用戶的輸入提示(prompt)來提高模型輸出與人類偏好的對齊程度,提升問答的準確性。

DocChain:文檔處理的智慧引擎

為深度賦能企業用戶,浩鯨科技依託先進的鯨智文檔大模型,匠心打造了多模態文檔工具鏈 ——DocChain。該產品不僅實現了企業文檔向寶貴知識資產的轉化,更構建了一個集文檔知識精準提取、高效檢索與智能問答對話於一體的大模型知識服務平台。DocChain 以其卓越的多模態處理能力、廣泛的文檔格式兼容性和極致的性能優化,成為企業文檔處理領域的得力助手。

  • 智能提取,精準高效:集成前沿 NLP 算法與模型,實現文檔處理速度與精度的雙重飛躍。抽取精度高達 98%,問答響應準確率超越 80%,讓信息獲取更加智能、便捷。

  • 格式兼容,全面廣泛:擁抱多樣化文檔生態,支持超過 30 種文件格式,特別兼容 OFD 等國產信創標準,確保各類文檔無縫接入,處理高效且精準,滿足企業多樣化需求。

  • 多模態處理,深度解析:深度解析文檔內容,無論是文本、目錄、圖片、表格、鏈接還是頁碼,均能精準拆分與提取。支持多元模態檢索,無論是文找文、文找圖,還是圖找圖,均能遊刃有餘。

一體機:解決企業私域場景下低成本上線大模型的訴求

浩鯨科技為解決客戶落地大模型過程中算力硬件缺乏、技術人員少、安全要求高等難題,同時推出了文檔大模型軟硬件一體機。一體機內置了高性能算力,並且預裝了大模型以及 DocChain 應用,可為企業快速部署和驗證智慧文檔處理服務。

從部署上來說,文檔大模型一體機具備開箱即用、數據安全可控、性能無憂、快速集成等幾個特點,專為輕量級場景設計,私有化部署解決企業隱私保護、數據安全等痛點,低成本實現企業內部大模型快速上線,覆蓋通用知識檢索、文檔問答、服務支撐及品牌宣傳等,可幫助企業迅速構建專屬大模型問答系統。

隨著基礎大模型的發展,以及模型增量訓練的知識衝突問題日益凸顯,RAG 逐漸成為企業智能知識庫的標準解決方案,然而知識召回的準確率和完整性成為了影響問答效果的關鍵因素。

鯨智文檔大模型,借鑒了 「大模型 + 小模型」 的思路,基於基座大模型構建了一套大小模型的組合,形成了一套垂直大模型,可以端到端實現垂直應用場景的需求。當前,鯨智文檔大模型在多模態識別、檢索和精準召回上做了很多的嘗試,也取得了一定的成果。

AI 大模型的迅速發展,讓企業沉澱的大量文檔的知識理解和處理帶來了轉機,浩鯨科技正通過持續的技術創新與產品優化,推動大模型技術與企業領域知識深度融合,實現企業文檔向有價值的資產轉化,為企業創造更多價值。