NVIDIA 推出的 AI Blueprint:可以幫你觀看數小時的影片並提供摘要總結和問答
NVIDIA 推出的 AI Blueprint , 這是一套用於構建視覺AI代理的框架,幫助開發者構建影片理解和摘要功能的解決方案。
AI Blueprint利用生成式AI、視覺語言模型(VLM)和大語言模型(LLM)實現對長影片的搜索、問答和實時事件檢測等功能。
通過這個 Blueprint,用戶可以輕鬆構建影片搜索和摘要智能體,利用 AI 技術生成對超長影片內容的概述、回答問題以及檢測實時事件。
如何實現影片摘要:
- 影片分段:Blueprint 將長影片自動分成小片段,確保每個片段都能準確捕捉到關鍵內容。
- 片段分析:每個片段會由視覺語言模型進行分析,生成詳細的文字描述或標籤,記錄影片中的事件、物體和動作。
- 內容彙總:這些片段描述隨後會通過大語言模型彙總,去除重覆信息,生成一個全面而簡潔的摘要。
適用場景:
比如,你有幾個小時的監控影片或會議錄像,Blueprint 可以幫助快速總結其中的主要事件、關鍵對話和重要時刻,而不需要你逐幀觀看。
這使得 Blueprint 特別適合用於需要監控和回顧長時間影片的場景,如安全監控、教育影片回顧和客戶服務記錄等。
主要功能介紹
-
影片摘要生成
- 上傳影片後,系統自動生成內容摘要。用戶可以使用自定義的提示語,告訴系統需要關注哪些對象、事件或動作,從而生成更加精確的摘要。
- 配置選項包括:
- 片段長度(chunk duration):影片分割的每段長度。片段越小,描述越精細,但處理時間會增加。
- 片段重疊(chunk overlap):增加片段之間的重疊區域,以確保影片中的重要事件不會被遺漏。
-
互動式問答
- 系統會構建一個知識圖譜,可以支持用戶在影片分析完成後進行自然語言問答。例如,用戶可以詢問「某物體什麼時候出現在畫面中?」系統會基於知識圖譜提供答案。
- 這個功能使得用戶無需逐幀瀏覽影片,便可快速找到關鍵信息。
-
實時流媒體監控與警報
- 在處理實時影片流時,系統允許用戶設置警報規則。例如,可以設置攝像頭監控森林區域,並在檢測到動物或火災時發出警報。
- 用戶可以用自然語言定義警報條件,系統實時監控影片流,一旦滿足條件便會發送通知。
NVIDIA AI Blueprint 的核心組件
-
影片流處理器(Stream Handler)
- 將長影片或實時影片分割為較小的片段,每個片段的長度可配置。
- 使用 NVIDIA 的 VLM(視覺語言模型)分析每個影片片段並生成高密度的描述。這一過程通過 GPU 加速,提升了處理效率。
-
視覺語言模型(VLM)與 CA-RAG 模塊
- VLM 管道:VLM 用於處理影片片段,生成關於每個片段的詳細描述。這個過程包含對影片幀的采樣、解碼和描述生成。
- CA-RAG(上下文感知檢索增強生成):將所有片段描述聚合成一個完整的摘要。CA-RAG 幫助提升摘要的準確性,使整個影片的內容更加連貫和完整。
-
知識圖譜與 Graph-RAG 模塊
- 知識圖譜會將影片內容中的信息轉化為「節點」和「邊」的形式,存儲在圖數據庫中。
- 通過 Graph-RAG 技術,智能體可以理解影片中複雜的事件關係,使問答和實時檢測更加準確。例如,系統可以追蹤影片中的某一物體或事件的完整發展過程。
工作流程概覽
簡單來說,Blueprint 將長影片分成多個小片段,通過視覺語言模型(VLM)逐一分析片段內容,再由大語言模型(LLM)將這些片段的描述彙總成簡明扼要的總結。
-
影片處理與分析
- 系統首先將影片文件或實時影片流分成多個小片段,每個片段會獨立處理,生成密集描述(例如,場景中的物體、人物或事件等)。
- 對於長影片,系統採用滑動窗口的方式,確保每個片段都覆蓋到關鍵內容。
-
數據聚合與摘要生成
- 在片段分析完成後,CA-RAG 模塊將所有片段的描述整合生成一個總結,確保影片摘要連貫準確。
- 用戶可以選擇合適的摘要長度和細節級別,根據需求調整摘要的精細程度。
-
知識圖譜構建
- 系統將影片描述信息以節點和邊的形式存儲在圖數據庫中,建立知識圖譜。這種結構化信息可以幫助系統進行複雜問答和關係追蹤。
- Graph-RAG 模塊允許系統在用戶提出問題時查詢知識圖譜,為互動式問答提供準確答案。
應用場景和優勢
- 工業監控:在工廠、倉庫等場景中,NVIDIA AI Blueprint 可幫助監控設備狀態,檢測潛在風險。
- 交通監控:在交通樞紐或交叉路口,系統可以檢測異常事件,幫助管理交通流量。
- 安全監控:在保安場景下,系統可以監測實時影片流,及時發出安全警報,提升安防能力。
開發者支持與集成方式
NVIDIA AI Blueprint 提供 REST API,可以輕鬆集成到現有應用中。API 支持摘要、問答、實時警報等功能,用戶可以根據需求進行配置。參考 UI 也提供快速實驗環境,便於開發者調整各項配置。
總體而言,NVIDIA AI Blueprint 通過整合 VLM、LLM 和知識圖譜技術,幫助企業用戶高效提取影片中的關鍵信息,在多個行業中實現更智能的影片分析和自動化監控。
官方介紹:https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint
在線體驗:https://build.nvidia.com/nvidia/video-search-and-summarization