NVIDIA 推出的 AI Blueprint:可以幫你觀看數小時的影片並提供摘要總結和問答

NVIDIA 推出的 AI Blueprint , 這是一套用於構建視覺AI代理的框架,幫助開發者構建影片理解和摘要功能的解決方案。

AI Blueprint利用生成式AI、視覺語言模型(VLM)和大語言模型(LLM)實現對長影片的搜索、問答和實時事件檢測等功能。

通過這個 Blueprint,用戶可以輕鬆構建影片搜索和摘要智能體,利用 AI 技術生成對超長影片內容的概述、回答問題以及檢測實時事件。

如何實現影片摘要:

  1. 影片分段:Blueprint 將長影片自動分成小片段,確保每個片段都能準確捕捉到關鍵內容。
  2. 片段分析:每個片段會由視覺語言模型進行分析,生成詳細的文字描述或標籤,記錄影片中的事件、物體和動作。
  3. 內容彙總:這些片段描述隨後會通過大語言模型彙總,去除重覆信息,生成一個全面而簡潔的摘要。

適用場景:

比如,你有幾個小時的監控影片或會議錄像,Blueprint 可以幫助快速總結其中的主要事件、關鍵對話和重要時刻,而不需要你逐幀觀看。

這使得 Blueprint 特別適合用於需要監控和回顧長時間影片的場景,如安全監控、教育影片回顧和客戶服務記錄等。

主要功能介紹

  1. 影片摘要生成

    • 上傳影片後,系統自動生成內容摘要。用戶可以使用自定義的提示語,告訴系統需要關注哪些對象、事件或動作,從而生成更加精確的摘要。
    • 配置選項包括:
      • 片段長度(chunk duration):影片分割的每段長度。片段越小,描述越精細,但處理時間會增加。
      • 片段重疊(chunk overlap):增加片段之間的重疊區域,以確保影片中的重要事件不會被遺漏。
  2. 互動式問答

    • 系統會構建一個知識圖譜,可以支持用戶在影片分析完成後進行自然語言問答。例如,用戶可以詢問「某物體什麼時候出現在畫面中?」系統會基於知識圖譜提供答案。
    • 這個功能使得用戶無需逐幀瀏覽影片,便可快速找到關鍵信息。
  3. 實時流媒體監控與警報

    • 在處理實時影片流時,系統允許用戶設置警報規則。例如,可以設置攝像頭監控森林區域,並在檢測到動物或火災時發出警報。
    • 用戶可以用自然語言定義警報條件,系統實時監控影片流,一旦滿足條件便會發送通知。

NVIDIA AI Blueprint 的核心組件

  1. 影片流處理器(Stream Handler)

    • 將長影片或實時影片分割為較小的片段,每個片段的長度可配置。
    • 使用 NVIDIA 的 VLM(視覺語言模型)分析每個影片片段並生成高密度的描述。這一過程通過 GPU 加速,提升了處理效率。
  2. 視覺語言模型(VLM)與 CA-RAG 模塊

    • VLM 管道:VLM 用於處理影片片段,生成關於每個片段的詳細描述。這個過程包含對影片幀的采樣、解碼和描述生成。
    • CA-RAG(上下文感知檢索增強生成):將所有片段描述聚合成一個完整的摘要。CA-RAG 幫助提升摘要的準確性,使整個影片的內容更加連貫和完整。
  3. 知識圖譜與 Graph-RAG 模塊

    • 知識圖譜會將影片內容中的信息轉化為「節點」和「邊」的形式,存儲在圖數據庫中。
    • 通過 Graph-RAG 技術,智能體可以理解影片中複雜的事件關係,使問答和實時檢測更加準確。例如,系統可以追蹤影片中的某一物體或事件的完整發展過程。

工作流程概覽

簡單來說,Blueprint 將長影片分成多個小片段,通過視覺語言模型(VLM)逐一分析片段內容,再由大語言模型(LLM)將這些片段的描述彙總成簡明扼要的總結。

  1. 影片處理與分析

    • 系統首先將影片文件或實時影片流分成多個小片段,每個片段會獨立處理,生成密集描述(例如,場景中的物體、人物或事件等)。
    • 對於長影片,系統採用滑動窗口的方式,確保每個片段都覆蓋到關鍵內容。
  2. 數據聚合與摘要生成

    • 在片段分析完成後,CA-RAG 模塊將所有片段的描述整合生成一個總結,確保影片摘要連貫準確。
    • 用戶可以選擇合適的摘要長度和細節級別,根據需求調整摘要的精細程度。
  3. 知識圖譜構建

    • 系統將影片描述信息以節點和邊的形式存儲在圖數據庫中,建立知識圖譜。這種結構化信息可以幫助系統進行複雜問答和關係追蹤。
    • Graph-RAG 模塊允許系統在用戶提出問題時查詢知識圖譜,為互動式問答提供準確答案。

應用場景和優勢

  1. 工業監控:在工廠、倉庫等場景中,NVIDIA AI Blueprint 可幫助監控設備狀態,檢測潛在風險。
  2. 交通監控:在交通樞紐或交叉路口,系統可以檢測異常事件,幫助管理交通流量。
  3. 安全監控:在保安場景下,系統可以監測實時影片流,及時發出安全警報,提升安防能力。

開發者支持與集成方式

NVIDIA AI Blueprint 提供 REST API,可以輕鬆集成到現有應用中。API 支持摘要、問答、實時警報等功能,用戶可以根據需求進行配置。參考 UI 也提供快速實驗環境,便於開發者調整各項配置。

總體而言,NVIDIA AI Blueprint 通過整合 VLM、LLM 和知識圖譜技術,幫助企業用戶高效提取影片中的關鍵信息,在多個行業中實現更智能的影片分析和自動化監控。

官方介紹:https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint

在線體驗:https://build.nvidia.com/nvidia/video-search-and-summarization