Meta AI 推出新一代SAM 2 可實時在圖像或影片中識別出特定對象並進行跟蹤

Meta AI 宣佈推出新一代的Segment Anything Model (SAM) 2,能夠在影片和圖像中實現實時的可提示對象分割。

SAM 2可以快速、精確地在任何影片或圖像中選擇對象。它不僅能在圖像中分割對象,還能在影片中追蹤對象,即使這些對像在訓練時從未見過。該模型支持實時互動,非常適合各種實際應用,比如影片編輯和互動式媒體內容製作。

  • 對象分割

    • 它可以在圖像或影片中識別出一個特定對象,並將該對象的像素與背景區分開來。例如,在一張包含多個物體的圖片中,模型可以準確地找出並標記出某一個物體的輪廓。

    實時性

    • 模型能夠在影片播放的過程中快速處理每一幀,立即識別並分割、跟蹤出特定對象。這樣可以實現如影片編輯、特效製作等需要快速反饋的應用。

    可提示

    • 是模型可以根據用戶提供的提示(如點擊某個物體、框選某個區域等)來進行分割。這種交互方式使得用戶可以更精確地控制哪些對象需要被分割。

    功能特點:

    統一的圖像和影片分割模型

    • SAM 2是一個統一的模型,既可以處理圖像分割任務,也可以處理影片分割任務。這意味著它能夠在不同類型的視覺數據中實現對象分割,而無需為每種類型單獨訓練模型。

    實時對象分割

    • SAM 2具有實時處理能力,能夠快速處理影片幀和圖像,實時分割出目標對象。這對需要即時反饋的應用場景非常重要,例如影片編輯和實時監控。

    可提示對象分割

    • SAM 2支持用戶通過提示(如點擊、框選等)來指定要分割的對象。這種交互方式使得用戶可以更精確地控制分割過程,提升分割結果的準確性。

    零樣本泛化能力

    • SAM 2能夠分割未見過的對象和視覺域(零樣本泛化),這意味著它可以在沒有特定訓練數據的情況下處理新的視覺內容。這使得SAM 2在多種實際應用中具有廣泛的適用性。

    多對象選擇和調整

    • SAM 2能夠分割未見過的對象和視覺域(零樣本泛化),這意味著它可以在沒有特定訓練數據的情況下處理新的視覺內容。這使得SAM 2在多種實際應用中具有廣泛的適用性。

    影片追蹤能力

    • SAM 2通過每個會話的內存模塊跟蹤影片中的目標對象,

      即使對象暫時消失在視野中,模型也能通過之前幀的上下文保持對對象的瞭解。

    高效的人機交互

    • SAM 2在影片分割任務中需要的交互時間約為之前模型的三分之一,大大提高了效率。這在需要大量數據標註的任務中尤為重要,能夠顯著減少人工標註時間。

    先進的內存機制

    • SAM 2引入了內存編碼器、內存庫和內存注意模塊,這些組件允許模型記住之前處理過的信息,使得在影片分割過程中能夠保持對象的一致性和準確性。

    開放源碼和數據集

    • Meta公司開源了SAM 2的代碼和模型權重,並提供了包含約51,000個影片和超過600,000個時空掩碼的SA-V數據集。這些資源在Apache 2.0和CC BY 4.0許可證下開放,供研究社區和開發者使用。

    模型性能

    高精度的圖像和影片分割

    • SAM 2在圖像分割的準確性上超過了之前的版本,並且在影片分割性能上也優於現有的模型。這使得它能夠在各種複雜的視覺場景中保持高精度的分割結果。

    實時推理速度

    • SAM 2的推理速度大約為每秒44幀,確保了在實際應用中能夠實時處理影片數據。這對於需要快速反饋的應用場景,如影片編輯和實時監控,尤為重要。

    減少交互時間

    • SAM 2需要的人工交互時間大約是之前模型的三分之一。這顯著提高了標註效率,特別是在需要大量數據註釋的任務中,可以大幅減少人工標註的工作量。

    零樣本泛化能力

    • SAM 2具備強大的零樣本泛化能力,能夠在沒有特定訓練數據的情況下處理未見過的對象和視覺域。這意味著它可以在各種新的視覺內容中表現出色,而無需進行額外的模型訓練或調整。

    多數據集表現優異

    • SAM 2在17個零樣本影片數據集上顯著優於之前的交互影片分割方法,並且在人機交互次數上減少了約三倍。
    • 在23個圖像數據集的零樣本基準測試中,SAM 2的性能也顯著超過了SAM,同時處理速度提高了六倍。

    先進的模型架構

    • SAM 2引入了內存機制,包括內存編碼器、內存庫和內存注意模塊,這些組件使得模型能夠記住之前處理的信息,從而在影片分割過程中保持一致性和準確性。

    公平性評估

    • 對於模型的公平性評估顯示,SAM 2在不同性別和年齡組的性能差異最小,確保了模型在各種人口統計學特徵中的表現一致。

    改進的對象跟蹤

    • SAM 2在影片中能夠準確跟蹤對象,避免了過度分割的問題。例如,在跟蹤一個人穿的T恤時,SAM 2能夠保持對T恤的準確跟蹤,而不會錯誤地包括人的頭部。

    性能指標

    • 影片幀處理速度:44幀每秒
    • 交互時間減少:交互時間減少至原來的三分之一
    • 人機交互效率:在影片分割註釋中,SAM 2比手動每幀註釋快8.4倍
    • 模型公平性:在不同性別和年齡組中的性能差異最小

    模型開發

    1. 任務設計

    可提示的視覺分割任務

    • 任務定義:擴展圖像分割任務到影片分割。圖像分割是識別圖像中目標對象的像素,影片分割則是識別並追蹤影片中目標對象的像素變化。
    • 提示輸入:SAM 2 能接受多種提示形式,如點、框或掩碼。這些提示幫助模型在圖像或影片幀中定義目標對象。
    • 時空掩碼(Masklet):在影片分割中,模型不僅在當前幀生成掩碼,還會將該掩碼傳播到影片的其他幀,生成一個時空掩碼。

    2. 模型開發

    統一的架構設計

    • 圖像編碼器:處理每一幀圖像,生成嵌入表示,用於後續的分割任務。
    • 輕量級掩碼解碼器:從圖像嵌入和提示中輸出分割掩碼。對於影片,掩碼解碼器還需要處理跨幀的信息。
    • 內存機制:包括內存編碼器、內存庫和內存注意模塊,這些組件允許模型記住之前處理的信息,並在影片分割過程中使用這些信息保持對象的一致性。
    • 內存編碼器:根據當前掩碼預測生成記憶,並存儲在內存庫中。
    • 內存庫:存儲之前幀和提示幀的記憶。
    • 內存注意模塊:從內存庫中提取相關記憶,結合當前幀的嵌入,生成新的掩碼預測。

    3. 數據集構建

    SA-V數據集

    • 數據收集:從47個國家收集51,000個真實世界的影片,覆蓋多種地理和場景。
    • 標註方法:使用互動模型循環與人工標註相結合的方法。標註人員使用SAM 2進行互動標註,生成初始掩碼數據,模型根據這些數據進行更新,逐步提升標註效率和質量。
    • 數據多樣性:確保數據集覆蓋各種對象及其部分(例如人的衣服、鞋子等),並處理遮擋、消失等複雜情況。

    4. 訓練過程

    聯合訓練

    • 數據準備:使用SA-1B圖像數據集(來自之前的Segment Anything項目)、SA-V影片數據集和內部許可的影片數據集。
    • 訓練策略:將圖像視為單幀影片,統一進行訓練。這樣可以利用圖像數據的豐富細節和影片數據的時序信息。
    • 優化目標:通過聯合訓練,提升模型在圖像和影片中的分割性能。

    5. 模型評估與優化

    性能評估

    • 基準測試:在17個零樣本影片數據集和23個圖像數據集上進行評估,驗證模型在不同任務中的性能。
    • 公平性評估:評估模型在不同性別和年齡組中的表現,確保性能一致。

    模型優化

    • 交互效率:通過減少交互次數,提高標註效率。與SAM相比,SAM 2在影片分割任務中交互時間減少了三倍。
    • 處理能力:實時處理影片幀,每秒44幀,確保實際應用中的高效性。

    應用場景

    SAM 2 的廣泛應用場景涵蓋多個領域,從影片編輯到自動駕駛,再到科學研究和創意應用,以下是一些詳細的應用場景:

    1. 影片編輯和特效製作

    • 實時對象分割:SAM 2 能夠在影片中實時分割和跟蹤對象,為影片編輯提供高效工具。編輯人員可以快速分割出影片中的特定對象,並應用各種特效,例如背景替換、對象變換等。
    • 創意效果

      :使用 SAM 2 的分割結果,可以創建新的影片效果,例如對象的虛化、變形或增強,為內容創作者提供更大的創作自由度。

    2. 自動駕駛和機器人技術

    • 環境感知:在自動駕駛和機器人技術中,實時分割和識別周圍環境中的各種對象(如行人、車輛、障礙物等)對於導航和決策至關重要。SAM 2 的高精度和實時性使其能夠在動態環境中有效工作。
    • 數據註釋:自動駕駛系統依賴大量標註數據進行訓練。SAM 2 可以顯著加快數據標註過程,提高標註效率,減少人工成本。

    3. 醫學研究和醫療應用

    • 顯微鏡影片分析:在顯微鏡影片中,SAM 2 可以分割和追蹤細胞、組織等微小結構,輔助科學研究和醫學診斷。例如,在癌症研究中,可以精確定位和分析癌細胞的行為。
    • 手術輔助:在內窺鏡或腹腔鏡手術中,SAM 2 可以實時分割和標記重要的解剖結構,幫助外科醫生更精確地進行操作。

    4. 科學研究和環境保護

      • 動物行為研究:通過在影片中分割和追蹤動物,研究人員可以詳細分析動物的行為模式和運動軌跡。這對於生態學和行為學研究具有重要意義。
      • 環境監測

        :使用無人機或衛星影片,SAM 2 可以實時分割和監測自然環境中的變化,例如森林火災、洪水等,為環境保護和災害管理提供關鍵數據。

      5. 安全與監控

          • 實時監控:在安全監控系統中,SAM 2 能夠實時分割和跟蹤影片中的可疑對象,提高監控效率和準確性。例如,在公共場所監控中,可以快速識別和跟蹤潛在的安全威脅。
          • 影片分析:通過分析監控影片,SAM 2 可以提取關鍵對象和事件,為執法部門提供有力的支持。

          6. 內容創建與娛樂

              • 虛擬現實和增強現實:在虛擬現實(VR)和增強現實(AR)應用中,SAM 2 可以實時分割和處理影片中的對象,增強用戶體驗。例如,AR 應用可以將虛擬對象精確疊加到現實場景中。
              • 遊戲開發:遊戲開發者可以使用 SAM 2 創建更加逼真的遊戲環境和角色交互,提高遊戲的視覺效果和沉浸感。
                未來,SAM 2 可以作為大型人工智能系統的一部分,通過 AR 眼鏡識別日常用品,並向用戶發出提醒和指示。

                未來,SAM 2 可以作為大型人工智能系統的一部分,通過 AR 眼鏡識別日常用品,並向用戶發出提醒和指示。

              7. 教育與培訓

                  • 教育影片製作:在教育領域,SAM 2 可以用於製作高質量的教育影片,實時分割和標註教學內容,幫助學生更好地理解複雜概念。
                  • 培訓模擬:在專業培訓中,SAM 2 可以用於創建模擬環境,例如醫學培訓中的手術模擬,提供更直觀的學習體驗。