Meta AI 推出新一代SAM 2 可實時在圖像或影片中識別出特定對象並進行跟蹤

07月30日 10:08 新浪網 news-china-auto-hilite

Meta AI 宣佈推出新一代的Segment Anything Model (SAM) 2，能夠在影片和圖像中實現實時的可提示對象分割。

SAM 2可以快速、精確地在任何影片或圖像中選擇對象。它不僅能在圖像中分割對象，還能在影片中追蹤對象，即使這些對像在訓練時從未見過。該模型支持實時互動，非常適合各種實際應用，比如影片編輯和互動式媒體內容製作。

對象分割
- 它可以在圖像或影片中識別出一個特定對象，並將該對象的像素與背景區分開來。例如，在一張包含多個物體的圖片中，模型可以準確地找出並標記出某一個物體的輪廓。
實時性
- 模型能夠在影片播放的過程中快速處理每一幀，立即識別並分割、跟蹤出特定對象。這樣可以實現如影片編輯、特效製作等需要快速反饋的應用。
可提示
- 是模型可以根據用戶提供的提示（如點擊某個物體、框選某個區域等）來進行分割。這種交互方式使得用戶可以更精確地控制哪些對象需要被分割。
功能特點：

統一的圖像和影片分割模型
- SAM 2是一個統一的模型，既可以處理圖像分割任務，也可以處理影片分割任務。這意味著它能夠在不同類型的視覺數據中實現對象分割，而無需為每種類型單獨訓練模型。
實時對象分割
- SAM 2具有實時處理能力，能夠快速處理影片幀和圖像，實時分割出目標對象。這對需要即時反饋的應用場景非常重要，例如影片編輯和實時監控。
可提示對象分割
- SAM 2支持用戶通過提示（如點擊、框選等）來指定要分割的對象。這種交互方式使得用戶可以更精確地控制分割過程，提升分割結果的準確性。
零樣本泛化能力
- SAM 2能夠分割未見過的對象和視覺域（零樣本泛化），這意味著它可以在沒有特定訓練數據的情況下處理新的視覺內容。這使得SAM 2在多種實際應用中具有廣泛的適用性。
多對象選擇和調整
- SAM 2能夠分割未見過的對象和視覺域（零樣本泛化），這意味著它可以在沒有特定訓練數據的情況下處理新的視覺內容。這使得SAM 2在多種實際應用中具有廣泛的適用性。
影片追蹤能力
- SAM 2通過每個會話的內存模塊跟蹤影片中的目標對象，
  即使對象暫時消失在視野中，模型也能通過之前幀的上下文保持對對象的瞭解。
高效的人機交互
- SAM 2在影片分割任務中需要的交互時間約為之前模型的三分之一，大大提高了效率。這在需要大量數據標註的任務中尤為重要，能夠顯著減少人工標註時間。
先進的內存機制
- SAM 2引入了內存編碼器、內存庫和內存注意模塊，這些組件允許模型記住之前處理過的信息，使得在影片分割過程中能夠保持對象的一致性和準確性。
開放源碼和數據集
- Meta公司開源了SAM 2的代碼和模型權重，並提供了包含約51,000個影片和超過600,000個時空掩碼的SA-V數據集。這些資源在Apache 2.0和CC BY 4.0許可證下開放，供研究社區和開發者使用。
模型性能

高精度的圖像和影片分割
- SAM 2在圖像分割的準確性上超過了之前的版本，並且在影片分割性能上也優於現有的模型。這使得它能夠在各種複雜的視覺場景中保持高精度的分割結果。
實時推理速度
- SAM 2的推理速度大約為每秒44幀，確保了在實際應用中能夠實時處理影片數據。這對於需要快速反饋的應用場景，如影片編輯和實時監控，尤為重要。
減少交互時間
- SAM 2需要的人工交互時間大約是之前模型的三分之一。這顯著提高了標註效率，特別是在需要大量數據註釋的任務中，可以大幅減少人工標註的工作量。
零樣本泛化能力
- SAM 2具備強大的零樣本泛化能力，能夠在沒有特定訓練數據的情況下處理未見過的對象和視覺域。這意味著它可以在各種新的視覺內容中表現出色，而無需進行額外的模型訓練或調整。
多數據集表現優異
- SAM 2在17個零樣本影片數據集上顯著優於之前的交互影片分割方法，並且在人機交互次數上減少了約三倍。
- 在23個圖像數據集的零樣本基準測試中，SAM 2的性能也顯著超過了SAM，同時處理速度提高了六倍。
先進的模型架構
- SAM 2引入了內存機制，包括內存編碼器、內存庫和內存注意模塊，這些組件使得模型能夠記住之前處理的信息，從而在影片分割過程中保持一致性和準確性。
公平性評估
- 對於模型的公平性評估顯示，SAM 2在不同性別和年齡組的性能差異最小，確保了模型在各種人口統計學特徵中的表現一致。
改進的對象跟蹤
- SAM 2在影片中能夠準確跟蹤對象，避免了過度分割的問題。例如，在跟蹤一個人穿的T恤時，SAM 2能夠保持對T恤的準確跟蹤，而不會錯誤地包括人的頭部。
性能指標
- 影片幀處理速度：44幀每秒
- 交互時間減少：交互時間減少至原來的三分之一
- 人機交互效率：在影片分割註釋中，SAM 2比手動每幀註釋快8.4倍
- 模型公平性：在不同性別和年齡組中的性能差異最小
模型開發

1. 任務設計

可提示的視覺分割任務：
- 任務定義：擴展圖像分割任務到影片分割。圖像分割是識別圖像中目標對象的像素，影片分割則是識別並追蹤影片中目標對象的像素變化。
- 提示輸入：SAM 2 能接受多種提示形式，如點、框或掩碼。這些提示幫助模型在圖像或影片幀中定義目標對象。
- 時空掩碼（Masklet）：在影片分割中，模型不僅在當前幀生成掩碼，還會將該掩碼傳播到影片的其他幀，生成一個時空掩碼。
2. 模型開發

統一的架構設計：
- 圖像編碼器：處理每一幀圖像，生成嵌入表示，用於後續的分割任務。
- 輕量級掩碼解碼器：從圖像嵌入和提示中輸出分割掩碼。對於影片，掩碼解碼器還需要處理跨幀的信息。
- 內存機制：包括內存編碼器、內存庫和內存注意模塊，這些組件允許模型記住之前處理的信息，並在影片分割過程中使用這些信息保持對象的一致性。
- 內存編碼器：根據當前掩碼預測生成記憶，並存儲在內存庫中。
- 內存庫：存儲之前幀和提示幀的記憶。
- 內存注意模塊：從內存庫中提取相關記憶，結合當前幀的嵌入，生成新的掩碼預測。
3. 數據集構建

SA-V數據集：
- 數據收集：從47個國家收集51,000個真實世界的影片，覆蓋多種地理和場景。
- 標註方法：使用互動模型循環與人工標註相結合的方法。標註人員使用SAM 2進行互動標註，生成初始掩碼數據，模型根據這些數據進行更新，逐步提升標註效率和質量。
- 數據多樣性：確保數據集覆蓋各種對象及其部分（例如人的衣服、鞋子等），並處理遮擋、消失等複雜情況。
4. 訓練過程

聯合訓練：
- 數據準備：使用SA-1B圖像數據集（來自之前的Segment Anything項目）、SA-V影片數據集和內部許可的影片數據集。
- 訓練策略：將圖像視為單幀影片，統一進行訓練。這樣可以利用圖像數據的豐富細節和影片數據的時序信息。
- 優化目標：通過聯合訓練，提升模型在圖像和影片中的分割性能。
5. 模型評估與優化

性能評估：
- 基準測試：在17個零樣本影片數據集和23個圖像數據集上進行評估，驗證模型在不同任務中的性能。
- 公平性評估：評估模型在不同性別和年齡組中的表現，確保性能一致。
模型優化：
- 交互效率：通過減少交互次數，提高標註效率。與SAM相比，SAM 2在影片分割任務中交互時間減少了三倍。
- 處理能力：實時處理影片幀，每秒44幀，確保實際應用中的高效性。
應用場景

SAM 2 的廣泛應用場景涵蓋多個領域，從影片編輯到自動駕駛，再到科學研究和創意應用，以下是一些詳細的應用場景：

1. 影片編輯和特效製作
- 實時對象分割：SAM 2 能夠在影片中實時分割和跟蹤對象，為影片編輯提供高效工具。編輯人員可以快速分割出影片中的特定對象，並應用各種特效，例如背景替換、對象變換等。
- 創意效果
  
  ：使用 SAM 2 的分割結果，可以創建新的影片效果，例如對象的虛化、變形或增強，為內容創作者提供更大的創作自由度。
2. 自動駕駛和機器人技術
- 環境感知：在自動駕駛和機器人技術中，實時分割和識別周圍環境中的各種對象（如行人、車輛、障礙物等）對於導航和決策至關重要。SAM 2 的高精度和實時性使其能夠在動態環境中有效工作。
- 數據註釋：自動駕駛系統依賴大量標註數據進行訓練。SAM 2 可以顯著加快數據標註過程，提高標註效率，減少人工成本。
3. 醫學研究和醫療應用
- 顯微鏡影片分析：在顯微鏡影片中，SAM 2 可以分割和追蹤細胞、組織等微小結構，輔助科學研究和醫學診斷。例如，在癌症研究中，可以精確定位和分析癌細胞的行為。
- 手術輔助：在內窺鏡或腹腔鏡手術中，SAM 2 可以實時分割和標記重要的解剖結構，幫助外科醫生更精確地進行操作。
4. 科學研究和環境保護
- - 動物行為研究：通過在影片中分割和追蹤動物，研究人員可以詳細分析動物的行為模式和運動軌跡。這對於生態學和行為學研究具有重要意義。
  - 環境監測
    
    ：使用無人機或衛星影片，SAM 2 可以實時分割和監測自然環境中的變化，例如森林火災、洪水等，為環境保護和災害管理提供關鍵數據。
  5. 安全與監控
  - - - 實時監控：在安全監控系統中，SAM 2 能夠實時分割和跟蹤影片中的可疑對象，提高監控效率和準確性。例如，在公共場所監控中，可以快速識別和跟蹤潛在的安全威脅。
      - 影片分析：通過分析監控影片，SAM 2 可以提取關鍵對象和事件，為執法部門提供有力的支持。
      6. 內容創建與娛樂
      - 虛擬現實和增強現實：在虛擬現實（VR）和增強現實（AR）應用中，SAM 2 可以實時分割和處理影片中的對象，增強用戶體驗。例如，AR 應用可以將虛擬對象精確疊加到現實場景中。
        
        遊戲開發：遊戲開發者可以使用 SAM 2 創建更加逼真的遊戲環境和角色交互，提高遊戲的視覺效果和沉浸感。
        
        未來，SAM 2 可以作為大型人工智能系統的一部分，通過 AR 眼鏡識別日常用品，並向用戶發出提醒和指示。
        
        7. 教育與培訓
        
        教育影片製作：在教育領域，SAM 2 可以用於製作高質量的教育影片，實時分割和標註教學內容，幫助學生更好地理解複雜概念。
        
        培訓模擬：在專業培訓中，SAM 2 可以用於創建模擬環境，例如醫學培訓中的手術模擬，提供更直觀的學習體驗。