Meta公佈黑科技:戴上腕帶即可隔空打字,引領神經接口AR革命
新智元報導
編輯:peter東 祖楊
【新智元導讀】只需要在手腕上戴一個腕帶,就能夠實現隔空打字。Meta近期推出的開源表面肌電圖(sEMG)數據集,可進行姿態估計和表麵類型識別,推動神經運動接口發展。
每一個新的計算平台都帶來了我們與設備互動方式的範式轉變。鼠標的發明為今天主導PC世界的圖形用戶界面(GUIs)鋪平了道路,而智能手機直到觸摸屏的出現才開始真正獲得影響力。
同樣的規則也適用於可穿戴設備和AR,想像一下,在晨跑時只需輕輕一觸指尖就能拍照,或者用幾乎察覺不到的手部動作來導航菜單。
AR時代革新人機交互
在Connect 2024大會上,Meta展示了EMG腕帶與Orion增強現實眼鏡的產品原型。這兩大神器疊加在一起,科幻電影中才會出現的「隔空打字」場景或許即將實現。
戴上這樣一個腕帶,你讓雙手舒適地放在身側,同時進行鼠標的滑動、點擊和滾動等操作,無縫控制數字內容。
未來還將有許多其他應用場景,包括在增強現實中操縱物體,或者像在鍵盤上打字一樣——甚至更快,快速輸入完整信息,幾乎無需費力。
在近日的NeurIPS 2024 的「數據集和基」子會場中,Meta發佈了兩個數據集——emg2qwerty 和 emg2pose,展示在硬件層面僅僅依靠腕帶的情況下,如何產生比細微手勢更豐富的輸入數據集。
用於隔空打字的數據集emg2qwerty
表面肌電圖(sEMG)是在皮膚表面測量由肌肉產生的電勢,它能夠檢測到由單個運動神經元引起的活動,同時是非侵入性的。
具體來說,對於單個的脊髓運動神經元,其細胞體位於脊髓中,向肌纖維中投射一條長軸突,每條肌纖維只被一個運動神經元支配。
脊髓運動神經元放電時,就會觸發它支配的所有肌纖維收縮,同時放大了來自神經元的電脈衝。正是這些來自肌纖維的電信號,可被皮膚上的sEMG傳感器檢測到。
基於腕帶的打字系統旨在解決可穿戴設備的文本輸入問題,實現無需物理鍵盤的觸摸打字。
僅使用手腕上檢測到的肌肉電信號,系統將可自動解碼並對應至虛擬現實中投影的計算機鍵盤按鍵。
這意味著,用戶未來可以在沒有物理鍵盤的情況下,無論在桌子上、腿上還是廚房桌子上打字,都能如同在實際鍵盤上一樣輸入。
一個針對提示「the quick brown fox」的表面肌電圖(sEMG)記錄示例,顯示左右腕帶上32通道的表面肌電圖信號和按鍵時間;垂直線表示按鍵開始,每個電極通道的信號經過高通濾波
emg2qwerty數據集包括從兩隻手腕獲取的高解像度sEMG 信號,與QWERTY 鍵盤的真實按鍵同步。該數據集總計包含108名參與者完成的、涵蓋廣泛單字和句子打字提示的346小時記錄,共計超過520萬次按鍵。
如何僅通過表面肌電圖數據中檢測到用戶按了哪個鍵呢?為瞭解決這個核心問題,Meta開發了受自動語音識別(ASR)領域啟發的方法。
該方法同樣模擬了給定連續多通道時間序列下,預測離散字符輸出序列的任務。為了給emg2qwerty構建強大的基線,Meta嘗試了新穎的網絡架構、不同的訓練損失以及語言模型的使用,始終關注表面肌電圖數據的獨特領域特徵要求。
研究發現,在100個用戶的規模上,儘管生理、解剖、行為、帶寬大小和傳感器放置存在差異,用戶間的泛化仍然可出現。
當使用大約半小時的個體用戶打字數據來個性化模型時,性能的進一步提升隨之而來。通過整合語言模型來優化結果,可將字符錯誤率降至 10%以下——這個值被認為是一個使文本模型可用的關鍵閾值。
隨著數據集的增加,類似語言模型中的Scaling Law將會生效,從而使得對用戶輸入的預測更加準確。
emg2pose姿態估計:可完全預測用戶的手部配置
另一個名為emg2pose的數據集,旨在解決肌電信號與手部運動之間的映射問題,這對於人機交互、康復工程和虛擬現實等領域具有重要意義。
該數據集包含來自193名參與者的370小時sEMG和手部姿態數據,從29個不同的行為組中採集,包括拳頭、從一數到五等眾多動作。
數據集包含25253個HDF5文件,合計達到431GB。每個文件包含時間對齊的2kHz表面肌電圖數據和單手在單一階段的關節角度。
手部姿態標籤是通過高解像度動作捕捉陣列生成的。完整數據集包含超過8000萬個姿態標籤,其等效規模已經可以與最大的計算機視覺數據集比肩。
emg2pose數據集組成:a)sEMG-RD腕帶和動作捕捉標記(白色圓點)設置 b) 數據集分解;i)用戶被提示執行一系列動作類型(手勢),如上下計數,同時記錄 sEMG 和姿態 ii) 特定手勢類型的組合構成一個階段
emg2pose數據集的主要特點在於其高頻率的表面肌電圖記錄(2kHz)與精確的動作捕捉數據相結合,提供了對手部細微運動的深入洞察。
此外,數據集包含詳細的元數據,如用戶ID、會話、階段、手部側向、是否移動等,便於進行多樣化的分析和實驗。數據集還提供了訓練、測試和驗證的劃分,支持多種泛化類型的研究,包括跨用戶、跨階段以及跨用戶和階段的泛化。
在基準測試中,emg2pose還提供了具有競爭力的基線和具有挑戰性的任務,這些任務評估了在排除用戶、傳感器放置和手勢姿態方面的物理世界泛化場景。
該研究還介紹了一種新的最先進模型,用於從表面肌電圖進行姿態估計的 vemg2pose模型,通過整合對姿態速度的預測來重建手勢姿態。
研究人員將emg2pose以及另外兩種當代基線用於sEMG的姿態估計,並分析了它們在泛化條件下的性能。結果顯示:emg2pose模型在對不同用戶的數據集進行預測時,僅顯示1釐米誤差,從而在廣泛的運動範圍內實現了高保真跟蹤。
emg2pose不僅提升了動作識別的準確性,還為手勢控制、康復治療等有潛在的應用可能。
-
在醫療康復領域,通過分析患者的sEMG信號,可以實時監測和評估手部功能的恢復情況,為個性化康復方案的製定提供科學依據;
-
在人機交互領域,該數據集支持開發更加自然和精準的手勢控制系統,提升用戶體驗;
-
此外,emg2pose還可應用於虛擬現實和增強現實技術中,實現更加逼真的手部動作捕捉和交互。
參考資料:
https://x.com/perlinwarp/status/1864745303796257236