從爪蟾獲取靈感,科學家開發受類腦影片識別模型MovieNet,準確率超人眼

在人工智能領域,靜態圖像識別技術已經取得了長足進展,但對於動態影片場景的理解和處理仍然存在較大不足。

此前,我們介紹過,在李飛飛團隊的影片理解基準 HourVideo 中,即便是目前最先進的多模態模型,其測試正確率也只是比隨機猜測(20%)略好一點。

現有的 AI 模型難以像人腦那樣實時解讀和理解連續變化的視覺信息,這主要是因為它們缺乏對時序信息的有效處理能力。

因此,如果想要讓 AI 真正地與人類的生活環境和複雜情景相適應,我們或許需要對這一缺陷做出針對性的改進。

近日,美國 Scripps 研究所的科學家團隊,從大腦神經元處理視覺信息的機制中得到啟發,開發出一種名為 MovieNet 的 AI 模型,在影片理解任務上取得突破。

相關研究以《識別電影編碼神經元實現電影識別 AI》(Identification of movie encoding neurons enables movie recognition AI)為題發表在 PNAS(《美國國家科學院院刊》)上 [1]。

圖丨相關論文(來源:PNAS)圖丨相關論文(來源:PNAS

眾所周知,人工智能的進步深受神經科學的啟發。例如,經典的卷積神經網絡(CNN)借鑒了視覺皮層的層級處理結構,而強化學習算法則模仿了神經回路中獎勵機制的工作原理。

而 MovieNet 的核心創新同樣在於其受啟發於的大腦視覺處理機制。研究團隊以非洲爪蟾為模型,重點研究了其頂蓋(optic tectum)神經元的感受野(receptive field, RF)。

通過稀疏噪聲刺激和逆相關分析,他們記錄了神經元對 200 至 600 毫秒電影序列的響應,發現這些神經元能夠以一種獨特的方式編碼時間序列圖像。

圖丨視頂蓋細胞視覺響應特性隨時間而變化(來源:PNAS)圖丨視頂蓋細胞視覺響應特性隨時間而變化(來源:PNAS

研究顯示,視覺神經元的響應具有高度選擇性。當電影序列按照特定的「最佳順序」呈現時,神經元的反應最為強烈;而當序列被逆轉或隨機化時,反應顯著減弱。

這種選擇性不僅體現在單個神經元的反應中,還通過神經回路中的抑制機制進一步強化。

通過使用 GABA 受體拮抗劑(如呱可毒素),研究團隊發現,去除抑製作用後,神經元對逆序刺激的反應顯著增強,而對最佳順序的反應保持不變。

這表明,抑制機制是實現電影序列選擇性的重要因素,它通過抑制無關信息的傳播,使得神經網絡能夠聚焦於關鍵的序列信息。

此外,研究還揭示了神經元在編碼動態場景時的時序塑性。當環境中視覺刺激的時序特性發生變化時,神經元的 ON-OFF 響應規律能夠通過訓練進行調整,從而適應新的環境需求。

這種動態調整能力不僅是自然視覺系統的核心特性,也為 AI 的設計提供了重要啟發。

在上述研究的啟發下,研究團隊模仿神經元時空編碼規律開發了 MovieNet 模型。其核心在於其電影編碼器的設計,這些編碼器基於頂蓋神經元的感受野規則,將電影場景壓縮為高維特徵矩陣。

圖丨電影識別 AI 使用時空 RF 的神經元規則作為電影編碼器(來源:PNAS)圖丨電影識別 AI 使用時空 RF 的神經元規則作為電影編碼器(來源:PNAS

具體而言,每個編碼器模擬了神經元的 ON-OFF 響應規律,能夠捕捉電影中亮度的變化以及終止信號。這種設計不僅減少了數據的複雜性,還顯著優化了計算效率。

為了進一步提升識別能力,研究團隊引入了多重編碼器(multiplexed encoders)的概念。他們將多個具有不同感受野特性的編碼器組合在一起,以捕捉更廣泛的視覺信息。

這些編碼器的輸出被輸入到一個僅包含單層卷積神經網絡(CNN)的模型中,從而顯著簡化了傳統 AI 模型的複雜性。

在測試中,MovieNet 對動態場景的分類表現優異,尤其是在分類蝌蚪游泳行為的實驗中,其準確率達到了 82.3%,顯著超越傳統深度學習模型(如 AlexNet 和 GoogLeNet)的 40%-72%,也超過了訓練有素的人類觀察者 (64.5%)。

圖丨基於大腦的 AI 網絡可準確分類電影數據及其測試結果(來源:PNAS)圖丨基於大腦的 AI 網絡可準確分類電影數據及其測試結果(來源:PNAS

更重要的是,MovieNet 在計算效率方面也具有優勢。AlexNet 和 GoogLeNet 等傳統深度學習模型的網絡架構保護多層處理層和 CNN 結構,需要耗費巨大的計算資源。

即便在無限計算資源和時間的假設下,這些模型可能達到更高的準確率,但這一需求本身可能限制其在實際場景中的應用。

相比之下,MovieNet 通過模仿自然神經元的編碼策略,以更高效的方式解決了電影識別問題,體現了基於大腦算法的獨特優勢。

這種出色的識別能力,使其在醫療領域展現出巨大的應用潛力。例如,MovieNet 能夠捕捉蝌蚪在接觸不同化學物質時游泳模式的細微變化,這有望對藥物篩選技術進行改進。

傳統方法往往依賴靜態圖像的間隔捕獲,容易遺漏動態變化中的關鍵信息。而 MovieNet 能夠持續觀察和記錄動態細胞反應,從而追蹤藥物測試過程中最微小的變化。

此外,MovieNet 也有望成為一種診斷早期疾病的工具。例如,與帕金森症相關的微小運動變化往往難以被人眼捕捉,而 MovieNet 的高靈敏度算法可以提前標記這些變化,為臨床醫生提供寶貴的干預時間。

同樣地,該技術還可能用於心律不齊等疾病的早期檢測,為患者爭取更多治療窗口。這種實時捕捉和分類複雜動態模式的能力,展現了 MovieNet 在醫療診斷中的巨大潛力。

研究團隊的首席科學家 Hollis Cline 表示:「MovieNet 的成功不僅證明了生物啟髮式 AI 的可行性,更重要的是開創了一個新的研究方向。

通過深入理解生物神經系統的工作原理,我們可以開發出更智能、更高效的 AI 系統。這種方法不僅能夠提高 AI 的性能, 還能大幅降低能源消耗和計算資源需求。」

展望未來,研究團隊計劃進一步優化模型架構,提高處理效率,並探索更多應用場景。

他們特別關注醫療診斷領域的應用拓展,以及與其他 AI 技術的融合可能性。同時,團隊也將致力於研究更複雜的視覺認知任務,推動 AI 技術在影片理解領域的持續進步。

「從生物學中汲取靈感將繼續成為推動人工智能發展的沃土,」Cline 說。「通過設計像生物體一樣思考的模型,我們可以達到傳統方法無法實現的效率水平。」

參考資料:

1.https://www.pnas.org/doi/10.1073/pnas.2412260121#data-availability

2.https://neurosciencenews.com/brain-ai-video-watching-28218/

運營/排版:何晨龍