醫療具身智能發展到哪了?看這一篇綜述就夠了!

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

該論文的主要作者Yihao Liu, Xu Cao, Tingting Chen, Yankai Jiang, Junjie You, Minghua Wu, Xiaosong Wang, Mengling Feng, Yaochu Jin, Jintai Chen 分別自中南大學、香港科技大學(廣州)、上海AI Lab、西湖大學、賓夕法尼亞大學等團隊,在醫學人工智能領域有深入研究。

醫療健康領域在提升效率、資源可及性等方面始終面臨著諸多挑戰。隨著多模態大語言模型(MLLM)和世界模型(World model)等技術的不斷髮展,具身智能(Embodied AI)蓬勃發展,也驅動著醫療服務模式的深刻變革。醫療具身智能作為一個跨學科且快速發展的研究領域,涵蓋了 AI 算法、機器人技術和生物醫學等多個學科。為了更好地促進多學科之間的合作和發展,分析和總結醫療具身智能領域的最新進展和挑戰尤為重要。

近日,由港科廣、中南、西湖大學、UIUC、新加坡國立大學、上海 AI Lab、賓夕法尼亞大學等團隊聯合發佈的首篇聚焦醫療領域具身智能的綜述論文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上線,中南大學劉藝灝為第一作者,通訊作者為香港科技大學(廣州)助理教授陳晉泰。這篇綜述論文全面梳理了具身智能在醫療領域的關鍵技術與應用前景。

  • 論文標題:A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunitie

  • 論文鏈接:https://arxiv.org/abs/2501.07468

Techniques:具身智能如何賦能現代醫療

具身智能(EmAI)通過多模態感知、行動控制、決策計劃和記憶能力的深度結合,賦予了 AI 類似人類的感知與執行能力。通過 MLLMs、VLA models 等與機器人技術的融合,具身智能有著適應複雜醫療環境的潛力,下圖展示了 「Embodied AI Brain」 的核心功能模塊,體現感知、行動、決策與記憶的協同作用。

圖 2:具身智能 「大腦」 核心功能圖 2:具身智能 「大腦」 核心功能

1、感知模塊

具身感知作為 EmAI 系統的核心功能之一,通過多種感知方式幫助系統更好地理解和與環境互動。

Ⅰ) 感官感知是這一過程的基礎,它通過獲取來自不同感官傳感器的輸入,如視覺、觸覺和聲音等,幫助系統構建對外部世界的初步認知。

Ⅱ) 為了讓系統獲得更加全面的理解,跨模態感知通過整合來自不同模態的信息(比如視覺與語言的結合),提升感知的準確性和深度。這種跨模態的集成不僅讓系統能夠更精確地解讀複雜的場景,還能幫助其在動態環境中做出更有效的決策。

Ⅲ) 交互感知(Interactive perception)進一步推動了 EmAI 系統感知能力的發展。它不僅僅依賴於靜態的傳感數據,還通過物理行為,如操作物體或改變視角等,來解決感知中的不確定性。這些行為的不斷探索和反饋使得 EmAI 系統能夠在實際操作中不斷完善其感知模型,從而更好地應對複雜多變的任務。在執行物體操作或場景理解時,這種交互感知顯得尤為重要。

2、行動模塊

行動模塊是具身智能的基礎組成部分,涉及如何通過各種控制策略來指導系統的實時動作。這些控制策略包括動作的選擇和執行,旨在根據感知信息進行實時調整,優化運動控制,完成精細操作任務。通過探索更優的策略表示和策略學習方法,具身智能實現了更高的精準性與適應性。

Ⅰ) 控制策略的表示通常有三種方式:顯式策略、隱式策略和擴散策略。顯式策略通過行為複製等方法直接從觀察中映射到動作,適用於比較簡單的任務,但在複雜任務中可能表現不足。隱式策略則通過能量函數來表示動作選擇的偏好,適合處理多模態任務,具有較強的表達能力。擴散策略則通過去噪擴散生成模型生成控制策略,能夠提供更為多樣的表示,尤其在離線強化學習和基於視覺的操作中展現出潛力。

Ⅱ) 在策略學習方面,強化學習(RL)和模仿學習(IL)是主要的學習方法。強化學習通過試錯法優化控制策略,根據環境反饋調整行為,以最優化目標為導向,適用於需要長期適應的任務。然而,強化學習常面臨采樣效率低、探索成本高等問題。模仿學習則通過模仿專家示例行為來加速學習過程,不依賴顯式的獎勵函數,能較快學習到高效的控制策略,但容易受到 「協變量偏移」 的影響,導致其在新場景中的泛化能力受限。

表 1:行動控制策略總結表 1:行動控制策略總結

3、決策模塊

與低級控制策略處理簡單的實時動作不同,高級規劃主要聚焦於如何將複雜任務分解為多個子任務,並通過邏輯推理和決策來完成這些任務。傳統的規劃方法,如 A * 算法和 Dijkstra 算法,雖然在結構化環境中非常有效,但在面對複雜的高維狀態空間或部分可觀測環境時,往往面臨較大的挑戰。因此,近年來,基於 LLM 的高級規劃方法逐漸得到應用,它通過將抽像的指令轉化為可執行的機器人任務,從而實現了認知推理與物理任務執行的結合。近年來,端到端具身大模型也逐漸被提出,這種方法將高級決策規劃與低級動作生成整合到一個統一的系統中,能夠更加高效地處理複雜的任務指令,避免了傳統方法中不同模塊之間的分離和局限。

表 2:規劃方法總結表 2:規劃方法總結

4、記憶模塊

記憶模塊主要負責存儲和處理系統的經驗和知識,以幫助其在複雜環境中進行自我適應和決策。記憶在 EmAI 系統中通常分為短期記憶和長期記憶兩種形式,它們各自發揮著不同的作用。Ⅰ) 短期記憶主要用於處理和存儲系統在當前任務或交互中所需要的即時數據,例如當前的感知信息或上下文內容。例如,在與用戶的對話中,EmAI 系統會保持對話歷史,以便實時調整其響應。Ⅱ) 長期記憶則主要用於存儲更為持久和重要的知識,支持系統的長期學習和適應。通過集成長期記憶,EmAI 能夠將過去的經驗用於未來的決策和推理。存儲長期記憶通常通過內部模型權重或外部數據庫來實現。內部記憶的更新通常通過監督微調、指令微調等方法來實現,而外部記憶的更新則依賴於外部數據庫或知識圖譜的動態改進。

Applications:四大應用場景的實踐與突破

論文探討了具身智能在以下四大醫療健康領域的研究實踐和應用:

  • 臨床干預:從術前診斷到術後康復,支持精準醫療的全流程覆蓋。

  • 護理陪伴:提升兒童、老年人及特殊人群生活質量,減輕護理負擔。

  • 設施運轉:通過應急響應、藥品分配等任務優化醫療資源。

  • 研究開發:加速數據分析與實驗自動化,為醫學突破提供動力。

1. 臨床干預

具身智能系統已廣泛應用於臨床干預的整個週期,包括干預前(Pre-Intervention)、干預中(In-Intervention) 和 干預後階段(Post-Intervention)。

  • 干預前:具身智能系統能夠通過精確的診斷和評估,協助醫療團隊製定個性化的治療方案。如分診系統能夠根據患者的症狀、歷史病曆以及其他健康數據,自動篩選出需要緊急干預的病例,幫助患者快速被轉診到合適的科室。智能影像分析系統能夠通過對醫學影像的自動化解讀,輔助醫生早期發現潛在疾病(如腫瘤、結石等),提高診斷的準確性和效率。此外,遠程診斷和醫療諮詢系統等使得患者能夠在家中接受醫療建議,為醫生提供了更多的時間進行專業決策。

  • 干預中:在干預過程中,具身智能系統的應用可提高手術的精確性和安全性。例如,機器人輔助手術系統可以在手術過程中提供更高的精度和靈活性,尤其是在微創手術中,能夠精確地定位和操作,有效降低了誤差率。AI 輔助的手術規劃系統則通過實時分析患者的病情和影像數據,有效監控患者的生命體徵,提供個性化的手術方案,幫助醫生製定更合適的操作計劃。

  • 干預後:在干預後的康復階段,具身智能系統如智能康復機器人,能夠通過個性化的康復訓練,幫助患者恢復運動功能,特別是中風、脊髓損傷等患者,機器人可以根據患者的恢復情況動態調整訓練內容和強度,確保康復訓練的有效性和安全性。智能藥物管理系統可以幫助患者按照醫生的處方精準服藥,同時監控患者的生理數據,如血糖、血壓等,實時調整藥物劑量或提供健康建議。此外,智能健康監測設備可以持續跟蹤患者的健康狀態,通過可穿戴設備實時收集數據,確保患者在恢復過程中不會出現意外情況。

圖 3:具身智能在臨床干預全流程中的應用圖 3:具身智能在臨床干預全流程中的應用

2. 護理陪伴

具身智能系統在日常護理與陪伴領域可以為患者提供全面的生活支持和情感陪伴等。以下是其在社會引導、日常輔助和行動支持方面的關鍵應用,圖 4 展示了相關技術的具體場景。

  • 社會引導:社交輔助機器人如 NAO 和 QTrobot,通過互動提升自閉症兒童的社交能力,例如學習模仿、輪流對話和同理心。同時,針對認知障礙患者(如癡呆症),ZORA 等機器人幫助優化交流並支持治療和教育目標。

  • 日常輔助:喂食機器人和康復指導設備通過感知和自適應技術輔助患者完成進食、穿衣等任務,並為患者提供康復鍛鍊的實時反饋與鼓勵。

  • 移動支持:外骨骼設備(如 ReWalk)為脊髓損傷患者提供步態訓練,AI 輪椅則通過智能導航支持行動不便的用戶獨立完成移動。

圖 4:社交輔助機器人圖 4:社交輔助機器人

3. 設施運轉

具身智能在醫療基礎設施支持方面也有著豐富的應用場景,更好地保證醫療服務質量,通過應急響應、生命救援、藥品配送和環境消毒等任務提高醫療效率和安全性。

  • 應急響應:機器人在災害場景中利用熱成像和智能導航技術定位倖存者並提供醫療支持,顯著縮短救援響應時間。

  • 藥品與物資配送:智能配送機器人在醫院環境中承擔藥品、餐飲及醫療物資運輸任務,特別是在疫情期間,通過無接觸操作降低交叉感染風險。

  • 環境消毒:消毒機器人結合紫外線和霧化技術,自動完成病房和公共區域的空氣與表面消毒,維護高標準衛生環境。

圖 5:生命救援機器人圖 5:生命救援機器人

4. 研究開發

具身智能通過自動化流程和智能化數據分析,在生物醫學研究中推動了實驗效率和創新開發速度的雙重突破。

  • 實驗自動化:具身智能驅動的自動化實驗平台通過精確處理試劑和執行實驗任務,優化了化學合成與基因分析的操作流程,提高科學研究效率。

  • 藥物研發:AI 系統通過篩選化學分子庫、預測生物結構和分析藥物毒性等方法,縮短了藥物開發週期並降低了成本。

  • 知識檢索:如 ChemCrow 等系統整合了科學知識與數據分析能力,能夠輔助研究人員發現新藥靶點和生物標記物。

圖 6:實驗機器人圖 6:實驗機器人

Opportunities:具身智能分級與未來發展

論文提出了從 Level 1 到 Level 5 的五個具身智能級別,涵蓋了感知、進化學習、任務泛化和人機交互四大維度。這些層級不僅描述了技術的進化路徑,也勾勒出具身智能未來發展的潛力(圖 7)。

目前,大多數框架工作處於 1 至 3 級,或僅專注於單一的子功能模塊。例如,外科機器人執行預編程的動作(第 1 級),監測生命體徵並提醒臨床醫生異常(第 2 級),整合多模態輸入以執行精準任務,如縫合或注射(第 3 級)。然而,它們尚未達到第 4 級和第 5 級系統的自主性,這要求實時決策並能檢測細微的解剖變化。類似地,陪伴機器人提供簡單的聽覺或觸覺反應(第 1 級),識別手勢並調整行為(第 2 級),評估身體和心理健康以提供個性化支持(第 3 級)。但它們仍未能理解複雜的情感狀態或提供主動的個性化護理,無法達到第 4 級和第 5 級。儘管已經取得了顯著進展,但仍需進一步發展,以克服當前的局限,使這些系統能夠達到第 4 級和第 5 級,在這些級別下,它們能夠進行獨立推理、複雜決策和真正的自主操作。

圖 7 具身智能分級標準圖 7 具身智能分級標準

高質量的數據集是推動具身智能研究發展的基石,對於提升系統的性能和可靠性至關重要。如圖 8 所示,這些數據集涵蓋了臨床干預、日常護理陪伴、生物醫學研究等多個領域,為 EmAI 系統提供了豐富的訓練材料。然而,目前的高質量數據集仍存在一定的局限性,特別是在樣本多樣性和多模態數據整合方面。現有數據集可能面臨樣本不足、區域和人群代表性不均等問題,這使得它們難以應對不同臨床環境或個體差異帶來的挑戰。同時,多模態數據整合也亟需加強。目前,許多數據集依賴單一的感知輸入(如視覺或語言),而忽略了觸覺、聲音等其他感知維度的整合,這限制了 EmAI 系統在複雜場景中的應用潛力。

圖 8 醫療健康領域具身智能數據集分類圖 8 醫療健康領域具身智能數據集分類

儘管具身智能在醫療領域展現了巨大潛力,但其發展仍面臨著多重挑戰,主要包括倫理和法律問題、技術準確性和可解釋性問題,以及與現有醫療系統的互操作性問題。尤其是在責任劃分、患者同意和數據透明度等方面,需要建立明確的法律框架和倫理監督機制,同時技術的準確性和系統的互通性也亟待解決。從個性化診療到實驗室自動化,具身智能正在全面變革醫療服務,通過持續技術創新和跨學科協作,具身智能將為全球醫療系統帶來深遠影響,推動智慧醫療邁向新的高度。