突破傳統:AI如何應對心電圖中的長尾挑戰?

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近日,上海交通大學、上海人工智能實驗室和上海交通大學附屬瑞金醫院聯合團隊發佈基於異常檢測預訓練的心電長尾診斷模型。

  • 論文鏈接:http://arxiv.org/abs/2408.17154

  • 論文標題:Self-supervised Anomaly Detection PretrainingEnhances Long-tail ECG Diagnosis

研究背景

隨著醫療技術的不斷進步,使用無創手段來準確診斷心臟疾病變得尤為重要。在這些手段中,心電圖(ECG)因其低成本和廣泛使用的特點,被認為是診斷心臟健康的關鍵工具。然而,分析 ECG 數據面臨著一個重大挑戰:數據的長尾分佈。這意味著大部分 AI 技術雖然能有效檢測常見的心臟病,但對於稀有或非典型的異常往往難以察覺。這些未被識別的異常(如室上性心動過速、室顫和高級房室傳導阻滯)可能是心源性休克和猝死等致命事件的前兆。因此,開發能夠處理這些罕見異常的 AI 模型至關重要。

為了應對這些挑戰,上海交通大學、上海人工智能實驗室和上海交通大學附屬瑞金醫院的研究團隊提出了首個基於異常檢測預訓練的心電長尾診斷模型,並在以下三個方面做出了顯著貢獻:

創新性方法:該研究首次將自監督異常檢測引入為預訓練方式,模擬專業醫生的診斷流程,成功開發出具有長尾診斷能力的心電 AI 模型,大幅提升了對常見及稀有心臟疾病的診斷準確性。

嚴謹的數據驗證:研究團隊在一個大規模的臨床 ECG 記錄數據集上對模型進行了嚴格驗證。該數據集包含了 2012 年至 2021 年期間在上海真實醫院環境中收集的超過一百萬份 ECG 樣本,涵蓋了 116 種不同的 ECG 類型。經過異常檢測預訓練的模型在 ECG 診斷及異常檢測 / 定位的內部和外部評估中均展現了顯著的整體準確性提升。尤其是在處理稀有 ECG 類型時,該模型實現了 94.7% 的 AUROC、92.2% 的靈敏度和 92.5% 的特異性,明顯優於傳統方法,並顯著縮小了與常見 ECG 類型診斷性能之間的差距。

賽前分析性臨床驗證:在賽前分析性驗證中,採用該模型輔助診斷的心臟病醫生相比於單獨工作的醫生,診斷準確率提高了 6.7%,診斷完整性提升了 11.8%,診斷時間減少了 32%。這些結果表明,將異常檢測預訓練集成到 ECG 分析中,具有極大的潛力來解決臨床診斷中長尾數據分佈的挑戰。

接下來將從數據、方法與實驗結果三個方面介紹原文細節。

數據介紹

本研究使用了一個涵蓋從 2012 年至 2021 年期間上海真實醫院數據的大規模心電圖(ECG)數據集,總共包含 1089367 個樣本。每個樣本不僅包括心電圖信號圖像,還包含一個詳細的診斷摘要,記錄了特定的異常情況。數據集中涵蓋了從常見到罕見的 116 種心電異常類型。例如,房室傳導阻滯是一種較常見的類型,有數萬個樣本;而雙室肥大則是一種非常罕見的異常,僅有極少的樣本。這種明顯的長尾分佈突出了研究中的挑戰。

圖一:心電類型長尾分佈情況

圖一:心電類型長尾分佈情況

這 116 種心電圖類型可以大致分為三類:疾病分類、非特異性特徵以及信號採集。研究團隊收集了截至 2020 年的所有心電圖記錄,共計 416,951 個正常心電圖和 482,976 個異常心電圖,並將其用於模型訓練。為有效評估模型在長尾分佈場景下的分類性能,研究團隊在 2021 年的心電圖數據上進行了內部驗證,驗證數據包括 94,304 個正常心電圖和 95,136 個異常心電圖。為進一步測試模型的適應性,團隊根據心電圖類型的出現頻率將驗證集劃分為三種不同的測試集:常見類型、不常見類型和罕見類型。

圖二:數據集具體類型,年齡性別分佈,與外部驗證的開源數據集 PTB-XL 對比

圖二:數據集具體類型,年齡性別分佈,與外部驗證的開源數據集 PTB-XL 對比

方法介紹

本研究提出了一個新穎的兩階段框架,將 ECG 診斷轉化為一個細粒度、長尾分類問題。首先,框架通過異常檢測預訓練階段來定位心電圖中的異常區域,這有助於後續分類任務的集中和精確執行。基礎假設是,預訓練通過專注於區分正常和異常信號,使模型能夠更有效地識別罕見異常的特徵,進而提升模型在長尾數據分佈上的表現。分類組件無縫集成到預訓練的異常檢測模型中,作為一個額外分類頭,確保一個統一的診斷流程,模擬專家心臟病學家所進行的全面、逐步分析。

該框架的核心創新在於,設計了一種專門針對 ECG 信號的新型掩碼和恢復技術,用於自監督異常檢測預訓練。該框架的核心組件是多尺度交叉注意力模塊,大大增強了模型在整合全局與局部信號特徵方面的能力。與現有主要聚焦於時間序列分析的異常檢測方法不同,本研究還整合了 QRS 和 QT 間期等關鍵 ECG 參數以及年齡、性別等人口統計因素,這些因素對於準確理解個體心臟狀況至關重要。通過這種綜合集成,該框架能夠更細緻地解讀 ECG 信號,減少個體差異對診斷的影響,從而顯著提升診斷的準確性。

圖三:提出的兩階段 ECG 診斷框架仿照醫生的診斷流程,包括兩個主要步驟,即自監督的心電圖異常檢測預訓練和基於預訓練的異常檢測模型微調分類器

實驗結果

(1)內部驗證

實驗結果顯示,使用簡單的監督分類方法時,隨著 ECG 類型從常見轉為稀有,模型性能顯著下降。然而,當引入基於預訓練的異常檢測模型(使用正常 ECG 數據進行訓練)後,這種性能下降得到了明顯緩解。在實驗中,研究團隊通過兩種設置(1. 固定異常檢測模型,僅微調分類器,2. 聯合訓練異常檢測模型和分類器)對模型進行了評估,結果顯示,無論哪種設置,模型在處理所有數據子集時的指標均有所改善,尤其是在應對長尾稀有數據時表現尤為突出。

表一:心電診斷內 / 外部驗證結果

除了評估總體診斷性能外,確保模型在關鍵人口特徵上的公平性也至關重要,尤其是在臨床應用中,不同年齡組和性別之間的診斷準確性需要保持一致。實驗結果顯示,男性和女性之間的診斷性能基本相當。在所有測試數據中,不同年齡組的診斷性能也相對一致,雖然在 10 歲以下和 90 歲以上患者中的表現略低,但在 10 歲至 90 歲之間的年齡組中,模型的 AUROC 和特異性均保持在 90% 以上。

圖四:長尾類型的診斷結果,診斷公平性與異常定位效果

圖四:長尾類型的診斷結果,診斷公平性與異常定位效果

在異常檢測性能評估上,研究團隊提出的方法在大多數評價指標上均優於現有方法,涵蓋所有測試數據集。具體來說,該方法實現了 91.2% 的 AUROC,83.7% 的 F1 分數,84.2% 的敏感性,83.0% 的特異性,以及在固定 90% 召回率下 75.6% 的精度,顯著超越了其他競爭方法。該模型對細微信號模式變化的敏感性更高,能夠比真實情況中的廣泛標註更精確地定位異常。這些精準定位為潛在異常提供了寶貴的見解,從而為醫療從業者提供了顯著支持。

表二:心電異常檢測與定位實驗結果

(2)外部驗證

研究團隊使用歐洲的開源心電數據集 PTB-XL 對研究方法和基線模型進行了外部驗證。與內部數據集相比,該數據集在年齡分佈、信號採集質量和心電圖信號類型方面存在顯著差異。通過線性探測將本方法應用於外部驗證數據集時,聯合訓練的異常檢測模型與分類器實現了最高的診斷準確性。值得注意的是,在線性探測過程中,只有分類器的最終線性層參與了訓練,而其餘模型參數則保持不變。

(3)賽前分析驗證

為了嚴格評估模型在真實臨床環境中的表現,研究團隊在不進行微調的情況下,將模型部署在醫院環境中,設置了 AI 輔助診斷組和對照組,通過對比兩組醫生的診斷準確率、診斷效率和結論完整度,來驗證 AI 模型輔助診斷對心臟病專家診斷過程的影響。每份心電圖都由至少三位心臟病專家在不同條件下進行評估: 

a. 心臟病專家 A 的任務是在儘可能短的時間內提供診斷結論,模擬緊急情況下需要快速決策的場景。 

b. 心臟病專家 B 在沒有時間限制的情況下獨立進行診斷,代表常規診斷流程。 

c. 心臟病專家 C 在 AI 模型的輔助下進行診斷,模型為每個病例提供了五種最有可能的異常類型作為參考。

在時間限制下,心臟病專家的診斷準確性較低,心臟病專家 A 的結論不夠全面,主要集中於識別關鍵疾病。相比之下,在沒有時間限制的情況下,心臟病專家 B 的診斷全面性和準確性都有顯著提升。AI 方法的優勢在於分析一份心電圖只需 0.055 秒,速度大約是人類急診診斷時間的 1000 倍。除了速度優勢外,AI 方法還實現了 81.9% 的診斷準確率,明顯優於未使用輔助工具的人類 67.7% 的診斷準確率。當結合臨床實踐時,AI 輔助的心臟病專家診斷準確率達到了 84.0%,比未使用輔助工具的診斷提高了 6.7%。此外,診斷效率顯著提高,平均診斷時間縮短了 36 秒。AI 系統還提供了更詳細的信號模式和節律分析,特別是在識別 T 波變化和竇性心動過速等細微變化方面,使 11.8% 的心電圖結論更加全面,從而提升了診斷結果的整體質量。

圖五:賽前分析驗證中,診斷準確率,結論完整性與診斷時間對比

圖五:賽前分析驗證中,診斷準確率,結論完整性與診斷時間對比

在臨床診斷中,尤其是面對長尾異常,心臟病專家在時間限制或經驗不足的情況下,容易出現誤診,通常表現為較高的特異性(>99%)但敏感性卻非常低(<50%)。將 AI 整合到診斷過程中,顯著減少了這些誤診,提高了對罕見異常的檢測能力,並突出了關鍵的信號模式。當 AI 作為輔助工具使用時,心臟病專家在處理長尾數據時的敏感性從 46.9% 提高到 71.4%,同時特異性仍保持在 99.7% 的高水平。這表明 AI 在增強臨床決策,特別是在具有挑戰性的診斷場景中,展現出了巨大的潛力。

表三:賽前分析驗證中,常見與長尾心電類型的診斷敏感性,特異性對比

研究價值

作為首個基於異常檢測預訓練的心電長尾診斷模型,該研究在以下幾個方面展現了其重要價值:

  • 臨床應用的巨大潛力:通過異常檢測預訓練,該模型能夠以遠超經驗豐富的心臟病專家的速度,提供準確且全面的診斷結果。這表明,AI 輔助系統在臨床診斷中具有廣闊的應用前景,無論是在緊急情況下還是常規 ECG 評估中,均能發揮重要作用。

  • 減輕長尾分佈影響的能力:異常檢測預訓練通過識別可能的異常特徵偏差,使模型能夠集中關注特定異常區域,從而更精確地分類不同類型的異常。這種方法促進了對各種稀有異常的高效學習,有效應對了不平衡的長尾異常分佈帶來的挑戰。

  • 提供可解釋且信息豐富的定位結果:除了提升診斷性能外,異常檢測預訓練還具備一個關鍵優勢,即能夠精確定位異常。這為模型的診斷決策提供了清晰且易於理解的解釋,有助於醫療從業者更好地理解診斷結果。

  • 臨床診斷模型的公平性:該研究模型在男性和女性之間,以及 10 至 90 歲各年齡組中的診斷效果相當。這些發現強調了在臨床實踐中,考慮人口統計因素以提升診斷準確性和公平性的重要性。進一步研究有助於揭示這些年齡和性別差異的機制,從而開發改善所有患者群體健康結果的策略。

  • 可擴展的 ECG 診斷框架:該框架專為解決 ECG 數據的長尾分佈問題而設計,並經過對 116 種不同 ECG 類型的細緻訓練。這種全面覆蓋確保了模型能夠適應臨床實踐中遇到的幾乎所有 ECG 類型,使其在多樣化數據集中的適應性和通用性得到了高度保障。