AI「癌症神探」降臨:準確度近100%,醫生也自歎不如!

新智元報導
編輯:英智
【新智元導讀】醫學變革風暴來襲!ECgMPL模型如同醫學領域的超級偵探,從細胞和組織微觀圖像里精準揪出癌症蹤跡,診斷子宮內膜癌準確率近100%,遠超醫生平均水平。
逆天!新型AI識別癌症,近100%精準度碾壓醫生。
AI在醫學領域越來越厲害啦!有一種新研發的AI,診斷癌症的本事比專業醫生還牛。
在不久的將來,用AI識別癌症或許會成為常見的事。
包括澳州Charles Darwin大學(CDU)在內的國際科研團隊,搞出一個叫ECgMPL的模型。

論文鏈接:https://www.sciencedirect.com/science/article/pii/S2666990025000059?via%3Dihub
ECgMPL專門分析細胞和組織的微觀圖像,用來查子宮內膜癌。子宮內膜癌是常見的生殖系統腫瘤之一,而這個AI模型的準確率高達99.26%!
研究人員還發現,這個模型經過調整,還能診斷很多其他疾病,如結直腸癌、口腔癌。
CDU的Asif Karim博士參與了這項研究,他表示,ECgMLP模型的準確率高達99.26%,比現在用的那些診斷方法都強,計算速度還特別快。
通過消融研究、自注意力機制,再加上高效的訓練,這個模型在很多組織病理學數據集上都能很好地發揮作用,是臨床診斷子宮內膜癌的得力助手。

這個經過大量數據訓練的AI模型,在查看微觀掃瞄圖像(也就是組織病理學圖像)的時候,能把圖像變得更清晰,這樣就能發現癌症早期的症狀。
有些微小變化醫生用眼睛很難發現,但AI模型一下子就能找到。
現在,醫生診斷的準確率大概在78.91%到80.93%之間。
子宮內膜癌如果能早點發現,是可以治療的,患者的五年預後效果也不錯。但要是癌細胞擴散到子宮外面,治療起來就麻煩了。所以,及時診斷對挽救患者生命特別重要。

訓練所用數據集的樣本圖像,展示了正常子宮內膜(NE)、子宮內膜息肉(EP)、子宮內膜增生(EH)和子宮內膜腺癌(EA)
現在,美國已經有超過60萬人得過子宮內膜癌。科學家發現,ECgMLP的用途可不只是診斷子宮內膜癌。
澳州ACU的副教授Niusha Shafiabady表示,用同樣的辦法,還能又快又準地查其他病,這樣病人就能得到更好的治療。
他們用這個模型測試了好多不同的組織病理學圖像數據,發現它查結直腸癌的準確率能達到98.57%,查乳腺癌的準確率是98.20%,查口腔癌的準確率也有97.34%。
不過,這個AI模型可不是要搶醫生的「飯碗」。
它是和癌症專家一起合作,幫醫生更準確地診斷病情,還能看看治療的效果好不好。
用這個模型診斷癌症,速度更快、容易實現,成本也更低。

Shafiabady補充道,這項研究的AI模型可以作為軟件系統的大腦,協助醫生進行癌症診斷的決策。
研究人員強調:「早點發現、準確診斷子宮內膜癌,對治療和控制病情非常關鍵。用深度學習算法分析組織病理學圖像,在診斷子宮內膜癌方面,不管是準確率還是處理速度,表現都特別好。」
構建ECgMLP
ECgMLP模型的構建離不開高質量的數據集。
研究團隊收集了新鮮的子宮內膜標本,由三位具有十多年病理學實踐經驗的病理學家在光學顯微鏡下仔細檢查組織學切片,一致選擇具有診斷結果的代表性蘇木精-伊紅(H&E)切片。

這些切片通過Mixotic掃瞄儀數字化,以10倍或20倍放大倍數捕獲為高解像度圖像,再用Olympus ImageView從原始全切片圖像中提取病變或健康組織的組織病理學區域。
最終形成的數據集包含3302張jpeg格式的圖像,分為子宮內膜腺癌、子宮內膜增生、子宮內膜息肉和正常子宮內膜4類,每類又包含不同數量的圖像和亞型。
這個數據集為模型的訓練和優化提供了堅實的基礎。
圖像預處理
圖像預處理是 ECgMLP 模型的重要環節,它直接影響到後續分析的準確性。
研究採用了多種預處理技術,包括歸一化、α-β變換和非局部均值(NLM)去噪算法。

歸一化通過將圖像的像素值縮放到0到1之間,使不同圖像具有可比性,便於從不同光照條件下捕獲的圖像中一致地提取特徵。
其公式為

,這種標準化為後續的分析提供了的基礎。

在本研究中,α值設為1.0,β值設為2,這一設置顯著增強了組織和細胞結構邊界的可見性,同時保持了可接受的信號質量,PSNR值始終高於33dB。

NLM去噪技術通過比較圖像中的小像素塊並找到相似塊,用相似塊的平均值替換噪聲塊,有效地去除了噪聲,同時保留了關鍵的邊緣信息和組織紋理。
其公式為

,這一技術為後續的準確分析提供了清晰的圖像數據。
圖像分割
圖像分割是從圖像中提取感興趣區域(ROI)的關鍵技術,ECgMLP模型採用了基於分水嶺算法的多步驟分割方法。

該過程從二值閾值化開始,通過最小化前景和背景兩類的類內方差確定閾值,將像素分為前景和背景。
接著進行形態學閉運算,使用2×2內核去除前景區域中的小孔和間隙;然後進行距離變換,獲得每個像素到最近背景像素的距離圖;再進行膨脹操作,擴展前景區域。
應用閾值處理,確定前景區域;通過從確定背景中減去確定前景得到未知區域;將原始圖像和標記與分水嶺算法結合,實現圖像的精準分割。
光度增強
為了提高模型的泛化能力,研究對訓練集和驗證集應用了光度增強技術。

通過對圖像進行亮度、對比度、色調、飽和度的變化以及模糊處理等多種修改,創建了具有不同視覺特徵的原始圖像的新版本。
總共應用了10種光度增強技術,例如調整亮度水平、改變對比度、利用CLAHE增強圖像特徵、調整色調和飽和度以及應用高斯模糊等。

這樣增加了訓練數據的多樣性,提高了模型的泛化能力。
創新的ECgMLP架構
ECgMLP模型基於gMLP架構構建,gMLP架構結合了MLP和Transformer的優勢。
每一層由一個MLP塊和一個門控機制組成,門控機制調節信息流,使模型能夠選擇關注不同的輸入組件,MLP塊則負責提取高級特徵。

ECgMLP模型在此基礎上進行了針對性的優化。
形狀為[64×64×3]的圖像首先輸入到輸入層,經過數據增強層增加訓練樣本數量並減少過擬合,增強後的數據由形狀為[128×128×3]的補丁組成。
補丁通過補丁層重塑為[256×192],再經過全連接層提取特徵。
模型包含多個順序的gMLP 層,gMLP層由多個子層組成,子層混合使用MLP和門控機制生成有信息的表示。
每個gMLP層的輸出作為下一層的輸入,經過層歸一化和全局平均池化1D層處理後,最後通過具有4個輸出單元的全連接層進行最終預測,對應子宮內膜癌的四個類別。

在訓練過程中,使用AdamW優化器,包括權重衰減正則化,並採用稀疏分類交叉熵損失和準確率指標進行評估,還使用了學習率調度來提高收斂性。
此外,在gMLP層中使用ELU激活函數代替ReLU,提高了模型的穩定性。
ECgMLP的卓越性能
消融研究
通過改變網絡的層架構、訓練參數和超參數,如圖像大小、權重衰減、批量大小、隨機失活率等,深入研究不同因素對模型準確率的影響。

研究發現,6個ECgMLP模塊實現了98.61%的最佳準確率,但出於實際原因選擇4個模塊,此時準確率為98.52%。全局最大池化的準確率達到98.74%,高於全局平均池化的98.52%。
AdamW作為優化器表現最為準確,準確率為98.52%;激活函數中ELU的準確率最高,達到99.26%;學習率為 0.003時選擇準確率最高。
多指標評估
使用多種指標對ECgMLP模型的性能進行評估,結果顯示該模型表現卓越。
學習曲線展示了模型訓練過程中的良好表現,隨著訓練的進行,損失下降且準確率上升,表明模型有效地從數據中學習,沒有過擬合的跡象,預測性能不斷增強。

Confusion Matrix顯示整個數據集中只有少數圖像被誤分類,這意味著模型能夠很好地對圖像進行正確分類,準確識別不同類別的子宮內膜組織。

ROC曲線下面積(AUC)為完美的1.00,表明模型區分不同類別的能力極強,在不同的分類標準下都表現出色。

通過10折交叉驗證,模型的準確率在不同的數據分割中保持在98.99%至99.26%之間,證明了模型的穩定性和泛化能力,在不同類型的數據上都能表現出持續的高性能。

泛化能力驗證
為了評估ECgMLP模型的泛化能力,研究團隊在多個涵蓋不同癌症類型的外部組織病理學圖像數據集上進行測試。
結果顯示,模型在這些數據集上都實現了較高的準確率(>97%),證明了其對不同組織學圖像分佈具有可靠的泛化能力。

即使在原始領域之外,ECgMLP模型也具有先進的性能,這為其在更廣泛的醫學領域應用奠定了堅實的基礎。
參考資料:
https://newatlas.com/cancer/ai-cancer-diagnostic/