為什麼使用AI診斷癌症如此困難?

(來源:MIT Technology Review)(來源:MIT Technology Review)

透視人體並診斷癌症的關鍵在於「模式識別」。放射科醫生通過 X 射線和磁共振成像技術發現腫瘤,而病理學家則使用顯微鏡觀察來自腎臟、肝臟等部位的組織,尋找那些能夠揭示癌症嚴重程度、特定治療效果以及惡性腫瘤可能轉移路徑的模式。

理論上講,其實 AI 在這一領域大有可為。「我們的工作本質上就是模式識別。」梅歐診所數字病理學平台的病理學家兼醫學主任 Andrew Norgan 表示,「我們通過觀察組織切片來提取那些已被證明具有重要意義的信息片段。」

自從 15 年前首批圖像識別模型問世以來,AI 在視覺分析領域的能力已經取得了顯著進步。儘管目前還沒有任何模型能夠做到完美,但我們可以想像,未來某天一個強大的算法或許能夠發現人類病理學家可能忽略的細節,或者加速診斷過程。

事實上我們已經看到多個嘗試構建此類模型的研究,僅在去年就有至少七項,然而這些模型目前仍然處於實驗階段。那麼怎樣才能讓這些模型足夠成熟並真正應用於臨床呢?

本月早些時候,人工智能健康公司 Aignostics 與梅歐診所合作開發的一個新模型發表在 arXiv 上。雖然該論文尚未經過同行評審,但它揭示了將此類工具應用於實際臨床環境所面臨的一系列挑戰。

這個模型名為「Atlas」,它在來自 49 萬例病例的 120 萬份組織樣本上進行了訓練。研究人員將其與其他六種領先的 AI 病理模型進行了對比測試,例如分類乳腺癌圖像或對腫瘤進行分級,將模型的預測結果與人類病理學家的正確答案相對比。結果顯示,Atlas 在九項測試中有六項表現優於競爭對手,特別是在對結直腸癌組織的分類中,它達到了人類病理學家診斷一致性的 97.1%;然而在另一項任務中,Atlas 對前列腺癌活檢中的腫瘤分類雖然得分超過了其他模型,但也僅為 70.5%。整體來看,在九項基準測試中的平均表現,它與人類專家相同的答案的佔比為 84.6%。

就目前而言,瞭解癌變組織細胞狀況的最佳方法仍然是由病理學家檢查組織樣本,因此 AI 模型的性能是以此為標準衡量的。儘管在某些檢測任務中,最好的 AI 模型已經接近人類的水平,但在許多任務中仍然不及人類。那麼,一個模型需要多高的準確性才能在臨床上真正有用?

「 90% 的準確率可能還不夠,需要更高的水平。」 Providence Genomics 的首席醫療官、GigaPath 聯合創始人 Carlo Bifulco 表示。GigaPath 也是梅歐診所研究中分析的其他 AI 病理模型之一。然而,Bifulco 指出,「即使 AI 模型未達到理想的準確性,在短期內仍可能帶來幫助,比如協助病理學家加速診斷過程。」

那麼挑戰主要有哪些呢?首先是訓練數據匱乏。

「美國只有不到 10% 的病理學樣本實現了數字化。」Norgan 表示。這意味著組織樣本通常被放在玻片上,通過顯微鏡分析,然後存儲在龐大的檔案中,而從未被數字化記錄。雖然歐洲的病理樣本數字化程度更高,並且已經在努力創建共享的組織樣本數據集來供 AI 模型訓練,但仍然沒有太多可供使用的多樣化數據。

缺乏多樣化的數據會導致 AI 模型難以識別那些人類病理學家已經掌握的各種異常情況,這尤其影響罕見疾病的識別。Aignostics 的聯合創始人兼首席技術官 Maximilian Alber 指出,「對於這些罕見疾病的組織樣本,在公開數據庫中可能十年內只能找到 20 個樣本,顯然這遠遠不足以用來訓練 AI 模型。」他說。

事實上,2022 年梅歐診所就意識到訓練數據不足可能成為 AI 發展的重大障礙。因此,他們決定將所有病理樣本進行數字化,並將其檔案中數十年來積累的 1200 萬張經過患者同意的樣本切片進行數字化。為此,他們還專門聘請了一家公司研發了一台機器人對這些組織樣本拍攝高解像度照片(每月能夠處理多達一百萬個樣本)。通過這些努力,團隊最終收集到了用於訓練「Mayo 模型」的 120 萬份高質量樣數據。

這又引出了 AI 癌症診斷的第二個問題。活檢組織樣本的直徑通常只有幾毫米,但在顯微鏡下放大後,數字圖像的像素數量可達到超過 140 億,這使得這些樣本的圖像大小比目前用於訓練最佳 AI 圖像識別模型的普通圖像大約大了 287,000 倍。

「顯然,這意味著巨大的存儲成本等問題。」微軟 AI 研究員 Hoifung Poon 表示。他與Bifulco 合作開發了 GigaPath,這款模型的相關研究於去年發表在了 Nature 上。但這些技術挑戰也迫使研究人員做出重要選擇,包括如何確定圖像的哪些部分應用於訓練 AI 模型,以及哪些細胞可能因此被忽略。為了創建 Atlas,梅歐診所採用了一種稱為「切片」的技術,基本上是從同一個樣本中生成大量快照輸入 AI 模型。而如何選擇這些切片既是一門藝術,也是一門科學,但目前仍不清楚採用哪種方式能夠帶來最佳結果。

第三個問題則是針對癌症檢測的 AI 模型應該以哪些基準作為評價標準。Atlas 的研究人員在複雜的分子相關基準上測試了他們的模型,其中包括嘗試從樣本組織圖像中尋找線索,從而推測分子層面發生的情況。例如,身體的錯配修復基因在癌症發生和發展過程中扮演重要角色,這些基因負責修復 DNA 複製過程中出現的錯誤,但如果這些錯誤未被修復就可能加速癌症惡化。

「有些病理學家可能會告訴你,當他們觀察到某些特定的組織外觀時,會直覺性地想到錯配修復缺陷。」 Norgan 說道。不過,病理學家通常不會僅憑直覺得出結論,而是依賴分子測試來獲取明確的答案。Norgan 進一步指出,如果 AI 能夠預測分子層面的變化呢?這種實驗背後的關鍵問題是,AI 是否能夠發現人類肉眼無法捕捉的潛在分子變化,如果能夠實現,那將顯著提升病理診斷效率和精準度。

事實證明,答案是否定的,至少目前如此。在分子測試中,Atlas 的平均準確率僅為 44.9%。儘管這是迄今為止 AI 在該領域的最佳表現,但這一結果也意味著這項技術距離成熟和實際應用還有很長的路要走。

Bifulco 表示,儘管 Atlas 只代表了漸進式的進展,但這確實是在進步。他坦言:「遺憾的是,我感覺大家都在同一個水平上停滯不前,如果要實現顯著的進展,我們需要在模型上有不同的突破,並且需要更大的數據集來訓練這些模型。」

原文鏈接:

https://www.technologyreview.com/2025/01/21/1110192/why-its-so-hard-to-use-ai-to-diagnose-cancer/