從計算機視覺走向醫療AI，對話上海交大謝偉迪：定義問題比解決問題更重要

HyperAI超神經與上海交大謝偉迪教授進行了一次深度訪談，從其個人經歷出發，他向我們分享了從計算機視覺轉型 AI for Healthcare 的經驗心得，同時深入剖析了該行業的未來發展趨勢。

2012 年，在傳說中的「末日之年」，移動互聯網迎來了爆發期。隨著 3G 網絡的普及、智能手機價格下探，加之微信、米聊為代表的類通信應用以及電商、支付類的迅速崛起，該領域實現了新一輪增長。作為各類創新應用的基礎，通信產業發展前景一片向好。

「我當時的理解是：通信技術成熟度已經很高，中國在技術上也走在了世界前列，各國間主要的爭議更多的是通信協議問題，這已經超出了技術範疇」，彼時的謝偉迪在北京郵電大學完成了 4 年的本科學業，站在人生的分岔路口，他坦言「並不是十分喜歡這個專業，當然也有可能，是沒學明白」。

隨即，他選擇了出國深造並轉換賽道，先後在英國倫敦大學學院 (UCL) 與牛津大學 (University of Oxford)，完成了計算機視覺領域的碩士及博士、博士後的學習與工作，並於 2022 年歸國加入上海交通大學，將其在計算機視覺領域的積累帶入醫療人工智能，嘗試開闢新的戰場。

可以說，謝偉迪教授從通信向計算機視覺，以及從計算機視覺向醫療人工智能的兩次轉身，亦是兩個重要節點，抉擇上的猶豫、攻堅新領域的挑戰、成果面世後的成就感，皆是其履曆上的發亮點。

近日，HyperAI超神經有幸與謝偉迪教授進行了一次深度訪談，從其個人經歷出發，他向我們分享了從計算機視覺轉型 AI for Healthcare 的經驗心得，同時深入剖析了該行業的發展趨勢。

通用醫療 AI 系統可以產生「智能湧現」

「很多人不理解我為什麼要做通用醫療人工智能系統，明明特定的疾病診療模型具備更高的實用性」。在大模型賦能各行各業的今日，專用和通用一直是業內討論的重點。專用模型能夠在特定領域表現出更高的精確度和實用性，但泛化能力有限。通用模型的廣泛知識面可以聯通不同領域，但在特定領域的能力往往比不上專有模型。

在謝偉迪看來，專用模型和通用模型均有自己的優劣，「但開發通用醫療 AI 系統是我們必須要做的事」。他認為，通用意味著模型可以建立不同模態數據之間的隱層聯繫，從而產生所謂的「智能湧現」，這對疾病診斷是至關重要的，尤其是成因沒有很明確的疾病。舉例來講，針對肺炎 A 和肺炎 B 的分類問題，如果用圖像和文本去訓練，即可以在底層串聯這些多模態數據，識別兩種肺炎症狀的相同點和不同點，達到分類目的，然而，只用圖像訓練，網絡不一定能學到這種關係。「所以說，從 Science Discovery 的角度來看，通用模型的價值很大」。

想要構建一個多模態的通用醫療模型，就要儘可能全面的將醫學知識注入其中。然而，醫療領域的數據存在倫理、安全、質量等多方面因素的影響，一般很難獲取使用。為了應對這個挑戰，謝偉迪選擇的做法是：把計算機視覺中的數據收集方法遷移到醫療領域，即從互聯網上爬數據。「當然，我們知道，這種做法訓練出來的大模型無法得到臨床實用，但可以更好地培養人才，鍛鍊團隊處理大數據的能力，比如收集、整理、清洗數據」。

舉例來講，團隊彙集了超 3 萬本醫學書籍，全面爬取了 PubMed Central 中 400 萬篇醫學文獻，還收集了互聯網上中文、英語、俄語、日語等 8 個語種的醫學論文、書籍，並將它們轉換為能夠訓練語言模型的語料。

團隊構建的數據集

進一步地，對互聯網上公開的圖像-文本數據進行挖掘，彙聚了超過 25 萬的 3D 掃瞄，以及百萬以上的 2D 醫學論文圖像。此外，為了訓練通用分割模型，團隊還對市面上可獲得的近 120 個放射學影像公開的分割數據集進行了標準化處理，含超 3 萬個 2D/3D 影像和百萬級的像素級標註，覆蓋了常見的各種放射學影像模態，例如，MR、CT、PET。深知醫療數據集對醫療 AI 研究的關鍵作用，團隊將獲取的大部分數據集進行開源。

在構建通用模型時，團隊希望將獲得的所有多模態數據聯合訓練，包括影像、文本、基因組學、ECG 信號等，並以影像上的病灶定位、文本級的診斷與報告作為最基本的輸出形式。訓練過程中，醫學知識的嵌入也是實現通用功能中必不可少的一環。「這是因為，醫院里諸多科室的任務不同，醫生往往更關注自己的部分，我們希望通用模型能夠覆蓋全部的檢查信息，處理任務時形成一步一步的思維鏈，完成鑒別診斷等任務」，謝偉迪介紹道。

多模態通用 Al 醫療大模型構想

當導師「兩不管」時，默默積蓄力量

如前文所述，開發通用醫療 AI 系統時，謝偉迪的做法是將計算機視覺領域的方法搬到醫療領域，這是因為，此前他曾從事計算機視覺研究近 10 年，擁有深厚的知識積累。然而，最初選擇該專業，對他而言卻是「陰差陽錯」。

本科的時候，謝偉迪就讀於北京郵電大學。「因為對通信不感興趣，所以我的本科成績很差，擔心自己找不到工作，才選擇出國留學」，他笑言。

2012 年，謝偉迪進入英國倫敦大學攻讀計算機視覺方向的碩士。這一次，他找到了感興趣的方向，並對學業異常認真，「我的導師覺得我挺適合做這方面的科研，就建議我讀個博」。他那時面臨的問題是，由於英國的博士獎學金極少，是否要為了繼續深造而選擇自費讀博。「導師把我推薦到了牛津大學，這樣即使需要自費，這筆投資也更有價值」。

幸運的是，2014 年，為了更好地推動 AlphaGo 項目，DeepMind 決定加大對 AI 領域的人才培養，並和牛津大學合作開設獎學金，謝偉迪正是首屆 Oxford-Google DeepMind 全額獎學金的獲得者。雖然 DeepMind 的近 100 萬元獎學金及時解決了他的經濟壓力，但他真正面臨的問題是，兩個導師的放養態度差點讓他沒辦法畢業。

「讀博的時候，我有兩位很強的導師。一位是計算機視覺領域的 Andrew Zisserman 教授，他是皇家科學院的院士，也稱得上是 CV 領域的奠基人之一；另一位是研究醫療影像的 J Alison Noble 教授，他是皇家科學院和工程院的兩院院士。當時他們都認為我會更多參與到對方的研究中，這導致我處在了兩不管的境地」。謝偉迪當時所在的牛津大學視覺幾何組 (VGG) 因開髮捲積神經網絡 VGGNet 而備受矚目，組內成員普遍在國際學術界上享有極高聲譽，而他不僅要面對同期夥伴均快速提升的落差感，同時還要不斷挖掘新的研究課題。

受 AlphaGo 的影響，當時深度學習一度爆火，謝偉迪也對生成式模型等產生了濃厚興趣，然而，他的導師 Andrew Zisserman 教授則更傾向做「非熱點但更有價值」的研究。「開週會的時候，我的同學可以向 AZ 彙報每週的工作進度，但我往往是拿一堆 paper 進去，又拿著一堆新的、要讀的 paper 出來」。與此同時，由於英國對醫療影像數據的控制非常嚴格，沒有數據就無法開展研究，在另一位導師 J Alison Noble 那裡，他也無法得到反饋。「截止畢業的前一年，我只發了一篇 Workshops 論文，我向兩個導師反饋，再這樣下去怕是畢不了業」。

正所謂塞翁失馬，焉知非福。由於多個選題被導師否定而無法實施，空閑時間他幾乎閱讀了那個時代計算機視覺領域的全部論文，這種積累也為他的未來科研奠定了堅實的基礎。正如他所言，「我當時覺得，只要是導師能確定了我的 topic，我幾天就能做完」。

2018 年，在兩位導師的支持下，謝偉迪分別在計算機視覺、醫療圖像等方向發表論文 7 篇，順利畢業。AZ 也認可了他的實力，邀請他繼續攻讀博士後，專門做計算機視覺方向的研究，直到 2022 年回國。

謝偉迪畢業照

知識是計算機視覺與醫療的最本質區別

家庭與工作的平衡點困擾著無數人，謝偉迪也是如此。「選擇回國是一個很突然的決定，雖然已經留在牛津，也看到了助理教授 offer 的機會，但我逐漸意識到，那裡的環境並不適合我繼續深入研究，另一方面，作為一位新手父親，我當時的經濟和精力都不足以支持家庭」。

在筆者看來，謝偉迪身上有一種獨特而鮮明的性格，除了科研看重的謙遜務實之外，更多了一份果敢。決定回國的想法一出，他立馬聯繫國內高校，沒有考慮「海外優青」之類的帽子，也沒有考慮「貨比三家」，只把簡曆投給了上海交通大學，並順利入職。

謝偉迪在交大上課

有趣的是，上海交大的張婭老師扮演了他入職過程中的「HR」，而和張婭老師相識，源於一篇發表的期刊論文。「2018 年的時候，張婭老師和她的學生想複現我曾發表的醫療影像相關論文，就加了我的微信」。正是這個契機為他後續歸國鋪就了橋樑，將簡曆發給張婭老師後，他很快得到回覆，「幸運的是，學校很快就推進了整個過程」。

入職上海交大之後，除了繼續原有的計算機視覺研究，他開始深耕醫療人工智能。「我當時想嘗試一下 AI for Science 的研究，因為對醫療健康接觸的比較多，也感興趣，就選了這個方向」。

值得一提的是，2022 年，恰逢 ChatGPT 出現，謝偉迪決定從語言入手，放棄當時備受追捧的醫療影像輸入。「我認為醫療與計算機視覺之間最本質的區別就是知識，因為醫學更多的講究尋證，而且有著系統且規範的知識，但視覺領域的醫療影像很難將知識嵌入模型」。在他的設想中，團隊可以將醫學知識嵌入到語言模型中，隨後將視覺模型與語言模型對齊，就能將醫學知識傳遞給視覺模型了。

筆者認為，或許是受到 Andrew Zisserman 教授的影響，在謝偉迪的身上，我們能深刻感受到他對科研的敏銳直覺，正如他對自己導師的評價：「AZ 的很多 topic 並不追求短期熱點，而是著眼於長期的價值」。比如，在開發視覺-語言模型 PMC-CLIP 時，由於很多研究都是首次進行，團隊的學生並不能完全理解這個項目的意義——為什麼要把互聯網所有的論文爬下來？為什麼要提取圖像和註釋來訓練模型……「甚至在提交論文時，MICCAI 還差點拒稿」。

然而，過了一段時間後，視覺-語言模型突然火爆，PMC-CLIP 模型也被 MICCAI 評為「Young Scientist Publication Impact Award, Final List」，成果也被認可。「我最初也很難說服我的學生這項研究到底有什麼用，可能我比較幸運，選擇的 topic 恰好是後來大家感興趣的事」。

在訪談中，謝偉迪教授多次提及「幸運」——被牛津大學錄取是幸運；首批獲得 Oxford-Google DeepMind 獎學金是幸運；回國後順利入職上海交大是幸運；研究方向與技術路徑的選擇亦是幸運……但在筆者看來，運氣大多都不是空穴來風，或許是曾經一個舉動埋下的伏筆，又或許是久而久之的積累蓄力推動了當下的正確抉擇。

定義問題比解決問題更重要

值得一提的是，謝偉迪曾慶幸「自己選擇的 topic 恰好是後來大家感興趣的事」。但筆者認為，研究課題的選擇恰恰反應了團隊帶頭人在該領域的獨到觀察，而謝偉迪將其表示為「定義問題」，在他看來，定義問題比解決問題更重要，只要一個有意義的問題被定義下來，後續會有無數的人跟進和解決。因此，我們需要思考，在當下的這個階段，什麼問題是最值得讓模型去解決的？這點很重要。

進一步地，當我們解決問題時，「人才-數據-算力」更是缺一不可。

當前，AI4S 的發展尚在初期，AI 從業者在模型構建和框架優化上更佔優勢，Science 從業者則更擅長精準定位垂直領域的科學問題，雙方也一直在探索一種普適的合作模式。在這方面，謝偉迪團隊選擇與上海交大醫學院的很多老師和同學們進行合作，充分利用其醫學領域的專業知識，讓他們擔任顧問角色，幫助團隊判斷研究方向是否具備實際的醫學價值。此外，他們還充當「質檢員」的角色，負責抽樣數據的質量，確保數據的乾淨程度達到 90% 或以上。

與此同時，隨著團隊建設的逐步完善，學生們已熟練掌握網絡數據爬取技術，下一步面臨的問題是，互聯網數據資源接近枯竭。在這方面，團隊希望與醫院合作，獲取更高質量的醫學數據，嘗試讓模型進行落地。謝偉迪強調，「知識驅動」或「數據與知識聯合驅動」，比單純的「數據驅動」更重要，因此，團隊希望將醫學知識置於核心位置，和隊友們一起解決更有實際意義的問題。

值得一提的是，長期以來，醫療 AI 的可解釋性一直是醫生們的「心頭大病」。對此，謝偉迪認為，如果 AI 的性能足夠強大，在診斷準確性上超越頂尖醫生，可解釋性將不再是問題。例如，Google 推出的 Med-PaLM 2 模型在美國 USMLE 執業醫師資格考試中已取得 86.5 的高分，此外，他們的團隊也曾連續推出醫療大語言模型 PMC-LLaMA、MMed-LLaMA，視覺-語言模型 MedVInT、RadFM ，通用分割模型 SAT 等，多個模型被行業視為 baseline，並在 NPJ Digital Medicine、Nature Communications、ICCV、ECCV、NeurIPS、MICCAI 等知名期刊/頂會上發表，這些成果的迭代速度正在逐步改變醫生對 AI 的看法，建立高質量的合作關係將未來可期。

而在算力資源、資金保障方面，上海交通大學也為團隊的前期研究和未來成果轉化提供了全方位支持，學院不同團隊之間也在積極探討合作機會，學術氛圍濃厚。

做有價值的研究

在與謝偉迪教授的交流中，他多次提到，希望做些有價值的研究。在他看來，團隊以往的研究只能算是「學術界的一個 toy 原型」，小模型想要實現最終落地必須要進一步 scale up。他希望，這些原型能夠給其他研究人員甚至工業界提供參考，告訴大家需要用什麼樣的數據、如何處理數據、怎麼構建和訓練模型、以及如何設定 instruction 等。

未來，團隊計劃構建面向臨床的 super instruction，將醫生感興趣的 100 餘個任務整合訓練，讓模型專注於解決實際臨床需求。對此，他評價：「傳統語言模型多用選擇題來評估，但與醫生交流時會發現，他們並不關心選擇題得分有多高，而是更在意模型是否能夠解決實際問題，比如勝任臨床任務等」。

另外，團隊已經開始下沉至基因組學、DNA、RNA 和氨基酸等層面的相關研究，突破過去依賴圖像和文本的局限，他們希望為罕見病診斷和新藥研發等創造更多的可能性，期待他們的未來成果。

更多成果詳見謝偉迪 Google Scholar：https://scholar.google.com/citations?user=Vtrqj4gAAAAJ&hl=zh-CN

本文來自微信公眾號「HyperAI超神經」，作者：十九，36氪經授權發佈。