首個「主任級AI醫生」來了,AI正成為患者問診第一站

AI正在與醫生正面交鋒,讓醫生是絕對權威的時代成為過去式。現在,患者在看病之前,會先用AI大模型問一遍,再到醫院與醫生討論病情。
「不管醫生喜歡不喜歡,我們都要面臨這樣的問題,很多病人是問了DeepSeek或者ChatGPT之後,再來醫院看病。」北京大學醫學部皮膚與性病學系主任,北京大學人民醫院皮膚科副主任、主任醫師、博士生導師李厚敏對作者表示。
尤其是她發現,在一線城市,甚至有生活在國外而回國看病的患者,他們還瞭解各國的診療指南,並以此與醫生探討問題。
而隨著垂類大模型正在醫學領域展現巨大潛力,醫療大模型臨床輔助實用性得到進一步的提高。
今年5月,OpenAI發佈了全新的開源模型HealthBench。這是一項衡量AI模型在醫療領域新的基準測試,由來自60個國家的262位醫生合作打造。HealthBench內置了5000段真實的健康對話,每段對話都配有醫生創建的自定義評分標準。而GPT-4.1在評分模型的7個主題中,有5個主題的表現超過了醫生平均水平。
7月,微軟最新發佈的突破性醫療AI系統MAI-DxO。研究人員收集了《新英格蘭醫學雜誌》發佈的真實疑難病例,在304例病例測試中,MAI-DxO診斷系統的AI診斷準確率達85.5%,遠超人類醫生20%左右的準確率,而MAI-DxO成本更低、效率更高。
國產大模型在這一領域也有相關進展披露。7月23日,夸克方面宣佈,夸克健康大模型成功通過中國12門核心學科的主任醫師筆試評測。目前,「主任級AI醫生」能力已全面集成至夸克的AI搜索中,用戶在查詢健康問題時,選擇深度搜索即可調用。
夸克健康大模型以通義千問為基礎,面向垂直場景的做了深度工程化的工作。夸克健康算法負責人徐健向作者介紹,夸克健康大模型的核心突破之一,是構建出「慢思考」能力。
該能力融合了鏈式推理與多階段臨床演繹路徑建模,驅動模型在面對複雜醫療問題時,能夠分階段、層層深入地推導出最終回答。
這背後是基於夸克構建的「雙數據產線+雙獎勵機制」的工程體系。一方面,模型將醫學數據劃分為「可驗證」和「不可驗證」兩類,分別對應診斷類任務和健康建議類任務;另一方面,在訓練方法上引入「過程獎勵模型」和「結果獎勵模型」,分別評估模型推理鏈的合理性與最終結論的準確性,提升模型的臨床可解釋性和推理一致性。
據徐健介紹,健康大模型在診療上的效果,門診常見病場景下,模型診斷準確率達90.78%,與人類醫生書寫的病曆準確率水平相當。
事實上,在健康領域,模型可靠性至關重要,一個錯誤的答案的破壞性,可以抵消掉數個正確答案為AI帶來的優勢。
醫療垂直模型需要專業醫師團隊的深度參與。OpenAI聯動了多國醫生聯合打造醫療模型,而夸克健康大模型背後也有千人規模的專業醫師標註團隊,其中,超過400名為副主任醫師及以上的高資歷醫療專家。
不過,很多醫生對於醫療大模型秉持的是審慎接受的態度。
李厚敏認為,診療指南或者AI給出的答案通常都很泛,針對個體具體的病症的診療,還是需要專業人士給出建議。而且,面對同一個AI解答,學醫與沒有學醫的人,是無法達到同等級水平來理解具體的病症,這是為什麼當前AI還不能替代醫生底層邏輯之一。
「患者可以通過AI收穫對疾病基礎知識的認知,比如說,皮膚的問題可能與作息、睡眠有關,也可能是壓力與焦慮導致。AI可以讓他們更好地理解病情,這二者之間不矛盾。」李厚敏說。
事實上,不只是患者使用AI問診,醫生群體的成長路徑,正或多或少由AI來輔助塑造。
據夸克健康運營負責人趙存忠透露,當前使用夸克健康的醫學生群體月活躍用戶已經超過了200萬,佔總體醫學生50%以上。他們分析後發現,周內學習、期末考試時間的上半周,醫學生使用AI的頻率最高。醫學生的三大核心訴求是解題、查解析、術語解釋和教材知識點。
後續,專業搜索也將逐步延伸到低年資醫生等垂直人群,AI可以滿足臨床的知識查詢和處理決策、用藥需求,也包括高年資醫生的科研、學術搜索的工作。
AI的另一個重要作用體現在輔助精神疾病的治療上,因為這類疾病具有一定的隱蔽性。
武漢大學精神衛生中心主任、教授、主任醫師、博士生導師王惠玲認為,抑鬱症看不見、摸不著,但確實會影響人們的生活。現在大家對精神疾病和心理問題,往往有一種「病恥感」。
王惠玲分享了一個病例。她有一位嚴重抑鬱症患者,該患者為了迎合外界期望(其老師曾建議他不要一臉「苦相」),通過刻意練習展現出標準化、極具迷惑性的「陽光笑容」,甚至騙過了專業醫生。但他內心痛苦始終真實存在,伴隨失眠等症狀,影響日常生活。
在這個病例中,AI則可以通過分析面部表情(如瞳孔變化)、語音語調和動作姿態等細微生物標記,客觀識別「假笑」,輔助診斷抑鬱症,避免被表象誤導。
實際上,當AI朝著「高情商」進化的時候,它能解決的不僅是專業知識的問題,還能在日常生活中,給予人類情感支持。
萬事不決問AI,生活中的煩惱事,AI也會提供解決方案。而當AI產品越來越模糊年齡邊界,借助AI玩具拓展至幼兒等更低齡階段的時候,這又會對人類的認知和行為模式產生什麼影響?
王惠玲對作者表示,這正是目前國內專家正在思考和研究的問題。現在的確有很多年青人通過與AI溝通的方式傾訴煩惱。至於到底會產生什麼影響,還有待足夠的樣本數據觀察。
她認為,有渠道總比沒有渠道要好。這類陪伴式AI,解決當前一個現實問題是,在心理臨床診療中,人力資源不足的問題。現在的醫療機構會採用輔助心理治療的機器人,雖然這類工具還不太完善,但至少可以減少專業醫生的部分工作量,以節省醫療資源。
現階段,一個較好的場景是學生群體心理問題治療。她的同事正在做的事情是,在學生喜歡的「AI樹洞」里發現那些有潛在自殺傾向的高危人群,提前做好相關干預工作,減少不良事件的發生。
不過,她也提醒,與AI溝通的前提是,要關注AI的質量,以及,構建它背後的數據庫,因為不排除有的社區本身是充滿負能量的,則會造成更壞的影響。AI心理治療效果,取決於用戶選擇用什麼AI。
心智成熟的人可以選擇自認為合適的方式緩解壓力。而對更低齡的兒童來說,依賴電子產品已經是一種趨勢。而這種情況究竟會對人類產生什麼影響,還需要更系統的觀察。
王惠玲舉例說,這類問題有點像是早教,家長們往往傾向於讓小朋友更早的識字、寫字,但最近有學者研究後發現,過早學習寫字並不利於左右腦的發育,早教可以讓小朋友聽、學語言,唱歌,但學習寫字可能會對大腦發育產生一定的負面影響。
「過早地使用電子產品,或者使用AI治療工具,是研究過程中一個有關倫理方面的考量,專業醫學上需要更多的數據和資料才能有答案。」王惠玲說。(本文正選於鈦媒體APP,作者|李程程,編輯|李玉鵬)