最懂醫療的國產推理大模型,果然來自百川智能
機器之心報導
編輯:澤南、蛋醬
年關將近,全球 AI 大模型卻突然捲了起來。
就在本週,Kimi 的新模型打開了強化學習 Scaling 新範式,DeepSeek R1 用開源的方式「接班了 OpenAI」,Google則把 Gemini 2.0 Flash Thinking 的上下文長度延伸到了 1M。種種跡象表明,進入推理增強賽道的各位玩家正試圖在最近一兩個月捲出個高下。
1 月 24 日上午,百川智能重磅發佈了國內首個全場景深度思考模型,把這一輪軍備競賽推向了高潮。

Baichuan-M1-preview 同時具備語言推理、視覺推理和搜索推理三個維度的全面推理能力,各項能力在多個領域的主流開源、閉源評測集上表現出眾。
在 AIME 和 Math 等數學基準測試以及 LiveCodeBench 代碼任務上,Baichuan-M1-preview 的成績超越了 o1-preview 等模型。

在視覺推理能力方面的 MMMU-val、MathVista 等權威評測中,Baichuan-M1-preview 超越了 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型。

目前,百川已經將 Baichuan-M1-preview 在百小應 App 中上線。一夜之間,百小應就具備了深度思考模式。
百川也展示了新模型在大量任務上的實際應用效果。在學術研究、軟件開發、醫療健康方面,Baichuan-M1-preview 的思考能力都展現出獨特優勢:


此外,醫療能力是 Baichuan-M1-preview 另一大亮點,它能像資深醫療專家一樣進行深度思考,構建嚴謹的醫學推理過程,搜索到醫療信息之後會對不同權威等級的證據進行專業分析與整合,並保證信息的準確性。

深度思考大模型
捲到了醫療領域
從落地效果看,百川智能的 M1 大模型可以說既有通用能力,又擁有專精的長板。
它解鎖了「醫療循證模式」。也就是說,當用戶使用 Baichuan-M1-preview 回答覆雜醫學問題時,模型能像「循證醫學」(Evidence-based medicine)一樣,用專業可靠的醫療知識作為推理依據,通過「擺事實、講道理」的循證方式提供言之有物、有理有據的解答。


為此,百川智能自建了涵蓋億級條目的循證醫學知識庫,囊括了國內外海量醫學論文、權威指南、專家共識、疾病與症狀解析、藥品說明等專業醫療內容,且以天為單位進行動態更新,及時收錄醫療領域的新突破、新進展。
雖然擁有了數據量龐大的醫療知識庫,但是醫學知識多樣性強、因果關係複雜,尤其疊加了互聯網上搜索到的信息後,我們仍然可能會遇到部分醫學數據、醫學理論不一致的情況。
面對這個關鍵問題,醫療循證模式還能運用醫學知識和證據評估標準,對證據進行多層分級,並對不同權威等級的證據進行專業分析與整合,識別各類權威信息的來源和可信度,從而避免因信息混雜導致的誤判,形成全面、連貫的醫學結論。
這樣一套操作下來,大大提升了大模型進行醫療推理的可靠性。
對於醫療領域的專業人士來說,Baichuan-M1-preview 的醫療循證模式首先在臨床場景中為他們提供了快速獲取跨學科、跨病種複雜臨床問題最新科研成果或權威指南的方式,能夠輔助疑難病症的診斷和治療提供,提升臨床決策效率。其次在醫學科研場景中,能夠幫助專業人士迅速檢索最前沿、最相關、最權威的研究成果,高效構建完整的領域知識體系,大幅提升科研探索的效率和質量。
對患者來說,他們可以基於醫療循證模式查詢通過權威指南和科學研究推理總結的結論,獲取第二診療意見、提升與醫生的溝通質量,以及清晰、廣泛的科普支持。
這一模式不只是提升了模型醫療結果的可信度,也為大模型在醫療等高度專業領域的落地應用指明了方向。
14B 版本直接開源
全鏈路優化過程曝光
對於 Baichuan-M1-preview 的小尺寸版模型 Baichuan-M1-14B,百川智能選擇了直接開源。
作為行業首個醫療增強開源模型,Baichuan-M1-14B 表現優異。在 cmexam、clinicalbench_hos、clinicalbench_hos、erke 等權威醫學知識和臨床能力評測上,它的成績超越了更大參數量的 Qwen2.5-72B-Instruct,與 o1-mini 也相差無幾。
Baichuan-M1 系列善於通過深度思考來解決複雜推理問題,並且尤其擅長複雜醫療問題的推理。那麼,它是如何做到的?
我們可以從 Baichuan-M1-14B 公佈的技術細節中做一些分析。
為了有效提升醫療能力,Baichuan-M1 -14B 從數據到訓練再到對齊方法,應用了一系列創新思路。
在數據收集方面,百川智能投入了大量時間,針對不同場景做了非常細緻的數據收集,覆蓋公開和非公開的數據。從中 / 英文專業醫療論文、院內真實醫療病例、教材和書籍,再到海量詞條、知識庫等構成的知識圖譜,總共整理了萬億級 token 的嚴肅醫療數據。
在此基礎上,百川還對全網數據進行了全面的分類和評估,在預訓練過程中執行嚴格的數據篩選策略以確保各科室的數據分佈均衡,保證模型能夠學到正確且有醫療價值的豐富信息。

數據醫療科室分類。
同時進行的一項重要工作是數據合成,百川針對知識圖譜、病例、教材、指南、知識庫、專家共識、問診記錄、學術論文等涵蓋真實且濃縮的醫療知識和決策經驗的高質量數據,對每種類型數據設計了針對性的數據合成方案。
借助業界先進模型,百川生成了超千億 token 高質量醫療推理數據、數據形式豐富,包含了醫療複雜決策推理鏈條、決策依據以及問答對等多種形式。
這些合成數據不僅具備多樣化的知識呈現形式,並且包含了大量與人類醫生真實決策一致的模擬思維過程,顯著提升了大模型的醫療推理能力。

另外在通用性方向上,百川智能構建了規模為 20T 的多語言數據集。其中包括 14T 英文數據、4T 中文數據,以及 2T 覆蓋全球前 30 大主流語言的多語言數據。
邁過數據門檻,來到模型的訓練階段。百川智能運用行業首創的多階段領域提升方案,將整個訓練分成了通識提升、醫療基礎知識提升、醫療進階知識提升三階段。

具體來說,三個階段分別是:
-
通識能力提升。進行基礎語言模型建模,提升模型的基礎語言能力、常識等能力;
-
醫療基礎知識提升。不斷提升模型高階能力、如推理,數學等,並顯著提升醫療數據的比例;
-
醫療進階知識提升。進一步提升數據質量和難度,對更高階的醫療能力、如推理、邏輯、疑難雜症等進行進一步優化。
在這之後是給模型定三觀的對齊階段(Model Alignment)。
在針對大模型的強化學習過程中,數據的質量與多樣性是模型性能提升的關鍵。為此,百川從多個領域精心收集並整理了偏序對(preference pairs)數據,這些數據覆蓋了廣泛的應用場景,旨在提升模型的全面能力。偏序對數據共約 100 萬條,涵蓋了多輪對話、指令跟隨、數學與代碼、推理任務等。
為了進一步提升模型的生成質量、邏輯推理能力和用戶偏好貼合度,百川設計了一套系統化的強化學習訓練流程,在監督微調(Supervised Finetuning)的基礎上分三步進行優化:
-
首先是用 ELO(Exploratory Log-likelihood Optimization)進行思維鏈探索。與傳統強化學習方法不同,ELO 摒棄了對獎勵模型的依賴,直接優化生成路徑邏輯,避免了可能引入偏差的問題。ELO 在增強生成邏輯性和保持內容多樣性的同時,確保了思維鏈生成過程的穩定性與高效性,為後續訓練階段提供了優質的初始化模型。
-
隨後基於偏序對數據使用 TDPO(Token-level Direct Preference Optimization)方法對模型進行優化。理論分析表明,在 DPO 的優化框架中,KL 散度項用於約束生成模型與參考模型(Reference Model)之間的分佈差異。然而,由於 KL 散度的約束效應隨著句子長度變化不均衡,其對短句的約束較強,而對長句的約束則顯著減弱。這種不均衡可能導致生成模型在長句生成過程中偏離參考模型,影響生成結果的邏輯性與質量。TDPO 可以做到計算效率與性能兼備,在 ELO 訓練的基礎上,模型進行了一輪的 TDPO 訓練,能夠確保精準貼合用戶偏好,同時兼顧長短句子的生成質量。
-
在最終階段,百川 M1 採用了 PPO(Proximal Policy Optimization)方法進一步優化模型的生成策略。PPO 充分利用了 ELO 和 TDPO 階段的優化成果,將模型的生成策略從局部的 Token 級別優化擴展至全局的策略調整,確保模型能夠在多種任務中生成符合用戶需求的高質量文本。
在一系列獨有特性和高質量數據的加持下,Baichuan-M1-14B 以一個非常小的尺寸在通能能力尤其是醫療能力上實現了極佳的效果。
Baichuan-M1-14B 開源鏈接:
-
Github: https://github.com/baichuan-inc/Baichuan-M1-14B
-
Huggingface(base): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Base
-
Huggingface(Instruct): https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct
-
NPU版本支持BF16推理:https://modelers.cn/models/MindIE/Baichuan-M1-14B-Base
難而正確的事
在 GPT-4 推出之後,大模型技術發展一度面臨著數據和並行化的瓶頸,人們一直在探索預訓練 Scaling Law 以外的智能擴展方式。直到去年 9 月,OpenAI 發佈主打「複雜推理」的 o1 大模型,指出了加強推理的前進方向。
在 o1 出現後,我們只需要一個通用模型就能解決比此前科學、代碼和數學特化模型能做的更難的問題。強推理大模型給所有人帶來了一次 GPT 式震撼,它從方法上證明了語言模型可以通過強化學習重現當年 AlphaGo 的成功 —— 給越多算力,就輸出越多智能,一直到超越人類水平。

從原理性的角度來分析,o1 的上線意味著 AI 能力的一個分水嶺 —— 大模型從此在回答很多複雜問題之前會進行仔細的思考,就像人類大腦的系統 1 和系統 2。如果說 AI 已經從僅使用系統 1(快速、自動、直觀、易出錯)進化到了可使用系統 2(緩慢、深思熟慮、有意識、可靠)展開思維和分析的話,它們就能夠解決很多此前無法解決的問題。
但從另一個角度看,大模型接入「慢系統」也意味著更加複雜的訓練過程、高延遲與高推理成本。決心投入更高量級的研究資源之後,領域內希望達到的目標是,推理 Scaling Law 能迅速打破大模型解決問題能力的現有天花板。
在 o1 推出之後,國內外頂尖 AI 公司紛紛跟進,百川智能自然是其中之一。但與行業中其他單純追求通用推理能力的公司不同,它選擇了醫療這個獨特的切入角度。
正如王小川所言,AI 醫療對大模型技術的需求幾乎沒有上限,其對知識、推理、多模態、情感感知、溝通共情等幾乎全部能力都提出了極高的要求。從某種意義上來說,AI 醫療完全可以等同於 AGI。
用大模型構建「AI 醫生」,這註定是一條難走的路。越是難做的事情,越需要有人去實現,做難而正確的事,才能真正地推動 AI 技術的進步。