網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

反超OpenAI，百川開源大模型醫(yī)療能力登頂世界第一

2025-08-11 16:06:45　來源: 生物世界

上海舉報(bào)

分享至

編輯丨王多魚

排版丨水成文

2025 年 8 月 11 日，百川智能發(fā)布了開源醫(yī)療增強(qiáng)大模型——Baichuan-M2。OpenAI于 8 月 6 日開源兩款大模型，主打部署成本超低和醫(yī)療能力最強(qiáng)；僅僅 5 天后，Baichuan-M2這一開源的、更小尺寸的模型實(shí)現(xiàn)了醫(yī)療能力反超，在所有開源模型中登頂世界第一。

今年 1 月，百川在行業(yè)內(nèi)首發(fā)了“AI患者模擬器”，用真實(shí)數(shù)據(jù)構(gòu)造上萬個(gè)不同年齡性別癥狀的 AI 患者，模擬了數(shù)百萬次診療過程，基于該范式開源的Baichuan-M1，是行業(yè)首個(gè)醫(yī)療增強(qiáng)模型。7 個(gè)月后，百川升級(jí)患者模擬器并引入模型端到端強(qiáng)化學(xué)習(xí)，訓(xùn)練的Baichuan-M2在 HealthBench 等評(píng)測(cè)上取得更大突破。

碾壓全球開源通用大模型，更低成本爆發(fā)更大性能

OpenAI 自 2024 年下半年起將醫(yī)療作為模型能力提升的首要方向，投入大量人力算力精力。今年 5 月，OpenAI 發(fā)布權(quán)威且貼近真實(shí)臨床場(chǎng)景的 HealthBench 醫(yī)療健康評(píng)測(cè)集，研究團(tuán)隊(duì)招募了 262 位醫(yī)生，來自 60 個(gè)國家、涉及 26 個(gè)醫(yī)學(xué)?？?、精通 49 種語言，他們生產(chǎn)了 48562 條評(píng)價(jià)標(biāo)準(zhǔn)，其中 86% 是實(shí)例特定標(biāo)準(zhǔn)（針對(duì)單個(gè)對(duì)話由醫(yī)生撰寫），14% 是共識(shí)標(biāo)準(zhǔn)。

這個(gè)包含了 5000 個(gè)逼真的多輪醫(yī)療對(duì)話的評(píng)測(cè)集，代表了 OpenAI 在醫(yī)療領(lǐng)域重點(diǎn)突破的決心。開源 GPT-OSS 系列模型過程中，OpenAI 首次將醫(yī)療作為第一重要的評(píng)測(cè)標(biāo)準(zhǔn)；發(fā)布 GPT-5 時(shí)，請(qǐng)到現(xiàn)場(chǎng)的唯一使用者是一位抗癌患者，醫(yī)療是大模型最有前景最具價(jià)值的方向，正成為頭部企業(yè)的共識(shí)。

Baichuan-M2在HealthBench上得到了 60.1 的高分，以 32B 的較小尺寸不僅反超OpenAI 最新開源模型 GPT-OSS-120B（得分57.6），更是力壓 Qwen3-235B、Deepseek R1、Kimi K2 等當(dāng)前世界所有前沿開源大模型。

針對(duì)醫(yī)療領(lǐng)域用戶隱私考慮下的模型私有化部署需求，百川智能對(duì) Baichuan-M2 進(jìn)行了極致輕量化，量化后的模型精度接近無損，可以在 RTX4090 上單卡部署，相比 DeepSeek-R1 H20 雙節(jié)點(diǎn)部署的方式，成本降至近 1/60。針對(duì)國產(chǎn)主流芯片的開發(fā)和適配，讓多數(shù)醫(yī)療機(jī)構(gòu)利用現(xiàn)有硬件條件既可實(shí)現(xiàn)快速部署。

此外，面向急診、門診等對(duì)于交互速度要求更高的場(chǎng)景，基于 Eagle-3 架構(gòu)優(yōu)化的 Baichuan-M2 MTP 版本在單用戶場(chǎng)景下實(shí)現(xiàn)了 74.9% 的 token 速度躍升。

醫(yī)療能力極大增強(qiáng)后，模型通用能力是否會(huì)下降？頭部大模型企業(yè)主要用數(shù)學(xué)和代碼數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)，百川是首個(gè)將醫(yī)療數(shù)據(jù)用作強(qiáng)化學(xué)習(xí)的中國團(tuán)隊(duì)，同時(shí)也驗(yàn)證了高質(zhì)量醫(yī)療數(shù)據(jù)對(duì)于模型通用能力的增長(zhǎng)具有較高價(jià)值，Baichuan-M2 模型在數(shù)學(xué)、指令遵循、寫作等通用核心性能上不降反升，因此這個(gè)模型也可應(yīng)用于醫(yī)療以外的其他領(lǐng)域。

醫(yī)療復(fù)雜問題比肩 GPT-5，超越眾多頂尖閉源大模型

在大語言模型的發(fā)展中，“知識(shí)”與“能力”是兩條相輔相成但又相對(duì)獨(dú)立的主線，模型在醫(yī)學(xué)考試（如 USMLE）上的表現(xiàn)被視為衡量醫(yī)療水平的重要指標(biāo)，但隨著題庫飽和，這類選擇題或短回復(fù)的評(píng)測(cè)難以反映模型的臨床實(shí)用性，醫(yī)療 AI 并不等于“刷題機(jī)器”，分?jǐn)?shù)再高也不意味著在真實(shí)醫(yī)療場(chǎng)景中好用。

OpenAI 從 HealthBench 整體數(shù)據(jù)中選出 1000 個(gè)特別困難的復(fù)雜問題作為 Hard 子集，用于驗(yàn)證模型多維度、全景化解決疑難復(fù)雜醫(yī)學(xué)問題的能力。這個(gè)評(píng)測(cè)方法標(biāo)準(zhǔn)更高、尺度更嚴(yán)，更能全面反映模型面臨“千奇百怪”復(fù)雜條件時(shí)的真實(shí)能力。今年 5 月這個(gè)評(píng)測(cè)集發(fā)布時(shí)，世界上所有頂尖模型得分都沒超過 32 分，許多前沿模型得分甚至為0。

Arora R K, Wei J, Hicks R S, et al. Healthbench: Evaluating large language models towards improved human health[J]. arXiv preprint arXiv:2505.08775, 2025.

GPT-5 發(fā)布時(shí)，OpenAI 特別強(qiáng)調(diào)，其是 HealthBench Hard 評(píng)測(cè)全球唯一超過 32 分的模型。而 Baichuan-M2 以 34.7 分成為全球第二款超過 32 分的模型，力壓世界所有其他頂尖閉源大模型。

盡管真實(shí)醫(yī)療場(chǎng)景中還存在大量 HealthBench Hard 評(píng)測(cè)尚未包含的因素，但至少已經(jīng)證明在多數(shù)醫(yī)療場(chǎng)景上的問答質(zhì)量，GPT-5 和 Baichuan-M2 已經(jīng)超越資深醫(yī)生，特別是在知識(shí)更新速度和全面性上，完全可以給人類醫(yī)生強(qiáng)大支持。

GPT-5 發(fā)布時(shí)既沒有開源，也沒有公布參數(shù)，無法私有化部署，無法低成本應(yīng)用。相比之下，Baichuan-M2 快速免費(fèi)開源，成為醫(yī)療行業(yè)低成本快速應(yīng)用部署世界頂尖醫(yī)療模型的唯一選擇。

AI 患者模擬器立功，百川智能開創(chuàng)強(qiáng)化學(xué)習(xí)新范式

百川技術(shù)團(tuán)隊(duì)在大型驗(yàn)證系統(tǒng)（Large Verifier System）、端到端強(qiáng)化學(xué)習(xí)、AI患者模擬器、多類型醫(yī)療數(shù)據(jù)用于深度推理等 4 個(gè)方面的創(chuàng)新探索，是 Baichuan-M2 模型取得飛躍式進(jìn)步的關(guān)鍵。

過去一年，可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）方法被頭部大模型企業(yè)廣泛使用，在數(shù)學(xué)、代碼領(lǐng)域顯著提升了模型性能。百川技術(shù)團(tuán)隊(duì)在這一過程中認(rèn)識(shí)到，提高復(fù)雜現(xiàn)實(shí)問題的可驗(yàn)證性是進(jìn)一步提升模型性能的關(guān)鍵。由此，他們構(gòu)建了大型驗(yàn)證系統(tǒng)，在通用驗(yàn)證器之外還設(shè)計(jì)了一套全面的醫(yī)學(xué)驗(yàn)證系統(tǒng)。

如果將未經(jīng)過醫(yī)療強(qiáng)化學(xué)習(xí)的大模型比作一位醫(yī)學(xué)實(shí)習(xí)生，這個(gè)系統(tǒng)則像一個(gè)要求極高、異常挑剔的醫(yī)療專家。它會(huì)從醫(yī)療正確性、完備性、安全性以及對(duì)患者的友好性等多個(gè)維度，細(xì)致地評(píng)估模型的輸出，指出其不足并引導(dǎo)模型改正，使其思維方式更貼近專業(yè)醫(yī)生。

在這個(gè)強(qiáng)大驗(yàn)證系統(tǒng)的基礎(chǔ)上，團(tuán)隊(duì)采用多階段強(qiáng)化學(xué)習(xí)策略（Multi- Stage RL），將復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)分解為幾個(gè)易于管理的、分層的訓(xùn)練階段，逐步引導(dǎo)模型能力演變。

人類醫(yī)生在聽取患者描述病情時(shí)，很容易分辨患者描述中的邏輯漏洞、從含混不清的表達(dá)中辨別出真實(shí)病因。現(xiàn)實(shí)中患者幾乎無法全面準(zhǔn)確表達(dá)自己的癥狀，僅基于靜態(tài)的病例、指南等醫(yī)療數(shù)據(jù)訓(xùn)練，模型無法掌握人類醫(yī)生的這一能力。為了突破這一瓶頸，百川技術(shù)團(tuán)隊(duì)升級(jí)迭代了今年初首創(chuàng)的 AI 患者模擬器。這個(gè)模型器是使用真實(shí)病例構(gòu)建的 AI 系統(tǒng)，能夠模擬千差萬別的患者、癥狀、表達(dá)，特別是包含錯(cuò)誤噪聲的表達(dá)，最大程度還原了真實(shí)醫(yī)療場(chǎng)景。

在強(qiáng)化學(xué)習(xí)的多輪對(duì)話中，AI 患者與 AI 醫(yī)生快速生成數(shù)百萬條貼近真實(shí)的交互信息，驗(yàn)證器充當(dāng)裁判實(shí)時(shí)打分評(píng)估，根據(jù)打分結(jié)果模型策略動(dòng)態(tài)優(yōu)化，形成了一個(gè)具有規(guī)?；杀O(jiān)督信號(hào)的訓(xùn)練閉環(huán)，讓訓(xùn)練過程與效果如“飛輪”般效率倍增。

百川智能還構(gòu)建了一個(gè)以天為頻率更新的權(quán)威醫(yī)學(xué)數(shù)據(jù)庫，涵蓋病例、論文、文獻(xiàn)、指南、藥學(xué)、生物學(xué)、合成數(shù)據(jù)等。為防止綜合能力退化，采用醫(yī)學(xué)數(shù)據(jù)、通用數(shù)據(jù)、數(shù)學(xué)推理數(shù)據(jù) 2:2:1 的比例，并引入領(lǐng)域自我約束訓(xùn)練機(jī)制，確保模型是一個(gè)具有通識(shí)、推理等綜合能力的高水平醫(yī)生，避免成為只會(huì)醫(yī)學(xué)知識(shí)考試的高分低能者。

更多技術(shù)創(chuàng)新點(diǎn)詳見https://www.baichuan-ai.com/blog/baichuan-M2

這些技術(shù)探索與創(chuàng)新，不僅為醫(yī)療能力提升開創(chuàng)了全新路徑，也為通用大模型強(qiáng)化學(xué)習(xí)提供了新思路新方法。

更遵循中國權(quán)威指南，更符合中國臨床診療場(chǎng)景

在中國臨床診療場(chǎng)景的問題評(píng)測(cè)中，對(duì)比 GPT 系列模型，Baichuan-M2 展現(xiàn)出更明顯的可用性優(yōu)勢(shì)。

百川從中國醫(yī)學(xué)指南對(duì)齊、醫(yī)療政策適配和患者需求洞察等多個(gè)維度進(jìn)行了深度優(yōu)化，中國醫(yī)療機(jī)構(gòu)和醫(yī)生應(yīng)用時(shí)，會(huì)明顯感受到這一區(qū)別。

中外患者人群特點(diǎn)不同、醫(yī)療服務(wù)資源與優(yōu)勢(shì)有所差異。例如，肝細(xì)胞癌（肝癌的最主要類型），中國以乙肝病毒相關(guān)肝癌為主，西方更多是酒精或丙肝相關(guān)肝癌，不同類型患者的的手術(shù)風(fēng)險(xiǎn)不同；加上中國外科手術(shù)經(jīng)驗(yàn)豐富、手術(shù)期管理成熟，因此，在同一疾病遇到多種治療方案時(shí)，中西方指南對(duì)于優(yōu)選哪種治療方案存在差異。

在一個(gè)具體的真實(shí)案例中，針對(duì) CNLC IIa 期（BCLC B期）的肝細(xì)胞癌患者，Baichuan-M2 首推在具備手術(shù)條件的情況下進(jìn)行解剖性肝右葉切除手術(shù)（或根據(jù)腫瘤具體位置，可考慮擴(kuò)大右半肝切除、右三葉切除等），目標(biāo)是 R0 切除。在國家衛(wèi)健委最新發(fā)布的《原發(fā)性肝癌診療指南》（2024版）中，肝切除術(shù)是潛在根治性治療，可提供最佳的長(zhǎng)期生存獲益，Baichuan-M2 嚴(yán)格遵循這一方案。對(duì)于同一病癥，GPT-OSS-120B 則建議首選經(jīng)動(dòng)脈化療栓塞術(shù)（TACE），理由是符合 BCLCB 期治療指南。

臨床醫(yī)學(xué)專家認(rèn)為，類似的情況還有很多。僅就這個(gè)案例來說，手術(shù)切除或 TACE 都是可選方案，只是中西方指南不同，不是醫(yī)學(xué)上的高下之分，而是基于本地患者特點(diǎn)、醫(yī)療資源與當(dāng)前醫(yī)學(xué)發(fā)展水平權(quán)衡之下的最優(yōu)解。

醫(yī)療大模型能否將全球醫(yī)學(xué)知識(shí)、醫(yī)學(xué)證據(jù)轉(zhuǎn)化為符合本地優(yōu)勢(shì)特長(zhǎng)的臨床決策，也是為醫(yī)生和患者提供切實(shí)服務(wù)能力的關(guān)鍵，Baichuan-M2 為此所做的專門優(yōu)化，讓中國臨床場(chǎng)景有了專屬的頂尖模型。

真實(shí)病例實(shí)測(cè)表現(xiàn)極佳，多學(xué)科會(huì)診場(chǎng)景下超強(qiáng)能力得到初步驗(yàn)證

今年 2 月，以 Baichuan-M1 為底座的 AI 兒科醫(yī)生在國家兒童醫(yī)學(xué)中心多學(xué)科會(huì)診中大放異彩，獲得會(huì)診專家一致認(rèn)可。而 Baichuan-M2 在醫(yī)療溝通、診斷合理、檢查合理、醫(yī)療治療、醫(yī)療安全六個(gè)維度相較于 M1 均顯著提升。

在北京市海淀區(qū)衛(wèi)健委、北京大學(xué)第三醫(yī)院、國家兒童醫(yī)學(xué)中心等合作伙伴的支持下，

Baichuan-M2 在真實(shí)病例實(shí)測(cè)中體現(xiàn)出超強(qiáng)能力。

例如，一位 51 歲女士近兩個(gè)月睡眠充足仍感困倦、疲憊，脖子輕微腫脹。Baichuan-M2 根據(jù)醫(yī)患對(duì)話，詳細(xì)梳理出持續(xù)性疲勞、體重增加等多個(gè)支持診斷的關(guān)鍵癥狀，綜合考慮患者用藥史、年齡、合并癥狀等因素，精準(zhǔn)診斷出患者最可能病因?yàn)榧谞钕俟δ軠p退癥。

內(nèi)分泌科專家表示，Baichuan-M2 在關(guān)鍵征象基礎(chǔ)上提出首選假設(shè)（自身免疫性甲狀腺炎）并列出直接佐證、反證，之后給出條理化的鑒別診斷的推理方式，屬于典型的臨床思維流程，符合臨床醫(yī)學(xué)中公認(rèn)的 SOAP 分析方式（Subjective主觀資料、Objective客觀資料、Assessment評(píng)估、Plan計(jì)劃）。它所采用的“支持 / 不支持”兩欄逐一比對(duì)的方式也符合住院醫(yī)師寫病程記錄時(shí)常用的思路，最后給出進(jìn)一步檢查與管理建議，充分體現(xiàn)出“閉環(huán)思維”。

醫(yī)院之前部署的其他模型，知識(shí)問答上表現(xiàn)不錯(cuò)，但沒有這么專業(yè)的主任醫(yī)師級(jí)專家思維，Baichuan-M2 模型展現(xiàn)出人類高水平專家的思維方法讓醫(yī)生們驚嘆。

在另一真實(shí)案例中，一位 15 歲的小男孩莫名其妙咳嗽 2 個(gè)月，逐漸出現(xiàn)呼吸困難，吃了頭孢沒有好轉(zhuǎn)，急診時(shí)已經(jīng)“重癥肺炎、心包積液”。醫(yī)生將患兒的病歷作為輸入與 Baichuan-M2 進(jìn)行了診斷方面的討論。Baichuan-M2 全面復(fù)盤小男孩的病情，逐條引用 CT、支氣管鏡、血?dú)夥治龅葦?shù)據(jù)進(jìn)行推理，準(zhǔn)確鎖定“支氣管內(nèi)占位”主因，主動(dòng)給出氧療、抗菌/抗病毒劑量區(qū)間等極具執(zhí)行性的治療意見。

國家兒童醫(yī)學(xué)中心專家認(rèn)為，Baichuan-M2 在醫(yī)學(xué)正確性、證據(jù)鏈推理、可操作性上展現(xiàn)出極強(qiáng)的專業(yè)性，在風(fēng)險(xiǎn)預(yù)警方面的表現(xiàn)可圈可點(diǎn)，關(guān)注到患兒有呼吸衰竭、心包填塞等風(fēng)險(xiǎn)，并給出應(yīng)急方案。此外，它還將患兒既往血管瘤與當(dāng)前病變聯(lián)系，為醫(yī)生打開了更廣闊的思路。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.