百川的破局路徑是“造醫(yī)生-改路徑-促醫(yī)學(xué)”。
作者|Iris
編輯|王博
GPT-5的發(fā)布將AI行業(yè)的增長焦慮擺在了臺面——雖然GPT-5的效果并未達(dá)預(yù)期,但中美大模型之間的競爭依然焦灼。進(jìn)入理性陣痛期的國內(nèi)大模型公司仍在突圍應(yīng)變,各家都不希望在這場競爭中掉隊。
“到了十年來最好的狀態(tài)?!?/strong>半個月前百川智能創(chuàng)始人、CEO王小川這樣向「甲子光年」形容他的近況。
「甲子光年」和王小川結(jié)識多年,但這句話讓我們有些意外,同時也有些期待。
今天,我們找到了他的“好狀態(tài)”的來源——百川智能開源醫(yī)療增強大模型Baichuan-M2正式發(fā)布。
百川不僅發(fā)了新模型,新模型還很強。
OpenAI發(fā)布的HealthBench是一個醫(yī)療健康領(lǐng)域的評估測試集,評估結(jié)果顯示,在HealthBench上,Baichuan-M2全面超越了當(dāng)前所有前沿開源模型。
HealthBench評估測試結(jié)果,Baichuan-M2在最頂端
而HealthBench Hard是一個專門設(shè)計的困難場景評測集。在評測HealthBench Hard發(fā)布時,沒有任何模型可以超過32分,甚至很多前沿模型只能得到0分的成績。Baichuan-M2和GPT-5是目前全球唯二超過32分的模型,這體現(xiàn)了Baichuan-M2在解決復(fù)雜醫(yī)療場景任務(wù)上的優(yōu)秀能力。
HealthBench Hard評估測試結(jié)果
此外,在中國臨床診療場景的問題評測中,對比gpt-oss系列模型,Baichuan-M2則展現(xiàn)出更明顯的可用性優(yōu)勢。
兩年前,在百川智能官宣成立當(dāng)天,王小川就對我們說:“(OpenAI等公司)他們可以用幾萬張卡跑模型去通向AGI,但有些深水區(qū)他們就不碰了,比如醫(yī)學(xué),他們可能躲著走,但我要去碰這些東西,我需要更考慮落地應(yīng)用。”
2024年7月戰(zhàn)略會,百川決定聚焦醫(yī)療。2025年1月24日,百川發(fā)布了Baichuan-M1-preview,同時開源了 Baichuan-M1 的小尺寸版模型Baichuan-M1-14B,該模型為行業(yè)首個醫(yī)療增強開源模型。它的醫(yī)療能力超越了更大參數(shù)量的Qwen2.5-72B,與o1-mini相差無幾。而這次發(fā)布的Baichuan-M2依舊延續(xù)開源路線,參數(shù)量32B,為真實世界的醫(yī)療推理任務(wù)設(shè)計。
Baichuan-M2的亮點之一是患者模擬器。今年1月,百川在arXiv上發(fā)表“AI患者模擬器”論文,并基于該范式開源Baichuan-M1。后來,百川升級了“AI患者模擬器”并引入模型端到端強化學(xué)習(xí),訓(xùn)練發(fā)布了Baichuan-M2。
雖然AI醫(yī)療賽道遠(yuǎn)離大廠射程,不需要正面與其競爭,但這并不是一條容易的路。
數(shù)據(jù)、合規(guī)、技術(shù)落地等難題將很多公司擋在壁壘之外,聚焦醫(yī)療的百川在一條少有人走的路上行進(jìn),同行者寥寥,也時不時也會面臨“為何選擇這條窄路”的質(zhì)疑。
但近期,行業(yè)的水溫正在發(fā)生變化:AI的影響力逐漸傳導(dǎo)到最末端場景,甚至成為了醫(yī)院的新興奮點。一方面,全國大三甲醫(yī)院積極搶占新技術(shù)高地,積極擁抱AI來提高診療天花板;另一方面,進(jìn)入醫(yī)改深水期的醫(yī)療機構(gòu)生存壓力日漸增加,這也倒逼醫(yī)療機構(gòu)通過新技術(shù)壓縮成本來實現(xiàn)醫(yī)療普惠。
數(shù)據(jù)顯示,2024年中國百強醫(yī)院已累計發(fā)布至少60個??拼竽P?。昔日對人工智能持謹(jǐn)慎觀望態(tài)度的公立醫(yī)院,也擔(dān)心錯過新技術(shù)浪潮,開始接納并引入大模型。
在大洋彼岸,新發(fā)布的GPT-5也加注了在醫(yī)療場景的籌碼。英偉達(dá)、亞馬遜、谷歌、IBM等科技巨頭紛紛切入醫(yī)療領(lǐng)域,與相關(guān)企業(yè)尋求深度合作。
這些變化,也驗證了百川此前的技術(shù)猜想——醫(yī)療是大模型皇冠上的明珠。他們堅信醫(yī)療健康是智能時代最大的應(yīng)用之一,任何一個AI技術(shù)在醫(yī)療上都有用武之地。
1.從審視,到擁抱
雖然AI醫(yī)療前景廣闊,甚至上限遠(yuǎn)超AGI,但一直被行業(yè)質(zhì)疑這并不是一門“好生意”。
其中難點在于,醫(yī)療行業(yè)期待著“顛覆性技術(shù)”的橫空出世,卻受限于數(shù)據(jù)安全和臨床容錯低等問題,對AI技術(shù)持審視謹(jǐn)慎態(tài)度。
這增加了高質(zhì)量醫(yī)療數(shù)據(jù)的獲得門檻,同時各醫(yī)療機構(gòu)之間標(biāo)準(zhǔn)不同,因此數(shù)據(jù)難以共享。有行業(yè)人士透露,由于缺乏高質(zhì)量訓(xùn)練數(shù)據(jù),約八成醫(yī)療大模型項目止步于基礎(chǔ)研發(fā),無法進(jìn)入專業(yè)領(lǐng)域增強的實質(zhì)研發(fā)階段。
相對互聯(lián)網(wǎng)行業(yè),醫(yī)療、制藥非常傳統(tǒng)和封閉,這就導(dǎo)致了AI醫(yī)療賽道難以打開市場,滲透情況并不樂觀。相比發(fā)展速度迅猛的AI Chatbot賽道,AI醫(yī)療發(fā)展要緩慢許多,因此行業(yè)認(rèn)為醫(yī)療AI沒有這么快到來,這也讓百川在最初遭遇了不少質(zhì)疑的聲音。
然而,風(fēng)險與機遇并存。躬身入局一個還未完全成熟的賽道,需要承受拓荒期的陣痛,但也代表著能在行業(yè)拐點來臨時占據(jù)先發(fā)優(yōu)勢。
這個拐點,比大多數(shù)人預(yù)想得還要突然。2025年開年后,AI醫(yī)療行業(yè)的水溫變了,AI醫(yī)療市場逐步被激活。由于DeepSeek等AI工具的崛起,讓醫(yī)療行業(yè)對AI技術(shù)開始了從觀望到擁抱的轉(zhuǎn)變,他們擔(dān)心的是,錯失新一波的技術(shù)浪潮,在可能發(fā)生的行業(yè)洗牌中落后于人。
醫(yī)保改革也加速了這一進(jìn)程的到來。醫(yī)?;饘⒅鸩教^醫(yī)院,直接與藥械企業(yè)結(jié)算,可能對公立醫(yī)院的現(xiàn)金流造成更大沖擊。醫(yī)療機構(gòu)面臨的生存壓力,也迫使他們不得不將AI視作轉(zhuǎn)型的“解藥”。
這種心態(tài)的轉(zhuǎn)變,使得一年前還在觀望的醫(yī)院,開始爭相部署大模型。
僅春節(jié)后三周,全國就有92家三甲醫(yī)院完成大模型的本地化部署,其中包括北上廣多家頂級醫(yī)院。百川也借此落地了標(biāo)桿案例:3月20日,百川與北京兒童醫(yī)院、小兒方健康共同發(fā)布了全球首個兒科大模型——“福棠·百川”兒科大模型。
“福棠·百川”兒科大模型及AI兒科醫(yī)生產(chǎn)品發(fā)布現(xiàn)場,圖片來源:百川智能
這也得益于百川前期的行業(yè)積淀:在2024年底前組建了高水平的醫(yī)學(xué)部,能指導(dǎo)和支持百川醫(yī)療模型的研發(fā)工作,推動與高水平醫(yī)療機構(gòu)的合作。目前北京十三家國家醫(yī)學(xué)中心,有七家已經(jīng)和百川建立了聯(lián)系。
這些醫(yī)療機構(gòu)也希望,借助大模型突破傳統(tǒng)醫(yī)療的能力邊界,能像專醫(yī)生一樣整合最佳醫(yī)學(xué)證據(jù),為患者制定科學(xué)、個性化的診療方案。
這也對醫(yī)療大模型的準(zhǔn)確率提出了更高要求。以“福棠·百川”兒科大模型為例,在兒科多學(xué)科專家會診中,其給出的診療方案與北京兒童醫(yī)院專家會診結(jié)果吻合率達(dá)95%。大模型參與會診,使得頂級醫(yī)療機構(gòu)結(jié)合AI形成新的醫(yī)療模式成為可能。
這種變化也體現(xiàn)在醫(yī)生個體的診療行為轉(zhuǎn)變上。
數(shù)據(jù)顯示,一、二級醫(yī)生中接近一半已使用過AI-CDSS軟件,他們對AI醫(yī)療軟件的接受程度逐步提高,且有將其引入臨床工作的趨勢??梢灶A(yù)見的是,隨著年輕醫(yī)生逐漸成為中堅力量,未來將有更多醫(yī)生以開放的態(tài)度接受Al。
這一現(xiàn)狀,是行業(yè)的長期主義者早就預(yù)見的,他們判斷基于,醫(yī)療行業(yè)的瓶頸是優(yōu)質(zhì)的醫(yī)生的培養(yǎng)和供給,大模型能力邊界的不斷躍遷帶來破局的可能——大模型智能體能提供無限的AI醫(yī)生供給,改善醫(yī)療行業(yè)的生產(chǎn)力難題。同時,醫(yī)療界長期存在的痛點問題,包括人員不足、效率不高、醫(yī)療資源配置不均等,讓行業(yè)內(nèi)外寄希望于找到新技術(shù)的解藥。
2.AI是解藥嗎?
實際上,上述痛點都指向一個核心指標(biāo)——醫(yī)療行業(yè)的生產(chǎn)力問題。行業(yè)缺乏全病程、全生命周期的真實數(shù)據(jù)和優(yōu)質(zhì)的醫(yī)生的培養(yǎng)和供給。
另外,目前國內(nèi)醫(yī)療資源呈現(xiàn)出典型的結(jié)構(gòu)性失衡局面。最新統(tǒng)計表明,全國醫(yī)療機構(gòu)中95%以上是基層醫(yī)療機構(gòu),三級甲等醫(yī)院占比僅0.25%。由于患者就醫(yī)選擇的集中化傾向,這種供需矛盾表現(xiàn)得尤為突出。這種"基層冷、大醫(yī)院熱"的現(xiàn)象,不僅加劇了看病難問題,也制約著分級診療制度的有效實施。
AI如何才能觸及這些核心問題?
百川的破局路徑是“造醫(yī)生-改路徑-促醫(yī)學(xué)”。
通過推廣AI醫(yī)生,解決供需失衡。他們重點培育最緊缺的科室方向,如全科、兒科,通過AI醫(yī)生實現(xiàn)規(guī)?;┙o。AI與真人醫(yī)生協(xié)作,提升基層和??漆t(yī)療的可及性,緩解醫(yī)療資源分布不均問題。
例如,百川AI助診儀在海淀區(qū)多個社區(qū)衛(wèi)生服務(wù)中心上崗,“AI+真人”的雙醫(yī)模式累計服務(wù)7743人次。上文提到的“福棠·百川”AI兒科醫(yī)生也針對性地開發(fā)了基層版,幫助基層醫(yī)生實現(xiàn)兒童病毒性腦炎的初步診斷。
AI醫(yī)生在基層醫(yī)療的應(yīng)用,在提高基層醫(yī)生診療水平的同時,改變就診路徑,從而助力分級診療體系建設(shè)。
AI醫(yī)生具有豐富的醫(yī)學(xué)知識以及媲美三甲主治醫(yī)師的診療能力,其以雙醫(yī)模式的形式部署到基層醫(yī)療機構(gòu)之后,能夠為基層醫(yī)生查漏補缺,相當(dāng)于為每一位基層醫(yī)生配備了一個三甲主治醫(yī)師的助手。如此一來,很多常見病在基層醫(yī)院就能解決,居民就不用小病也搶號擠三甲了,從而實現(xiàn)就診路徑的改變,助力分級診療體系建設(shè)。
另外,AI醫(yī)生的普及也能解決就診過程中的最大痛點——無法獲取病人全周期數(shù)據(jù)。
當(dāng)AI醫(yī)生成為每個人生活中的標(biāo)配后,它能夠掌握用戶全生命周期的數(shù)據(jù),甚至比醫(yī)生更加了解病人的整體健康情況,這有助于醫(yī)院更準(zhǔn)確地判斷病情。
在這些服務(wù)中產(chǎn)生的數(shù)據(jù)和對話,將助力臨床醫(yī)學(xué)和流行病學(xué)突破性發(fā)展,并有望建立生命模型,最終走向個體化精準(zhǔn)醫(yī)療。
從這個角度來說,在醫(yī)療領(lǐng)域,AI并不只是簡單的工具,還有著擴展人腦認(rèn)知邊界和突破現(xiàn)有醫(yī)療范式天花板的可能,甚至能為全人類的健康做出貢獻(xiàn)。
這一美好愿景,也是許多AI醫(yī)療從業(yè)者堅持前行的精神動力。
國內(nèi)首次“AI兒科醫(yī)生+多學(xué)科專家”的雙醫(yī)并行多學(xué)科會診
目前,行業(yè)在這些方向上的探索,也已經(jīng)初具雛形,基層醫(yī)院也開始積極探索這些技術(shù)路徑的深度應(yīng)用,早在2024年底,海淀區(qū)就聯(lián)合百川智能率先探索以AI 助力基層醫(yī)療發(fā)展的新路徑,來共同打造“AI醫(yī)生-真人醫(yī)生雙醫(yī)協(xié)同”的基層醫(yī)療服務(wù)新模式。
這些案例也預(yù)示著,AI醫(yī)療普惠的愿景正在加速實現(xiàn)。
3.尋找通向星辰大海的最佳技術(shù)路徑
在真實診療中,醫(yī)生需要處理模糊的病情描述、動態(tài)的醫(yī)患溝通、個性化的治療決策,這對大模型的邏輯推理、知識整合、交互能力提出了更高要求。
百川智能最新發(fā)布的Baichuan-M2,也針對這些指標(biāo)進(jìn)行了性能及場景優(yōu)化提升。
在Baichuan-M2的構(gòu)建過程中,百川結(jié)合醫(yī)療場景自身特點設(shè)計了一套較為全面的醫(yī)療Verifier系統(tǒng)。其核心方法是通過來自醫(yī)療關(guān)鍵子場景的醫(yī)生思維的數(shù)據(jù)訓(xùn)練,使其對齊醫(yī)生思維。并且結(jié)合來源于真實世界的醫(yī)療任務(wù),圍繞Large Verifier System開展端到端強化學(xué)習(xí),提升了模型解決復(fù)雜醫(yī)療場景任務(wù)上的能力。
得益于這些技術(shù)鏈路的改進(jìn),Baichuan-M2在HealthBench上的表現(xiàn)不錯。HealthBench Hard的評測結(jié)果顯示,Baichuan-M2和GPT-5是目前全球唯二超過32分的模型。
通過中期訓(xùn)練構(gòu)建高質(zhì)量醫(yī)療語料和通專兼顧的訓(xùn)練策略,使得Baichuan-M2在中國醫(yī)療場景的優(yōu)勢表現(xiàn)更為明顯。在中國臨床診療場景的問題評測中,對比gpt-oss系列模型,Baichuan-M2展現(xiàn)出更明顯的可用性優(yōu)勢,例如針對臨床診療的案例,M2更貼合中國醫(yī)療場景,更遵循中國權(quán)威指南推薦。
魯棒性差也是AI醫(yī)療落地的一大痛點,這是因為真實臨床醫(yī)患對話場景中患者的表達(dá)往往具有種種噪聲:癥狀描述因個體認(rèn)知差異(年齡、文化、教育背景等)而帶有偏見或是遺漏。
為了提升模型的魯棒性和自適應(yīng)性,百川構(gòu)建了“患者模擬器”。
“患者模擬器”示意圖
這是一個基于真實病例數(shù)據(jù)構(gòu)建的AI系統(tǒng),能夠模擬具有特定疾病背景、個體特征和行為模式的虛擬患者,在醫(yī)患對話中提供真實的癥狀表達(dá)和交互反應(yīng)。結(jié)合患者模擬器,訓(xùn)練模型在信息不全、表述模糊、前后矛盾等真實醫(yī)患對話中仍能作出合理決策。
盡管AI技術(shù)可以針對醫(yī)療環(huán)節(jié)的痛點“對癥下藥”,但這項技術(shù)能否最終落地,最終標(biāo)準(zhǔn)始終是臨床實用性及ROI——模型能否真正服務(wù)于醫(yī)生、優(yōu)化診療流程、提升患者體驗。這也要求模型能夠在低算力成本部署下實現(xiàn)更準(zhǔn)確的診療結(jié)果。
同時,醫(yī)療行業(yè)的特殊性決定了私有化低成本部署是剛需——醫(yī)療機構(gòu)既需要高性能 AI,又受限于預(yù)算和算力,且對數(shù)據(jù)隱私極為敏感。針對這一痛點,Baichuan-M2以幾乎最低的部署成本在HealthBench上取得了最優(yōu)效果,相比于OpenAI最新開源的gpt-oss-120b,再一次前移了帕累托前沿,從而進(jìn)一步提升了模型在真實醫(yī)療場景中的落地可能性與可擴展性。
北京兒童醫(yī)院與百川智能聯(lián)合研發(fā)的“AI兒科醫(yī)生”
目前,百川已經(jīng)與北京市海淀區(qū)衛(wèi)健委、北京大學(xué)第三醫(yī)院、國家兒童醫(yī)學(xué)中心等合作伙伴展開對Baichuan-M2的探索應(yīng)用。這也是百川一直以來致力的方向,在受眾面最大、最緊缺的醫(yī)生方向全科、兒科方向探索。
雖然星辰大海的終極愿景還很遙遠(yuǎn),但模型的迭代、技術(shù)的迭代和行業(yè)共識的共同推動,讓這條路徑上的每個里程碑,都可能重構(gòu)人類對抗疾病的方式。
道阻且長,行則將至。AI 醫(yī)療的發(fā)展仍面臨諸多難題,但每一次突破都讓我們離星辰大海更近一些。
(封面圖來源:AI生成;文中圖片來源:百川智能)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.