新智元報(bào)道
編輯:桃子
【新智元導(dǎo)讀】AI醫(yī)療,正成為全球科技巨頭的必爭(zhēng)之地!剛剛,百川智能第二款醫(yī)療增強(qiáng)大模型Baichuan-M2正式上線,首發(fā)即稱霸全球醫(yī)療開源AI,擊敗OpenAI開源模型gpt-oss-120b。
在AI賽道上,醫(yī)療領(lǐng)域正成為全球科技巨頭爭(zhēng)奪的「C位」。
想象一下,未來(lái)每個(gè)人兜里都能揣個(gè)「AI私人醫(yī)生」,隨時(shí)隨地給出診斷,這個(gè)畫面是不是超燃?
GPT-5發(fā)布會(huì)上,一個(gè)真實(shí)的故事,讓所有人感受到了AI醫(yī)療的震撼力量。
39歲Carolina在一周內(nèi),被診斷出三種癌癥,面對(duì)晦澀的活檢報(bào)告,她手足無(wú)措。
當(dāng)上傳報(bào)告到ChatGPT后,幾秒鐘內(nèi),復(fù)雜的醫(yī)學(xué)術(shù)語(yǔ)被翻譯成淺顯的語(yǔ)言,讓Carolina在恐慌中找到了一絲頭緒,對(duì)病情有了初步的了解。
這個(gè)鮮活的案例,再次點(diǎn)燃了AI醫(yī)療的無(wú)限可能,也讓人們看到技術(shù)如何賦能個(gè)體的深層意義。
在這條萬(wàn)億美金的賽道上,中國(guó)隊(duì)再次出手了。
今天,百川智能重磅發(fā)布Baichuan-M2,一款32B參數(shù)的醫(yī)療增強(qiáng)開源大模型。
在基準(zhǔn)測(cè)試中,M2直接吊打OpenAI開源僅5天的gpt-oss-120b,登頂全球開源醫(yī)療模型第一。
而且,它還一舉擊敗了除GPT-5之外的所有閉源模型。
接下來(lái),就來(lái)扒一扒這款「醫(yī)療卷王」的硬核實(shí)力。
全球開源醫(yī)療王者,C位出道
繼14B參數(shù)M1之后,Baichuan-M2是百川第二款醫(yī)療增強(qiáng)開源大模型,專為真實(shí)臨床場(chǎng)景定制。
通過(guò)端到端強(qiáng)化學(xué)習(xí),它在保持通用能力的同時(shí),醫(yī)療推理能力直接「起飛」。
在OpenAI的HealthBench評(píng)測(cè)中,M2的表現(xiàn)非常驚艷,僅以32B參數(shù)直接干翻gpt-oss-120b,碾壓Qwen3-235B-A22B-Thinking-2507、DeepSeek-R1-0528、GLM-4.5、Kimi-K2等開源前沿模型。
甚至,M2把o3、Grok3、Gemini 2.5 Pro、GPT-4.1等閉源頂尖模型也都按在地上摩擦。
要知道,HealthBench并非是簡(jiǎn)單的「刷題」測(cè)試,而是基于多輪醫(yī)患對(duì)話的硬核考核。
今年5月,,由全球60個(gè)國(guó)家,262名執(zhí)業(yè)醫(yī)生共同打造。
這個(gè)基準(zhǔn)包含了5000個(gè)基于現(xiàn)實(shí)場(chǎng)景的多輪醫(yī)療對(duì)話,每個(gè)對(duì)話都有醫(yī)生定制的評(píng)分標(biāo)準(zhǔn),來(lái)評(píng)估模型的響應(yīng)。
具體來(lái)說(shuō),它覆蓋了緊急響應(yīng)、醫(yī)療上下文理解、溝通能力、全球健康知識(shí)、醫(yī)學(xué)思維五大維度。
與此同時(shí),OpenAI還推出了HealthBench Hard,從總數(shù)據(jù)集中調(diào)整選中1000個(gè)特別復(fù)雜的難題作為Hard子集。
此前,在HealthBench Hard評(píng)測(cè)中,頂尖模型得分沒有一個(gè)可以超過(guò)32%,甚至很多前沿模型只能拿到0分。
Arora R K, Wei J, Hicks R S, et al. Healthbench: Evaluating large language models towards improved human health[J]. arXiv preprint arXiv:2505.08775, 2025.
而Baichuan-M2和GPT-5成為全球唯二的「學(xué)霸」,直接拉高了性能天花板。
這從側(cè)面恰恰印證了,M2在解決復(fù)雜醫(yī)療場(chǎng)景任務(wù)上的優(yōu)秀能力。
值得一提的是,Baichuan-M2醫(yī)療推理能力強(qiáng)化的同時(shí),并沒有犧牲模型的通用能力。
相反,通過(guò)高質(zhì)量數(shù)據(jù)訓(xùn)練,讓M2在數(shù)學(xué)、指令遵循、寫作等通用指標(biāo)上性能飆升。
與最新開源的Qwen3-32B相比,M2在多方位評(píng)測(cè)中全面領(lǐng)先。
相較于gpt-oss-120b,M2以更低部署成本推高了「帕累托前沿」,讓醫(yī)院用起來(lái)毫無(wú)壓力。
采用4bit量化后,模型可在RTX4090單卡部署,成本比DeepSeek-R1 H20雙節(jié)點(diǎn)部署降低了57倍。
同時(shí),它還適配國(guó)產(chǎn)芯片,讓醫(yī)療機(jī)構(gòu)利用現(xiàn)有硬件即可快速部署。
基于Eagle-3訓(xùn)練的MTP版本,在單用戶場(chǎng)景下token吞吐提升了74.9%,更適用于急診等高時(shí)效場(chǎng)景。
在多項(xiàng)「考試」中,Baichuan-M2全部通關(guān)。那么,在具體實(shí)測(cè)中,它的表現(xiàn)又如何呢?
代碼數(shù)學(xué),通通拿下
首先,來(lái)考考M2的通用能力。
草莓「圖靈測(cè)試」,根本不用思考,一步解決。
接下來(lái),讓它生成一個(gè)繪制太陽(yáng)系運(yùn)行動(dòng)態(tài)HTML。在推理過(guò)程中,它縝密地列出了設(shè)計(jì)思路和子任務(wù),隨后瘋狂輸出代碼。
最后,我們就得到了一個(gè)設(shè)計(jì)精美、且直觀的太陽(yáng)系動(dòng)態(tài)運(yùn)行圖。
再給它扔一道,最近連GPT-5都翻車的數(shù)學(xué)方程式求解題,M2神速輸出了正確的結(jié)果。
可以看到,不論在簡(jiǎn)單問(wèn)答,還是數(shù)學(xué)、代碼實(shí)測(cè)中,Baichuan-M2的表現(xiàn)非常穩(wěn)定。
而要說(shuō)M2最拿手的,當(dāng)然還是專業(yè)的醫(yī)療任務(wù)。
更懂中國(guó)人體質(zhì),嚴(yán)格遵循中國(guó)指南
AI醫(yī)療的落地,必須考慮地域差異,諸如中外患者特點(diǎn)、醫(yī)療服務(wù)資源與優(yōu)勢(shì)等等。
比如,肝細(xì)胞肝癌在中國(guó),以乙肝相關(guān)肝癌為主,而西方更多的是酒精或丙肝相關(guān)患者。不同類型的患者,手術(shù)風(fēng)險(xiǎn)也不盡相同。
再加上,中國(guó)外科手術(shù)經(jīng)驗(yàn)豐富、手術(shù)期管理成熟,中西方指南對(duì)于優(yōu)先哪種治療方案也各有不同。
舉個(gè)栗子,在面對(duì)CNLC IIa期(BCLC B期)肝癌患者時(shí),M2果斷推薦了手術(shù)切除——解剖性肝右葉切除。
或者是,根據(jù)腫瘤具體位置,考慮擴(kuò)大右半肝切除、右三葉切除等,目標(biāo)是R0切除。
在此過(guò)程中,它嚴(yán)格遵守了國(guó)家衛(wèi)健委發(fā)布的《原發(fā)性肝癌診療指南》(2024版),肝切除是潛在根治性治療,追求長(zhǎng)期生存。
針對(duì)同一病癥,gpt-oss-120b卻首選推薦了TACE(經(jīng)動(dòng)脈化療栓塞),給出的理由是:符合BCLCB期治療指南,當(dāng)前情況下手術(shù)切除和移植風(fēng)險(xiǎn)不理想。
通過(guò)對(duì)比,它忽視了手術(shù)可行性,略顯水土不服。
臨床專家表示,這樣的差異在大模型中常見,并非是高下之分,而是基于不同因素權(quán)衡之下的最優(yōu)解。
Baichuan-M2從中國(guó)指南對(duì)齊、政策適配、患者洞察等多維度優(yōu)化,讓中國(guó)醫(yī)生和患者感受到「專屬」服務(wù)。
不難看出,對(duì)比gpt-oss系列,M2展現(xiàn)出對(duì)中國(guó)臨床場(chǎng)景的更強(qiáng)適配性。
臨床診療實(shí)戰(zhàn),M2表現(xiàn)極佳
相較于gpt-oss系列,在中國(guó)臨床診療場(chǎng)景的問(wèn)題評(píng)測(cè)中,M2具備了更強(qiáng)的可用性優(yōu)勢(shì),堪稱「六邊形戰(zhàn)士」。
接下來(lái),再看個(gè)真實(shí)的案例。
一個(gè)15歲男孩,持續(xù)咳嗽兩個(gè)月,逐漸出現(xiàn)了呼吸困難,服用頭孢后無(wú)改善,初步診斷為「重癥肺炎」,并伴有心包積液。
在醫(yī)生看來(lái),這并非是普通的肺炎,入院后給男孩做了一系列檢查后,但還沒有拿到進(jìn)一步支氣管病理檢查結(jié)果。
為了進(jìn)一步明確診斷,醫(yī)生將病歷上傳到Baichuan-M2。
令人欣喜的是,M2就像一位熟練的「AI醫(yī)生」,全面復(fù)盤了病史、體格、影像和化驗(yàn)數(shù)據(jù)。
沒多久,它便鎖定了關(guān)鍵線索——支氣管內(nèi)占位。
在初步診斷中,它逐條引用了每一項(xiàng)檢查數(shù)據(jù),形成了完整的證據(jù)鏈。
此外,M2還預(yù)警了呼吸衰竭、心包填塞等風(fēng)險(xiǎn),并給出應(yīng)急方案。
最后,它會(huì)提供了下一步檢查與管理建議,形成了一個(gè)完整的「閉環(huán)」。
當(dāng)然,為了確保所有推理過(guò)程有跡可循,輸出全部結(jié)果后,M2也會(huì)提供詳細(xì)的參考來(lái)源,方便驗(yàn)證。
國(guó)家兒童醫(yī)學(xué)中心專家對(duì)M2的表現(xiàn)贊不絕口,「在醫(yī)學(xué)正確性、證據(jù)鏈推理、可操作性上,M2展現(xiàn)出極強(qiáng)的專業(yè)性,并在風(fēng)險(xiǎn)預(yù)警方面的表現(xiàn)可圈可點(diǎn)。
此外,它還將患者既往病史與當(dāng)前病變聯(lián)系,為醫(yī)生打開了更廣闊的思路」。
不僅如此,通過(guò)與北京市海淀區(qū)衛(wèi)健委、北京大學(xué)第三醫(yī)院、國(guó)家兒科醫(yī)學(xué)中心等權(quán)威機(jī)構(gòu)合作,Baichuan-M2已在多個(gè)真實(shí)病例中,展現(xiàn)出超越傳統(tǒng)AI的專家級(jí)臨床思維。
核心技術(shù)揭秘,強(qiáng)化學(xué)習(xí)立功
Baichuan-M2的成功,就藏在了一套「黑科技」組合拳里。
從Large Verifier System,到中期訓(xùn)練(Mid-Training),再到端到端RL、工程優(yōu)化,每一步都打下了堅(jiān)實(shí)的基礎(chǔ)。
Large Verifier System
在Baichuan-M2構(gòu)建過(guò)程中,Large Verifier System成為了核心,其基于可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR),針對(duì)醫(yī)療場(chǎng)景的復(fù)雜性而量身設(shè)計(jì)。
為什么百川團(tuán)隊(duì),選擇構(gòu)建Large Verifier System?
近一年來(lái),大模型后訓(xùn)練范式發(fā)生了重大升級(jí),特別是基于RLVR大規(guī)模RL訓(xùn)練,讓模型在數(shù)學(xué)、代碼、科學(xué)等領(lǐng)域效果爆棚。
這些領(lǐng)域的問(wèn)題,往往有著明確的答案和可驗(yàn)證的標(biāo)準(zhǔn)。
比如,在數(shù)學(xué)問(wèn)題中,模型的輸出可以直接通過(guò)設(shè)計(jì)驗(yàn)證是否準(zhǔn)確,從而生成可靠的獎(jiǎng)勵(lì)信號(hào),用于指導(dǎo)模型優(yōu)化。
然而,醫(yī)療問(wèn)題遠(yuǎn)比這些領(lǐng)域復(fù)雜的多,傳統(tǒng)RL驗(yàn)證系統(tǒng)在醫(yī)療領(lǐng)域效果不佳。
不同于數(shù)學(xué)的「對(duì)錯(cuò)分明」,醫(yī)療診斷沒有絕對(duì)的「標(biāo)準(zhǔn)答案」,同一癥狀可能對(duì)應(yīng)多種疾病,并需要多輪交互和證據(jù)鏈推理才能鎖定。
靜態(tài)的RL,無(wú)法處理這種情境,同時(shí)也難以模擬真實(shí)臨床中的各種噪聲。
在這個(gè)過(guò)程中,百川團(tuán)隊(duì)升級(jí)了底層原理的認(rèn)知——
可驗(yàn)證性才是RL for LLM系統(tǒng)的學(xué)習(xí)的前提,尤其改善真實(shí)場(chǎng)景復(fù)雜問(wèn)題的可驗(yàn)證性,才是繼續(xù)提升模型能力的關(guān)鍵。
這一點(diǎn),與CoT作者Jason Wei最新博客的觀點(diǎn),不謀而合。
為此,百川在通用Verifier基礎(chǔ)上,結(jié)合醫(yī)療場(chǎng)景的獨(dú)特性,設(shè)計(jì)了一套全面的醫(yī)療Verifier系統(tǒng)。
核心方法是,通過(guò)醫(yī)療關(guān)鍵子場(chǎng)景的醫(yī)生思維數(shù)據(jù)訓(xùn)練,讓Verifier與人類醫(yī)生的臨床邏輯對(duì)齊,再展開端到端強(qiáng)化學(xué)習(xí)。
簡(jiǎn)單說(shuō),這不是死板的規(guī)則匹配,而是活生生的「醫(yī)生大腦」模擬,讓模型在真實(shí)醫(yī)療任務(wù)中越練越牛。
1. 三類「黃金數(shù)據(jù)」,訓(xùn)出最強(qiáng)醫(yī)生大腦
要讓模型懂醫(yī)療,需要「投喂」高質(zhì)量數(shù)據(jù)。
百川團(tuán)隊(duì)精心挑選了三種醫(yī)療數(shù)據(jù)作為基礎(chǔ)輸入,每一種都針對(duì)不同痛點(diǎn),層層遞進(jìn):
· 患者病歷數(shù)據(jù):記錄了海量患者信息和診療細(xì)節(jié),很多臨床思維就藏在病歷中,從癥狀描述到診斷推斷,再到治療方案,全是真人醫(yī)生的實(shí)戰(zhàn)經(jīng)驗(yàn)。
· 醫(yī)學(xué)知識(shí)庫(kù)數(shù)據(jù):包括書籍、論文、指南等硬核資源。這些是醫(yī)療大模型的「知識(shí)基石」,確?;卮鸱稀羔t(yī)學(xué)常識(shí)」和「臨床經(jīng)驗(yàn)」,還降低安全風(fēng)險(xiǎn)。
· 通用醫(yī)療合成數(shù)據(jù):為了適配患者、醫(yī)生、護(hù)士等多方需求,百川構(gòu)建了面向不同場(chǎng)景的通用醫(yī)療verify任務(wù),覆蓋了八大維度,比如醫(yī)學(xué)準(zhǔn)確性、回答完整性、追問(wèn)感知等。
2. 患者模擬器:首創(chuàng)AI患者,模擬實(shí)戰(zhàn)演練
有了多源數(shù)據(jù)還不夠,真實(shí)的臨床場(chǎng)景,可沒有那么理想化。
患者表達(dá)往往具有種種噪聲:因年齡、文化、教育背景等差異,癥狀描述可能模糊帶有偏見,甚至遺漏關(guān)鍵信息。
這對(duì)傳統(tǒng)RL系統(tǒng)是一大挑戰(zhàn),它們僅會(huì)基于固定答案、規(guī)則進(jìn)行匹配。
百川團(tuán)隊(duì)希望,通過(guò)訓(xùn)練讓M2具備「魯棒性」和「自適應(yīng)性」。
在噪聲環(huán)境下,不僅可以實(shí)時(shí)重評(píng)估診斷假設(shè);還能根據(jù)信息質(zhì)量,動(dòng)態(tài)調(diào)整回復(fù)策略。
為了實(shí)現(xiàn)這一目標(biāo),百川基于此前研究,引入了患者模擬器——一個(gè)基于真實(shí)病例數(shù)據(jù)構(gòu)建的AI系統(tǒng)。
它能特定疾病背景、個(gè)體特征和行為模式的虛擬患者,相當(dāng)于捏一個(gè)「AI病人」。
在醫(yī)患對(duì)話中,它會(huì)提供真實(shí)的癥狀表達(dá)和交互反應(yīng),還帶有「人性化噪聲」。
值得一提的是,這是行業(yè)首創(chuàng)技術(shù),百川早在今年1月就發(fā)表了相關(guān)論文,瞬間圈粉無(wú)數(shù)。
論文地址:https://arxiv.org/pdf/2501.09484
在多輪對(duì)話的RL過(guò)程中,虛擬患者與醫(yī)生LLM實(shí)時(shí)互動(dòng),生成式Verifier根據(jù)這些信息動(dòng)態(tài)生成評(píng)分標(biāo)準(zhǔn),進(jìn)行優(yōu)化。
這項(xiàng)技術(shù)核心創(chuàng)新在于,把RL的獎(jiǎng)勵(lì)從靜態(tài)函數(shù)變成動(dòng)態(tài)生成系統(tǒng)。
也就是說(shuō),不再是預(yù)定義的死規(guī)則,而是基于真實(shí)場(chǎng)景特征的活機(jī)制。
這樣一來(lái),大大提升了醫(yī)療模型在復(fù)雜臨床環(huán)境中的適應(yīng)性和決策質(zhì)量。
這種「實(shí)戰(zhàn)演習(xí)」,恰恰讓M2在處理復(fù)雜醫(yī)療場(chǎng)景的任務(wù)中,遠(yuǎn)超傳統(tǒng)模型。
中期訓(xùn)練:醫(yī)療領(lǐng)域適應(yīng)性增強(qiáng)
一般來(lái)說(shuō),通用大模型在醫(yī)療應(yīng)用中有三大痛點(diǎn):醫(yī)學(xué)知識(shí)儲(chǔ)備不足、權(quán)威性欠缺、時(shí)效性滯后。
若是直接進(jìn)行后訓(xùn)練(post-training)容易陷入兩難,要么是知識(shí)汲取不夠,要么是幻覺加劇。
對(duì)此,百川的解法是中期訓(xùn)練(mid-training),在保持通用能力的同時(shí),輕量高效地增強(qiáng)模型醫(yī)療領(lǐng)域的適應(yīng)性。
這里,百川團(tuán)隊(duì)精選了公共醫(yī)學(xué)教材、臨床專著、藥品知識(shí)庫(kù)、最新診療指南和真實(shí)病例,形成專業(yè)庫(kù)。
在數(shù)據(jù)合成階段,重點(diǎn)強(qiáng)化兩維度——「結(jié)構(gòu)化表達(dá)」和「深度推理增強(qiáng)」。
結(jié)構(gòu)化表達(dá):基于知識(shí)保真原則,改寫原始文本,提升邏輯流暢度,同時(shí)嚴(yán)控幻覺引入
深度推理增強(qiáng):在知識(shí)密集段落和關(guān)鍵結(jié)論處,自適應(yīng)插入思維筆記,如知識(shí)關(guān)聯(lián)分析、批判性反思、論證驗(yàn)證、案例推演
在訓(xùn)練策略上,為了防止通用能力退化,百川用2:2:1配比高質(zhì)量醫(yī)療、其他通用和數(shù)學(xué)推理數(shù)據(jù),并引入領(lǐng)域自約束機(jī)制,確保了醫(yī)療專業(yè)性,以及語(yǔ)言理解、推理能力的雙贏。
具體來(lái)說(shuō),醫(yī)療數(shù)據(jù)采用雙任務(wù)范式,通用和數(shù)學(xué)數(shù)據(jù)以通用基座為參考模型,用KL散度約束輸出分布。
這種方案,在醫(yī)療知識(shí)密度、推理深度和通用性之間,達(dá)到了完美的平衡,為后續(xù)指令微調(diào)打下了堅(jiān)實(shí)基礎(chǔ)。
得益于此,M2不僅在醫(yī)療任務(wù)上強(qiáng)得一批,更在通用任務(wù)中穩(wěn)如老狗。
端到端強(qiáng)化學(xué)習(xí):多階段RL,訓(xùn)練效率拉滿
在強(qiáng)化學(xué)習(xí)階段,百川采用了多階段強(qiáng)化學(xué)習(xí)的策略,把復(fù)雜RL任務(wù)拆解成可控層次。
針對(duì)不同能力目標(biāo)、數(shù)據(jù)來(lái)源、評(píng)測(cè)機(jī)制,逐步引導(dǎo)模型演進(jìn)。從醫(yī)學(xué)常識(shí)推理,到患者交互,一層一層提升。
相較于單階段RL訓(xùn)練,多階段強(qiáng)化能有效分解訓(xùn)練難度,分階段采集和放大reward信號(hào),能提高模型泛化和魯棒性。
最終,可以保證M2在復(fù)雜醫(yī)療場(chǎng)景的實(shí)戰(zhàn)表現(xiàn)。
具體來(lái)說(shuō),百川團(tuán)隊(duì)采用了一個(gè)改進(jìn)版GRPO算作為策略優(yōu)化算法,并結(jié)合了開源社區(qū)提出的一些改進(jìn),確保多分布多來(lái)源數(shù)據(jù)上強(qiáng)化訓(xùn)練的穩(wěn)定與高效。
·Eliminating KL divergence:添加KL會(huì)大幅拖慢獎(jiǎng)勵(lì)增長(zhǎng)速率,還額外耗費(fèi)參考模型計(jì)算資源,剔除后可以讓訓(xùn)練更加高效。
·Clip-higher:提高重要性采樣的剪裁上限閾值,并保持剪裁下限閾值固定,能夠緩解熵值收斂問(wèn)題,從而讓模型探索新的解決方案。
· Loss normlization:面對(duì)多來(lái)源數(shù)據(jù)回答長(zhǎng)度不一的痛點(diǎn),把token級(jí)損失除以一個(gè)固定最大長(zhǎng)度再求和,徹底消除原來(lái)GRPO的長(zhǎng)度偏見。
·Advangtage normlization:針對(duì)多任務(wù)學(xué)習(xí)難度差異,一出優(yōu)勢(shì)計(jì)算中「除以標(biāo)準(zhǔn)差」的步驟,大幅提升多任務(wù)強(qiáng)化時(shí)的策略更新穩(wěn)定性。
·Dynamic Length reward:當(dāng)一批樣本中,大多數(shù)得分超閾值時(shí),才給高分樣本加一個(gè)負(fù)相關(guān)長(zhǎng)度獎(jiǎng)勵(lì),鼓勵(lì)更短、更高效的輸出,不會(huì)限制模型探索高獎(jiǎng)勵(lì)空間。
在工程優(yōu)化上,復(fù)雜的verify系統(tǒng)讓獎(jiǎng)勵(lì)評(píng)分耗時(shí)飆升,百川在verl基礎(chǔ)上,開發(fā)了完全異步的rollout+reward流程,基本消除了訓(xùn)練中的等待時(shí)間,讓整個(gè)過(guò)程絲滑高效。
以上創(chuàng)新,得以讓Baichuan-M2以小博大,還能在實(shí)戰(zhàn)中大放異彩,這充分展現(xiàn)了百川團(tuán)隊(duì)深厚的技術(shù)實(shí)力。
國(guó)際醫(yī)療AI共識(shí)崛起,百川領(lǐng)跑
放眼全球,AI+醫(yī)療,絕對(duì)是當(dāng)下最火的科技風(fēng)口之一。
醫(yī)療領(lǐng)域已成為AI發(fā)展的首要方向之一,這一點(diǎn)在國(guó)際上,已形成了廣泛的共識(shí)。
諾獎(jiǎng)得主Demis Hassabis曾樂觀地表示,未來(lái)十年,AI將會(huì)治愈所有疾病,甚至可以助力新能源的開發(fā)。
AI教父Hinton曾多次強(qiáng)調(diào),AI成為每個(gè)人的私人醫(yī)生,服務(wù)數(shù)百萬(wàn)患者;比爾蓋茨也曾預(yù)言,未來(lái)十年高質(zhì)量的醫(yī)療建議將免費(fèi)普及。
在美國(guó),這一共識(shí)早已轉(zhuǎn)化為行動(dòng)。
2025年,美國(guó)AI新晉獨(dú)角獸中,AI醫(yī)療公司占比超過(guò)50%。
頭部企業(yè)如Abridge、Openevidence、Hippocratic AI吸金無(wú)數(shù),資本用真金白銀投票,AI醫(yī)療的前景不言而喻。
就連OpenAI、谷歌DeepMind、微軟等科技巨頭,也將醫(yī)療視為核心領(lǐng)域。
如前所述,上周的GPT-5發(fā)布會(huì)上,奧特曼曾重點(diǎn)分享了ChatGPT在醫(yī)療健康領(lǐng)域的價(jià)值,并實(shí)際應(yīng)用到了Oscar臨床診斷中。
然而,與國(guó)際上對(duì)AI醫(yī)療的強(qiáng)烈共識(shí)和巨大投入相比,中國(guó)在這塊的認(rèn)知還不夠深入。
在這樣的背景下,百川智能作為國(guó)內(nèi)最早專注醫(yī)療領(lǐng)域的大模型創(chuàng)業(yè)公司,展現(xiàn)出極具前瞻性的戰(zhàn)略眼光。
成立伊始,團(tuán)隊(duì)就將醫(yī)療作為核心方向之一,投入了大量資源構(gòu)建醫(yī)療專用數(shù)據(jù)集和大模型。
具體來(lái)看,百川的AI醫(yī)療進(jìn)展可圈可點(diǎn)。
同月,團(tuán)隊(duì)在arXiv上發(fā)表了M1背后技術(shù)——「AI患者模擬器」的論文,這項(xiàng)創(chuàng)新不僅填補(bǔ)了國(guó)內(nèi)醫(yī)療AI空白,還為全球提供了可借鑒的范式。
如今,基于患者模擬器,Baichuan-M2歷經(jīng)半年多迭代升級(jí),在HealthBench等評(píng)測(cè)中取得了更大的突破。
M2的發(fā)布,不僅是醫(yī)療領(lǐng)域的新里程碑,更是百川作為中國(guó)企業(yè)走到世界AI醫(yī)療最前沿的生動(dòng)證明。
它將徹底點(diǎn)燃AI醫(yī)療的開源生態(tài),推動(dòng)AI醫(yī)療走向更平權(quán)、更智能的未來(lái)。
未來(lái),當(dāng)AI私人醫(yī)生普及,每個(gè)人都能平等獲取頂尖醫(yī)療資源,罕見病不再是絕癥....這不僅僅是AI的逆襲,更是人類健康的革命性飛躍。
這波AI醫(yī)療革命,中國(guó)AI沖在了最前面。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.