網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI開源霸權(quán)5天終結(jié)，百川M2一戰(zhàn)奪冠！實(shí)測(cè)比GPT更懂中國(guó)醫(yī)療

2025-08-11 17:20:48　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：桃子

【新智元導(dǎo)讀】AI醫(yī)療，正成為全球科技巨頭的必爭(zhēng)之地！剛剛，百川智能第二款醫(yī)療增強(qiáng)大模型Baichuan-M2正式上線，首發(fā)即稱霸全球醫(yī)療開源AI，擊敗OpenAI開源模型gpt-oss-120b。

在AI賽道上，醫(yī)療領(lǐng)域正成為全球科技巨頭爭(zhēng)奪的「C位」。

想象一下，未來(lái)每個(gè)人兜里都能揣個(gè)「AI私人醫(yī)生」，隨時(shí)隨地給出診斷，這個(gè)畫面是不是超燃？

GPT-5發(fā)布會(huì)上，一個(gè)真實(shí)的故事，讓所有人感受到了AI醫(yī)療的震撼力量。

39歲Carolina在一周內(nèi)，被診斷出三種癌癥，面對(duì)晦澀的活檢報(bào)告，她手足無(wú)措。

當(dāng)上傳報(bào)告到ChatGPT后，幾秒鐘內(nèi)，復(fù)雜的醫(yī)學(xué)術(shù)語(yǔ)被翻譯成淺顯的語(yǔ)言，讓Carolina在恐慌中找到了一絲頭緒，對(duì)病情有了初步的了解。

這個(gè)鮮活的案例，再次點(diǎn)燃了AI醫(yī)療的無(wú)限可能，也讓人們看到技術(shù)如何賦能個(gè)體的深層意義。

在這條萬(wàn)億美金的賽道上，中國(guó)隊(duì)再次出手了。

今天，百川智能重磅發(fā)布Baichuan-M2，一款32B參數(shù)的醫(yī)療增強(qiáng)開源大模型。

在基準(zhǔn)測(cè)試中，M2直接吊打OpenAI開源僅5天的gpt-oss-120b，登頂全球開源醫(yī)療模型第一。

而且，它還一舉擊敗了除GPT-5之外的所有閉源模型。

接下來(lái)，就來(lái)扒一扒這款「醫(yī)療卷王」的硬核實(shí)力。

全球開源醫(yī)療王者，C位出道

繼14B參數(shù)M1之后，Baichuan-M2是百川第二款醫(yī)療增強(qiáng)開源大模型，專為真實(shí)臨床場(chǎng)景定制。

通過(guò)端到端強(qiáng)化學(xué)習(xí)，它在保持通用能力的同時(shí)，醫(yī)療推理能力直接「起飛」。

在OpenAI的HealthBench評(píng)測(cè)中，M2的表現(xiàn)非常驚艷，僅以32B參數(shù)直接干翻gpt-oss-120b，碾壓Qwen3-235B-A22B-Thinking-2507、DeepSeek-R1-0528、GLM-4.5、Kimi-K2等開源前沿模型。

甚至，M2把o3、Grok3、Gemini 2.5 Pro、GPT-4.1等閉源頂尖模型也都按在地上摩擦。

要知道，HealthBench并非是簡(jiǎn)單的「刷題」測(cè)試，而是基于多輪醫(yī)患對(duì)話的硬核考核。

今年5月，，由全球60個(gè)國(guó)家，262名執(zhí)業(yè)醫(yī)生共同打造。

這個(gè)基準(zhǔn)包含了5000個(gè)基于現(xiàn)實(shí)場(chǎng)景的多輪醫(yī)療對(duì)話，每個(gè)對(duì)話都有醫(yī)生定制的評(píng)分標(biāo)準(zhǔn)，來(lái)評(píng)估模型的響應(yīng)。

具體來(lái)說(shuō)，它覆蓋了緊急響應(yīng)、醫(yī)療上下文理解、溝通能力、全球健康知識(shí)、醫(yī)學(xué)思維五大維度。

與此同時(shí)，OpenAI還推出了HealthBench Hard，從總數(shù)據(jù)集中調(diào)整選中1000個(gè)特別復(fù)雜的難題作為Hard子集。

此前，在HealthBench Hard評(píng)測(cè)中，頂尖模型得分沒有一個(gè)可以超過(guò)32%，甚至很多前沿模型只能拿到0分。

Arora R K, Wei J, Hicks R S, et al. Healthbench: Evaluating large language models towards improved human health[J]. arXiv preprint arXiv:2505.08775, 2025.

而Baichuan-M2和GPT-5成為全球唯二的「學(xué)霸」，直接拉高了性能天花板。

這從側(cè)面恰恰印證了，M2在解決復(fù)雜醫(yī)療場(chǎng)景任務(wù)上的優(yōu)秀能力。

值得一提的是，Baichuan-M2醫(yī)療推理能力強(qiáng)化的同時(shí)，并沒有犧牲模型的通用能力。

相反，通過(guò)高質(zhì)量數(shù)據(jù)訓(xùn)練，讓M2在數(shù)學(xué)、指令遵循、寫作等通用指標(biāo)上性能飆升。

與最新開源的Qwen3-32B相比，M2在多方位評(píng)測(cè)中全面領(lǐng)先。

相較于gpt-oss-120b，M2以更低部署成本推高了「帕累托前沿」，讓醫(yī)院用起來(lái)毫無(wú)壓力。

采用4bit量化后，模型可在RTX4090單卡部署，成本比DeepSeek-R1 H20雙節(jié)點(diǎn)部署降低了57倍。

同時(shí)，它還適配國(guó)產(chǎn)芯片，讓醫(yī)療機(jī)構(gòu)利用現(xiàn)有硬件即可快速部署。

基于Eagle-3訓(xùn)練的MTP版本，在單用戶場(chǎng)景下token吞吐提升了74.9%，更適用于急診等高時(shí)效場(chǎng)景。

在多項(xiàng)「考試」中，Baichuan-M2全部通關(guān)。那么，在具體實(shí)測(cè)中，它的表現(xiàn)又如何呢？

代碼數(shù)學(xué)，通通拿下

首先，來(lái)考考M2的通用能力。

草莓「圖靈測(cè)試」，根本不用思考，一步解決。

接下來(lái)，讓它生成一個(gè)繪制太陽(yáng)系運(yùn)行動(dòng)態(tài)HTML。在推理過(guò)程中，它縝密地列出了設(shè)計(jì)思路和子任務(wù)，隨后瘋狂輸出代碼。

最后，我們就得到了一個(gè)設(shè)計(jì)精美、且直觀的太陽(yáng)系動(dòng)態(tài)運(yùn)行圖。

再給它扔一道，最近連GPT-5都翻車的數(shù)學(xué)方程式求解題，M2神速輸出了正確的結(jié)果。

可以看到，不論在簡(jiǎn)單問(wèn)答，還是數(shù)學(xué)、代碼實(shí)測(cè)中，Baichuan-M2的表現(xiàn)非常穩(wěn)定。

而要說(shuō)M2最拿手的，當(dāng)然還是專業(yè)的醫(yī)療任務(wù)。

更懂中國(guó)人體質(zhì)，嚴(yán)格遵循中國(guó)指南

AI醫(yī)療的落地，必須考慮地域差異，諸如中外患者特點(diǎn)、醫(yī)療服務(wù)資源與優(yōu)勢(shì)等等。

比如，肝細(xì)胞肝癌在中國(guó)，以乙肝相關(guān)肝癌為主，而西方更多的是酒精或丙肝相關(guān)患者。不同類型的患者，手術(shù)風(fēng)險(xiǎn)也不盡相同。

再加上，中國(guó)外科手術(shù)經(jīng)驗(yàn)豐富、手術(shù)期管理成熟，中西方指南對(duì)于優(yōu)先哪種治療方案也各有不同。

舉個(gè)栗子，在面對(duì)CNLC IIa期（BCLC B期）肝癌患者時(shí)，M2果斷推薦了手術(shù)切除——解剖性肝右葉切除。

或者是，根據(jù)腫瘤具體位置，考慮擴(kuò)大右半肝切除、右三葉切除等，目標(biāo)是R0切除。

在此過(guò)程中，它嚴(yán)格遵守了國(guó)家衛(wèi)健委發(fā)布的《原發(fā)性肝癌診療指南》（2024版），肝切除是潛在根治性治療，追求長(zhǎng)期生存。

針對(duì)同一病癥，gpt-oss-120b卻首選推薦了TACE（經(jīng)動(dòng)脈化療栓塞），給出的理由是：符合BCLCB期治療指南，當(dāng)前情況下手術(shù)切除和移植風(fēng)險(xiǎn)不理想。

通過(guò)對(duì)比，它忽視了手術(shù)可行性，略顯水土不服。

臨床專家表示，這樣的差異在大模型中常見，并非是高下之分，而是基于不同因素權(quán)衡之下的最優(yōu)解。

Baichuan-M2從中國(guó)指南對(duì)齊、政策適配、患者洞察等多維度優(yōu)化，讓中國(guó)醫(yī)生和患者感受到「專屬」服務(wù)。

不難看出，對(duì)比gpt-oss系列，M2展現(xiàn)出對(duì)中國(guó)臨床場(chǎng)景的更強(qiáng)適配性。

臨床診療實(shí)戰(zhàn)，M2表現(xiàn)極佳

相較于gpt-oss系列，在中國(guó)臨床診療場(chǎng)景的問(wèn)題評(píng)測(cè)中，M2具備了更強(qiáng)的可用性優(yōu)勢(shì)，堪稱「六邊形戰(zhàn)士」。

接下來(lái)，再看個(gè)真實(shí)的案例。

一個(gè)15歲男孩，持續(xù)咳嗽兩個(gè)月，逐漸出現(xiàn)了呼吸困難，服用頭孢后無(wú)改善，初步診斷為「重癥肺炎」，并伴有心包積液。

在醫(yī)生看來(lái)，這并非是普通的肺炎，入院后給男孩做了一系列檢查后，但還沒有拿到進(jìn)一步支氣管病理檢查結(jié)果。

為了進(jìn)一步明確診斷，醫(yī)生將病歷上傳到Baichuan-M2。

令人欣喜的是，M2就像一位熟練的「AI醫(yī)生」，全面復(fù)盤了病史、體格、影像和化驗(yàn)數(shù)據(jù)。

沒多久，它便鎖定了關(guān)鍵線索——支氣管內(nèi)占位。

在初步診斷中，它逐條引用了每一項(xiàng)檢查數(shù)據(jù)，形成了完整的證據(jù)鏈。

此外，M2還預(yù)警了呼吸衰竭、心包填塞等風(fēng)險(xiǎn)，并給出應(yīng)急方案。

最后，它會(huì)提供了下一步檢查與管理建議，形成了一個(gè)完整的「閉環(huán)」。

當(dāng)然，為了確保所有推理過(guò)程有跡可循，輸出全部結(jié)果后，M2也會(huì)提供詳細(xì)的參考來(lái)源，方便驗(yàn)證。

國(guó)家兒童醫(yī)學(xué)中心專家對(duì)M2的表現(xiàn)贊不絕口，「在醫(yī)學(xué)正確性、證據(jù)鏈推理、可操作性上，M2展現(xiàn)出極強(qiáng)的專業(yè)性，并在風(fēng)險(xiǎn)預(yù)警方面的表現(xiàn)可圈可點(diǎn)。

此外，它還將患者既往病史與當(dāng)前病變聯(lián)系，為醫(yī)生打開了更廣闊的思路」。

不僅如此，通過(guò)與北京市海淀區(qū)衛(wèi)健委、北京大學(xué)第三醫(yī)院、國(guó)家兒科醫(yī)學(xué)中心等權(quán)威機(jī)構(gòu)合作，Baichuan-M2已在多個(gè)真實(shí)病例中，展現(xiàn)出超越傳統(tǒng)AI的專家級(jí)臨床思維。

核心技術(shù)揭秘，強(qiáng)化學(xué)習(xí)立功

Baichuan-M2的成功，就藏在了一套「黑科技」組合拳里。

從Large Verifier System，到中期訓(xùn)練（Mid-Training），再到端到端RL、工程優(yōu)化，每一步都打下了堅(jiān)實(shí)的基礎(chǔ)。

Large Verifier System

在Baichuan-M2構(gòu)建過(guò)程中，Large Verifier System成為了核心，其基于可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR），針對(duì)醫(yī)療場(chǎng)景的復(fù)雜性而量身設(shè)計(jì)。

為什么百川團(tuán)隊(duì)，選擇構(gòu)建Large Verifier System？

近一年來(lái)，大模型后訓(xùn)練范式發(fā)生了重大升級(jí)，特別是基于RLVR大規(guī)模RL訓(xùn)練，讓模型在數(shù)學(xué)、代碼、科學(xué)等領(lǐng)域效果爆棚。

這些領(lǐng)域的問(wèn)題，往往有著明確的答案和可驗(yàn)證的標(biāo)準(zhǔn)。

比如，在數(shù)學(xué)問(wèn)題中，模型的輸出可以直接通過(guò)設(shè)計(jì)驗(yàn)證是否準(zhǔn)確，從而生成可靠的獎(jiǎng)勵(lì)信號(hào)，用于指導(dǎo)模型優(yōu)化。

然而，醫(yī)療問(wèn)題遠(yuǎn)比這些領(lǐng)域復(fù)雜的多，傳統(tǒng)RL驗(yàn)證系統(tǒng)在醫(yī)療領(lǐng)域效果不佳。

不同于數(shù)學(xué)的「對(duì)錯(cuò)分明」，醫(yī)療診斷沒有絕對(duì)的「標(biāo)準(zhǔn)答案」，同一癥狀可能對(duì)應(yīng)多種疾病，并需要多輪交互和證據(jù)鏈推理才能鎖定。

靜態(tài)的RL，無(wú)法處理這種情境，同時(shí)也難以模擬真實(shí)臨床中的各種噪聲。

在這個(gè)過(guò)程中，百川團(tuán)隊(duì)升級(jí)了底層原理的認(rèn)知——

可驗(yàn)證性才是RL for LLM系統(tǒng)的學(xué)習(xí)的前提，尤其改善真實(shí)場(chǎng)景復(fù)雜問(wèn)題的可驗(yàn)證性，才是繼續(xù)提升模型能力的關(guān)鍵。

這一點(diǎn)，與CoT作者Jason Wei最新博客的觀點(diǎn)，不謀而合。

為此，百川在通用Verifier基礎(chǔ)上，結(jié)合醫(yī)療場(chǎng)景的獨(dú)特性，設(shè)計(jì)了一套全面的醫(yī)療Verifier系統(tǒng)。

核心方法是，通過(guò)醫(yī)療關(guān)鍵子場(chǎng)景的醫(yī)生思維數(shù)據(jù)訓(xùn)練，讓Verifier與人類醫(yī)生的臨床邏輯對(duì)齊，再展開端到端強(qiáng)化學(xué)習(xí)。

簡(jiǎn)單說(shuō)，這不是死板的規(guī)則匹配，而是活生生的「醫(yī)生大腦」模擬，讓模型在真實(shí)醫(yī)療任務(wù)中越練越牛。

1. 三類「黃金數(shù)據(jù)」，訓(xùn)出最強(qiáng)醫(yī)生大腦

要讓模型懂醫(yī)療，需要「投喂」高質(zhì)量數(shù)據(jù)。

百川團(tuán)隊(duì)精心挑選了三種醫(yī)療數(shù)據(jù)作為基礎(chǔ)輸入，每一種都針對(duì)不同痛點(diǎn)，層層遞進(jìn)：

· 患者病歷數(shù)據(jù)：記錄了海量患者信息和診療細(xì)節(jié)，很多臨床思維就藏在病歷中，從癥狀描述到診斷推斷，再到治療方案，全是真人醫(yī)生的實(shí)戰(zhàn)經(jīng)驗(yàn)。

· 醫(yī)學(xué)知識(shí)庫(kù)數(shù)據(jù)：包括書籍、論文、指南等硬核資源。這些是醫(yī)療大模型的「知識(shí)基石」，確?；卮鸱稀羔t(yī)學(xué)常識(shí)」和「臨床經(jīng)驗(yàn)」，還降低安全風(fēng)險(xiǎn)。

· 通用醫(yī)療合成數(shù)據(jù)：為了適配患者、醫(yī)生、護(hù)士等多方需求，百川構(gòu)建了面向不同場(chǎng)景的通用醫(yī)療verify任務(wù)，覆蓋了八大維度，比如醫(yī)學(xué)準(zhǔn)確性、回答完整性、追問(wèn)感知等。

2. 患者模擬器：首創(chuàng)AI患者，模擬實(shí)戰(zhàn)演練

有了多源數(shù)據(jù)還不夠，真實(shí)的臨床場(chǎng)景，可沒有那么理想化。

患者表達(dá)往往具有種種噪聲：因年齡、文化、教育背景等差異，癥狀描述可能模糊帶有偏見，甚至遺漏關(guān)鍵信息。

這對(duì)傳統(tǒng)RL系統(tǒng)是一大挑戰(zhàn)，它們僅會(huì)基于固定答案、規(guī)則進(jìn)行匹配。

百川團(tuán)隊(duì)希望，通過(guò)訓(xùn)練讓M2具備「魯棒性」和「自適應(yīng)性」。

在噪聲環(huán)境下，不僅可以實(shí)時(shí)重評(píng)估診斷假設(shè)；還能根據(jù)信息質(zhì)量，動(dòng)態(tài)調(diào)整回復(fù)策略。

為了實(shí)現(xiàn)這一目標(biāo)，百川基于此前研究，引入了患者模擬器——一個(gè)基于真實(shí)病例數(shù)據(jù)構(gòu)建的AI系統(tǒng)。

它能特定疾病背景、個(gè)體特征和行為模式的虛擬患者，相當(dāng)于捏一個(gè)「AI病人」。

在醫(yī)患對(duì)話中，它會(huì)提供真實(shí)的癥狀表達(dá)和交互反應(yīng)，還帶有「人性化噪聲」。

值得一提的是，這是行業(yè)首創(chuàng)技術(shù)，百川早在今年1月就發(fā)表了相關(guān)論文，瞬間圈粉無(wú)數(shù)。

論文地址：https://arxiv.org/pdf/2501.09484

在多輪對(duì)話的RL過(guò)程中，虛擬患者與醫(yī)生LLM實(shí)時(shí)互動(dòng)，生成式Verifier根據(jù)這些信息動(dòng)態(tài)生成評(píng)分標(biāo)準(zhǔn)，進(jìn)行優(yōu)化。

這項(xiàng)技術(shù)核心創(chuàng)新在于，把RL的獎(jiǎng)勵(lì)從靜態(tài)函數(shù)變成動(dòng)態(tài)生成系統(tǒng)。

也就是說(shuō)，不再是預(yù)定義的死規(guī)則，而是基于真實(shí)場(chǎng)景特征的活機(jī)制。

這樣一來(lái)，大大提升了醫(yī)療模型在復(fù)雜臨床環(huán)境中的適應(yīng)性和決策質(zhì)量。

這種「實(shí)戰(zhàn)演習(xí)」，恰恰讓M2在處理復(fù)雜醫(yī)療場(chǎng)景的任務(wù)中，遠(yuǎn)超傳統(tǒng)模型。

中期訓(xùn)練：醫(yī)療領(lǐng)域適應(yīng)性增強(qiáng)

一般來(lái)說(shuō)，通用大模型在醫(yī)療應(yīng)用中有三大痛點(diǎn)：醫(yī)學(xué)知識(shí)儲(chǔ)備不足、權(quán)威性欠缺、時(shí)效性滯后。

若是直接進(jìn)行后訓(xùn)練（post-training）容易陷入兩難，要么是知識(shí)汲取不夠，要么是幻覺加劇。

對(duì)此，百川的解法是中期訓(xùn)練（mid-training），在保持通用能力的同時(shí)，輕量高效地增強(qiáng)模型醫(yī)療領(lǐng)域的適應(yīng)性。

這里，百川團(tuán)隊(duì)精選了公共醫(yī)學(xué)教材、臨床專著、藥品知識(shí)庫(kù)、最新診療指南和真實(shí)病例，形成專業(yè)庫(kù)。

在數(shù)據(jù)合成階段，重點(diǎn)強(qiáng)化兩維度——「結(jié)構(gòu)化表達(dá)」和「深度推理增強(qiáng)」。

結(jié)構(gòu)化表達(dá)：基于知識(shí)保真原則，改寫原始文本，提升邏輯流暢度，同時(shí)嚴(yán)控幻覺引入

深度推理增強(qiáng)：在知識(shí)密集段落和關(guān)鍵結(jié)論處，自適應(yīng)插入思維筆記，如知識(shí)關(guān)聯(lián)分析、批判性反思、論證驗(yàn)證、案例推演

在訓(xùn)練策略上，為了防止通用能力退化，百川用2:2:1配比高質(zhì)量醫(yī)療、其他通用和數(shù)學(xué)推理數(shù)據(jù)，并引入領(lǐng)域自約束機(jī)制，確保了醫(yī)療專業(yè)性，以及語(yǔ)言理解、推理能力的雙贏。

具體來(lái)說(shuō)，醫(yī)療數(shù)據(jù)采用雙任務(wù)范式，通用和數(shù)學(xué)數(shù)據(jù)以通用基座為參考模型，用KL散度約束輸出分布。

這種方案，在醫(yī)療知識(shí)密度、推理深度和通用性之間，達(dá)到了完美的平衡，為后續(xù)指令微調(diào)打下了堅(jiān)實(shí)基礎(chǔ)。

得益于此，M2不僅在醫(yī)療任務(wù)上強(qiáng)得一批，更在通用任務(wù)中穩(wěn)如老狗。

端到端強(qiáng)化學(xué)習(xí)：多階段RL，訓(xùn)練效率拉滿

在強(qiáng)化學(xué)習(xí)階段，百川采用了多階段強(qiáng)化學(xué)習(xí)的策略，把復(fù)雜RL任務(wù)拆解成可控層次。

針對(duì)不同能力目標(biāo)、數(shù)據(jù)來(lái)源、評(píng)測(cè)機(jī)制，逐步引導(dǎo)模型演進(jìn)。從醫(yī)學(xué)常識(shí)推理，到患者交互，一層一層提升。

相較于單階段RL訓(xùn)練，多階段強(qiáng)化能有效分解訓(xùn)練難度，分階段采集和放大reward信號(hào)，能提高模型泛化和魯棒性。

最終，可以保證M2在復(fù)雜醫(yī)療場(chǎng)景的實(shí)戰(zhàn)表現(xiàn)。

具體來(lái)說(shuō)，百川團(tuán)隊(duì)采用了一個(gè)改進(jìn)版GRPO算作為策略優(yōu)化算法，并結(jié)合了開源社區(qū)提出的一些改進(jìn)，確保多分布多來(lái)源數(shù)據(jù)上強(qiáng)化訓(xùn)練的穩(wěn)定與高效。

·Eliminating KL divergence：添加KL會(huì)大幅拖慢獎(jiǎng)勵(lì)增長(zhǎng)速率，還額外耗費(fèi)參考模型計(jì)算資源，剔除后可以讓訓(xùn)練更加高效。

·Clip-higher：提高重要性采樣的剪裁上限閾值，并保持剪裁下限閾值固定，能夠緩解熵值收斂問(wèn)題，從而讓模型探索新的解決方案。

· Loss normlization：面對(duì)多來(lái)源數(shù)據(jù)回答長(zhǎng)度不一的痛點(diǎn)，把token級(jí)損失除以一個(gè)固定最大長(zhǎng)度再求和，徹底消除原來(lái)GRPO的長(zhǎng)度偏見。

·Advangtage normlization：針對(duì)多任務(wù)學(xué)習(xí)難度差異，一出優(yōu)勢(shì)計(jì)算中「除以標(biāo)準(zhǔn)差」的步驟，大幅提升多任務(wù)強(qiáng)化時(shí)的策略更新穩(wěn)定性。

·Dynamic Length reward：當(dāng)一批樣本中，大多數(shù)得分超閾值時(shí)，才給高分樣本加一個(gè)負(fù)相關(guān)長(zhǎng)度獎(jiǎng)勵(lì)，鼓勵(lì)更短、更高效的輸出，不會(huì)限制模型探索高獎(jiǎng)勵(lì)空間。

在工程優(yōu)化上，復(fù)雜的verify系統(tǒng)讓獎(jiǎng)勵(lì)評(píng)分耗時(shí)飆升，百川在verl基礎(chǔ)上，開發(fā)了完全異步的rollout+reward流程，基本消除了訓(xùn)練中的等待時(shí)間，讓整個(gè)過(guò)程絲滑高效。

以上創(chuàng)新，得以讓Baichuan-M2以小博大，還能在實(shí)戰(zhàn)中大放異彩，這充分展現(xiàn)了百川團(tuán)隊(duì)深厚的技術(shù)實(shí)力。

國(guó)際醫(yī)療AI共識(shí)崛起，百川領(lǐng)跑

放眼全球，AI+醫(yī)療，絕對(duì)是當(dāng)下最火的科技風(fēng)口之一。

醫(yī)療領(lǐng)域已成為AI發(fā)展的首要方向之一，這一點(diǎn)在國(guó)際上，已形成了廣泛的共識(shí)。

諾獎(jiǎng)得主Demis Hassabis曾樂觀地表示，未來(lái)十年，AI將會(huì)治愈所有疾病，甚至可以助力新能源的開發(fā)。

AI教父Hinton曾多次強(qiáng)調(diào)，AI成為每個(gè)人的私人醫(yī)生，服務(wù)數(shù)百萬(wàn)患者；比爾蓋茨也曾預(yù)言，未來(lái)十年高質(zhì)量的醫(yī)療建議將免費(fèi)普及。

在美國(guó)，這一共識(shí)早已轉(zhuǎn)化為行動(dòng)。

2025年，美國(guó)AI新晉獨(dú)角獸中，AI醫(yī)療公司占比超過(guò)50%。

頭部企業(yè)如Abridge、Openevidence、Hippocratic AI吸金無(wú)數(shù)，資本用真金白銀投票，AI醫(yī)療的前景不言而喻。

就連OpenAI、谷歌DeepMind、微軟等科技巨頭，也將醫(yī)療視為核心領(lǐng)域。

如前所述，上周的GPT-5發(fā)布會(huì)上，奧特曼曾重點(diǎn)分享了ChatGPT在醫(yī)療健康領(lǐng)域的價(jià)值，并實(shí)際應(yīng)用到了Oscar臨床診斷中。

然而，與國(guó)際上對(duì)AI醫(yī)療的強(qiáng)烈共識(shí)和巨大投入相比，中國(guó)在這塊的認(rèn)知還不夠深入。

在這樣的背景下，百川智能作為國(guó)內(nèi)最早專注醫(yī)療領(lǐng)域的大模型創(chuàng)業(yè)公司，展現(xiàn)出極具前瞻性的戰(zhàn)略眼光。

成立伊始，團(tuán)隊(duì)就將醫(yī)療作為核心方向之一，投入了大量資源構(gòu)建醫(yī)療專用數(shù)據(jù)集和大模型。

具體來(lái)看，百川的AI醫(yī)療進(jìn)展可圈可點(diǎn)。

同月，團(tuán)隊(duì)在arXiv上發(fā)表了M1背后技術(shù)——「AI患者模擬器」的論文，這項(xiàng)創(chuàng)新不僅填補(bǔ)了國(guó)內(nèi)醫(yī)療AI空白，還為全球提供了可借鑒的范式。

如今，基于患者模擬器，Baichuan-M2歷經(jīng)半年多迭代升級(jí)，在HealthBench等評(píng)測(cè)中取得了更大的突破。

M2的發(fā)布，不僅是醫(yī)療領(lǐng)域的新里程碑，更是百川作為中國(guó)企業(yè)走到世界AI醫(yī)療最前沿的生動(dòng)證明。

它將徹底點(diǎn)燃AI醫(yī)療的開源生態(tài)，推動(dòng)AI醫(yī)療走向更平權(quán)、更智能的未來(lái)。

未來(lái)，當(dāng)AI私人醫(yī)生普及，每個(gè)人都能平等獲取頂尖醫(yī)療資源，罕見病不再是絕癥....這不僅僅是AI的逆襲，更是人類健康的革命性飛躍。

這波AI醫(yī)療革命，中國(guó)AI沖在了最前面。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.