網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

螞蟻專用模型超越o3！僅用2K訓(xùn)練樣本刷新醫(yī)療AI榜單紀(jì)錄

2025-08-29 13:32:08　來源: 量子位

北京舉報(bào)

分享至

MedResearcher-R1團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

不卷參數(shù)的專業(yè)模型，會(huì)不會(huì)被通用大模型取代？

在醫(yī)療領(lǐng)域，這個(gè)疑問正在被打破。

螞蟻集團(tuán)聯(lián)合研究團(tuán)隊(duì)發(fā)布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技術(shù)報(bào)告，證明了一條關(guān)鍵路徑：專業(yè)開源模型只要做好領(lǐng)域化設(shè)計(jì)，有機(jī)會(huì)在垂直賽道上“以小博大”，反超通用大模型。

團(tuán)隊(duì)發(fā)布的醫(yī)學(xué)AI智能體MedResearcher-R1，靠2100條（約2K規(guī)模）訓(xùn)練樣本，在權(quán)威醫(yī)療基準(zhǔn)測(cè)試MedBrowseComp上，將復(fù)雜醫(yī)療研究任務(wù)的準(zhǔn)確回答數(shù)量提升至27.5。

刷新該榜單紀(jì)錄的同時(shí)，超過o3、Gemini 2.5 Pro等領(lǐng)先通用大模型，突破了此前25.5的業(yè)界準(zhǔn)確回答“卡點(diǎn)”。

讓AI學(xué)會(huì)像醫(yī)學(xué)專家那樣思考

研究背景

現(xiàn)在，基于大語言模型 (LLM) 的Agent已展現(xiàn)出跨越多個(gè)領(lǐng)域的卓越能力。

例如深度研究系統(tǒng)在復(fù)雜信息搜索和合成任務(wù)中就展現(xiàn)了高性能。但它們?cè)卺t(yī)療等專業(yè)領(lǐng)域容易出現(xiàn)不同程度的“水土不服”，面對(duì)復(fù)雜醫(yī)療查詢時(shí)也常“掉鏈子”，核心問題就兩個(gè)：

缺“專業(yè)儲(chǔ)備”：通用模型沒有密集的醫(yī)療知識(shí)，面對(duì)罕見病、多病癥關(guān)聯(lián)等場(chǎng)景，支撐不了臨床推理；
缺“精準(zhǔn)工具”：依賴公開網(wǎng)頁搜索的通用工具，要么找不到權(quán)威醫(yī)療數(shù)據(jù)，要么被錯(cuò)誤信息干擾，無法保障推理嚴(yán)謹(jǐn)性。

而MedResearcher-R1的突破源于數(shù)據(jù)、工具、訓(xùn)練方法三大核心創(chuàng)新。

據(jù)此，螞蟻團(tuán)隊(duì)提出了知識(shí)指引下的軌跡合成框架（KISA），在12個(gè)醫(yī)學(xué)專業(yè)領(lǐng)域生成了2100多條不同的軌跡，每條軌跡平均與4.2個(gè)工具交互，為構(gòu)建“專家級(jí)AI醫(yī)療研究員”提供了全新范式。

三大核心技術(shù)：不堆參數(shù)，只做 “精準(zhǔn)突破”

MedResearcher-R1沒有走“堆參數(shù)、喂海量數(shù)據(jù)”的老路，而是從“讓AI學(xué)會(huì)像醫(yī)學(xué)專家那樣思考”出發(fā)，做了三個(gè)關(guān)鍵設(shè)計(jì)：

1. 主動(dòng) “造難題”：從3000萬文獻(xiàn)里煉出“4.2步推理題”

傳統(tǒng)AI訓(xùn)練靠“啃現(xiàn)成數(shù)據(jù)”，而MedResearcher-R1學(xué)會(huì)了“自己造題”，尤其是醫(yī)療領(lǐng)域的“高難度研究型問題”。

研究團(tuán)隊(duì)先從超過3000萬篇醫(yī)學(xué)文獻(xiàn)中，篩選出罕見病、特殊藥理機(jī)制等“冷門但關(guān)鍵”的醫(yī)學(xué)實(shí)體，再圍繞這些實(shí)體搭建知識(shí)圖譜。

最核心的一步是：從知識(shí)圖譜里提取“最長(zhǎng)推理路徑”——比如“罕見遺傳病→關(guān)聯(lián)基因→靶向藥物→代謝副作用”的多環(huán)節(jié)鏈條，最終生成需要平均調(diào)用4.2次工具才能解決的復(fù)雜問題。

這意味著AI訓(xùn)練時(shí)學(xué)的不是“翻書查答案”，而是“拆解問題、逐步驗(yàn)證”的專家級(jí)思維，比如面對(duì)“某罕見心臟病的用藥副作用”，它會(huì)主動(dòng)追溯藥物機(jī)制、臨床數(shù)據(jù)，而非直接套模板回答。

2. 專屬“工具箱”：不囿于公開搜索，直連權(quán)威醫(yī)療數(shù)據(jù)源

通用領(lǐng)域Deep Research Agent的“軟肋”之一，是只能依賴公開網(wǎng)頁搜索。

在醫(yī)療場(chǎng)景里，未經(jīng)篩選的網(wǎng)絡(luò)公開檢索信息不僅可能過時(shí)，還可能混雜非臨床級(jí)數(shù)據(jù)。

MedResearcher-R1直接配備了私有化部署的醫(yī)療專用工具集：通過直接訪問國際醫(yī)療指南、核心醫(yī)學(xué)期刊等一手權(quán)威信源，盡可能從根源上避免“信息噪音”。

比如在回答“某藥物成分”時(shí)，它會(huì)直接調(diào)取官方藥品注冊(cè)數(shù)據(jù)，而非依賴可能出錯(cuò)的公開科普；驗(yàn)證“藥物副作用”時(shí)，會(huì)對(duì)接臨床驗(yàn)證結(jié)果，確保每一步推理都有權(quán)威依據(jù)。

3. 不教“背誦”教“思考”：「蒙版軌跡引導(dǎo)（Masked Trajectory Guidance）」技術(shù)“逼”出AI的自主能力

怕AI“死記硬背”？MedResearcher-R1的訓(xùn)練方法直接改道而行。

研究團(tuán)隊(duì)用了一種“蒙版軌跡引導(dǎo)（Masked Trajectory Guidance）”技術(shù)：訓(xùn)練時(shí)只給 AI一個(gè)“推理框架”（比如“疾病→藥物→副作用”的邏輯鏈），但隱藏關(guān)鍵實(shí)體信息（比如具體疾病名稱、藥物成分）。

這就逼著AI必須主動(dòng)調(diào)用工具：查疾病指南確認(rèn)病癥、搜藥品數(shù)據(jù)庫匹配成分、驗(yàn)臨床數(shù)據(jù)驗(yàn)證副作用，最終自己“拼出”完整推理鏈。

這種訓(xùn)練不是“喂答案”，而是“教方法”——最終提升了小模型的泛化能力，在面對(duì)沒見過的新醫(yī)療問題，也能像人類研究員一樣自主拆解、驗(yàn)證。

舉個(gè)具體例子：當(dāng)被問及“某藥物的活性成分（需滿足質(zhì)數(shù)劑量、受體拮抗機(jī)制等多條件）”時(shí)，通用AI通常會(huì)根據(jù)各種公開信息進(jìn)行全面整理給出不同答案；

而MedResearcher-R1會(huì)先查企業(yè)史鎖定藥企，再調(diào)取藥物信息，接著驗(yàn)證成分的化學(xué)結(jié)構(gòu)與受體機(jī)制，最后確認(rèn)副作用 ——整套流程復(fù)刻人類醫(yī)學(xué)研究員的工作邏輯，最終給出具體藥物名稱。

既要追求專業(yè)，還要“不偏科”

更值得注意的是，螞蟻還在攻克其專業(yè)模型的 “通用研究能力”提升，試圖打破“專業(yè)模型只能干一行”的刻板印象。

從GAIA、xBench等通用AI助手基準(zhǔn)測(cè)試結(jié)果來看，MedResearcher-R1的表現(xiàn)也保持業(yè)界前列，初步驗(yàn)證小規(guī)模模型可以同時(shí)兼具“領(lǐng)域深度”和“通用廣度”，避免因?yàn)椤皩＞t(yī)療”而變成“偏科生”。

MedResearcher-R1等專業(yè)模型發(fā)展的意義，不在于一次次測(cè)試結(jié)果，而是驗(yàn)證另一種可能性：在醫(yī)療、法律、工業(yè)等專業(yè)領(lǐng)域，“參數(shù)規(guī)?！辈皇俏ㄒ唤馑?，“Agentic Data”才是破局關(guān)鍵——通過精準(zhǔn)的數(shù)據(jù)源搭建、專用工具開發(fā)、創(chuàng)新訓(xùn)練方法，小規(guī)模模型有機(jī)會(huì)能啃下硬骨頭。

在容錯(cuò)率極低的醫(yī)療領(lǐng)域，專業(yè)模型仍然需要不斷提升可解釋性、合規(guī)性等，這也是行業(yè)未來面臨的共同挑戰(zhàn)。

目前，研究團(tuán)隊(duì)已宣布將MedResearcher-R1的代碼和數(shù)據(jù)集開源，希望在推動(dòng)全球研究者在該領(lǐng)域的協(xié)同創(chuàng)新，加速開發(fā)能夠輔助人類專家、提升醫(yī)療研究效率與質(zhì)量的下一代AI工具。

感興趣的朋友可通過官網(wǎng)鏈接直接體驗(yàn)。

官網(wǎng)鏈接：https://chat.antaq.com/
報(bào)告地址：https://arxiv.org/abs/2508.14880

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.