MedResearcher-R1團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
不卷參數(shù)的專業(yè)模型,會(huì)不會(huì)被通用大模型取代?
在醫(yī)療領(lǐng)域,這個(gè)疑問正在被打破。
螞蟻集團(tuán)聯(lián)合研究團(tuán)隊(duì)發(fā)布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技術(shù)報(bào)告,證明了一條關(guān)鍵路徑:專業(yè)開源模型只要做好領(lǐng)域化設(shè)計(jì),有機(jī)會(huì)在垂直賽道上“以小博大”,反超通用大模型。
團(tuán)隊(duì)發(fā)布的醫(yī)學(xué)AI智能體MedResearcher-R1,靠2100條(約2K規(guī)模)訓(xùn)練樣本,在權(quán)威醫(yī)療基準(zhǔn)測(cè)試MedBrowseComp上,將復(fù)雜醫(yī)療研究任務(wù)的準(zhǔn)確回答數(shù)量提升至27.5。
刷新該榜單紀(jì)錄的同時(shí),超過o3、Gemini 2.5 Pro等領(lǐng)先通用大模型,突破了此前25.5的業(yè)界準(zhǔn)確回答“卡點(diǎn)”。
讓AI學(xué)會(huì)像醫(yī)學(xué)專家那樣思考
研究背景
現(xiàn)在,基于大語言模型 (LLM) 的Agent已展現(xiàn)出跨越多個(gè)領(lǐng)域的卓越能力。
例如深度研究系統(tǒng)在復(fù)雜信息搜索和合成任務(wù)中就展現(xiàn)了高性能。但它們?cè)卺t(yī)療等專業(yè)領(lǐng)域容易出現(xiàn)不同程度的“水土不服”,面對(duì)復(fù)雜醫(yī)療查詢時(shí)也常“掉鏈子”,核心問題就兩個(gè):
- 缺“專業(yè)儲(chǔ)備”:通用模型沒有密集的醫(yī)療知識(shí),面對(duì)罕見病、多病癥關(guān)聯(lián)等場(chǎng)景,支撐不了臨床推理;
- 缺“精準(zhǔn)工具”:依賴公開網(wǎng)頁搜索的通用工具,要么找不到權(quán)威醫(yī)療數(shù)據(jù),要么被錯(cuò)誤信息干擾,無法保障推理嚴(yán)謹(jǐn)性。
而MedResearcher-R1的突破源于數(shù)據(jù)、工具、訓(xùn)練方法三大核心創(chuàng)新。
據(jù)此,螞蟻團(tuán)隊(duì)提出了知識(shí)指引下的軌跡合成框架(KISA),在12個(gè)醫(yī)學(xué)專業(yè)領(lǐng)域生成了2100多條不同的軌跡,每條軌跡平均與4.2個(gè)工具交互,為構(gòu)建“專家級(jí)AI醫(yī)療研究員”提供了全新范式。
三大核心技術(shù):不堆參數(shù),只做 “精準(zhǔn)突破”
MedResearcher-R1沒有走“堆參數(shù)、喂海量數(shù)據(jù)”的老路,而是從“讓AI學(xué)會(huì)像醫(yī)學(xué)專家那樣思考”出發(fā),做了三個(gè)關(guān)鍵設(shè)計(jì):
1. 主動(dòng) “造難題”:從3000萬文獻(xiàn)里煉出“4.2步推理題”
傳統(tǒng)AI訓(xùn)練靠“啃現(xiàn)成數(shù)據(jù)”,而MedResearcher-R1學(xué)會(huì)了“自己造題”,尤其是醫(yī)療領(lǐng)域的“高難度研究型問題”。
研究團(tuán)隊(duì)先從超過3000萬篇醫(yī)學(xué)文獻(xiàn)中,篩選出罕見病、特殊藥理機(jī)制等“冷門但關(guān)鍵”的醫(yī)學(xué)實(shí)體,再圍繞這些實(shí)體搭建知識(shí)圖譜。
最核心的一步是:從知識(shí)圖譜里提取“最長(zhǎng)推理路徑”——比如“罕見遺傳病→關(guān)聯(lián)基因→靶向藥物→代謝副作用”的多環(huán)節(jié)鏈條,最終生成需要平均調(diào)用4.2次工具才能解決的復(fù)雜問題。
這意味著AI訓(xùn)練時(shí)學(xué)的不是“翻書查答案”,而是“拆解問題、逐步驗(yàn)證”的專家級(jí)思維,比如面對(duì)“某罕見心臟病的用藥副作用”,它會(huì)主動(dòng)追溯藥物機(jī)制、臨床數(shù)據(jù),而非直接套模板回答。
2. 專屬“工具箱”:不囿于公開搜索,直連權(quán)威醫(yī)療數(shù)據(jù)源
通用領(lǐng)域Deep Research Agent的“軟肋”之一,是只能依賴公開網(wǎng)頁搜索。
在醫(yī)療場(chǎng)景里,未經(jīng)篩選的網(wǎng)絡(luò)公開檢索信息不僅可能過時(shí),還可能混雜非臨床級(jí)數(shù)據(jù)。
MedResearcher-R1直接配備了私有化部署的醫(yī)療專用工具集:通過直接訪問國際醫(yī)療指南、核心醫(yī)學(xué)期刊等一手權(quán)威信源,盡可能從根源上避免“信息噪音”。
比如在回答“某藥物成分”時(shí),它會(huì)直接調(diào)取官方藥品注冊(cè)數(shù)據(jù),而非依賴可能出錯(cuò)的公開科普;驗(yàn)證“藥物副作用”時(shí),會(huì)對(duì)接臨床驗(yàn)證結(jié)果,確保每一步推理都有權(quán)威依據(jù)。
3. 不教“背誦”教“思考”:「蒙版軌跡引導(dǎo)(Masked Trajectory Guidance)」技術(shù)“逼”出AI的自主能力
怕AI“死記硬背”?MedResearcher-R1的訓(xùn)練方法直接改道而行。
研究團(tuán)隊(duì)用了一種“蒙版軌跡引導(dǎo)(Masked Trajectory Guidance)”技術(shù):訓(xùn)練時(shí)只給 AI一個(gè)“推理框架”(比如“疾病→藥物→副作用”的邏輯鏈),但隱藏關(guān)鍵實(shí)體信息(比如具體疾病名稱、藥物成分)。
這就逼著AI必須主動(dòng)調(diào)用工具:查疾病指南確認(rèn)病癥、搜藥品數(shù)據(jù)庫匹配成分、驗(yàn)臨床數(shù)據(jù)驗(yàn)證副作用,最終自己“拼出”完整推理鏈。
這種訓(xùn)練不是“喂答案”,而是“教方法”——最終提升了小模型的泛化能力,在面對(duì)沒見過的新醫(yī)療問題,也能像人類研究員一樣自主拆解、驗(yàn)證。
舉個(gè)具體例子:當(dāng)被問及“某藥物的活性成分(需滿足質(zhì)數(shù)劑量、受體拮抗機(jī)制等多條件)”時(shí),通用AI通常會(huì)根據(jù)各種公開信息進(jìn)行全面整理給出不同答案;
而MedResearcher-R1會(huì)先查企業(yè)史鎖定藥企,再調(diào)取藥物信息,接著驗(yàn)證成分的化學(xué)結(jié)構(gòu)與受體機(jī)制,最后確認(rèn)副作用 ——整套流程復(fù)刻人類醫(yī)學(xué)研究員的工作邏輯,最終給出具體藥物名稱。
既要追求專業(yè),還要“不偏科”
更值得注意的是,螞蟻還在攻克其專業(yè)模型的 “通用研究能力”提升,試圖打破“專業(yè)模型只能干一行”的刻板印象。
從GAIA、xBench等通用AI助手基準(zhǔn)測(cè)試結(jié)果來看,MedResearcher-R1的表現(xiàn)也保持業(yè)界前列,初步驗(yàn)證小規(guī)模模型可以同時(shí)兼具“領(lǐng)域深度”和“通用廣度”,避免因?yàn)椤皩>t(yī)療”而變成“偏科生”。
MedResearcher-R1等專業(yè)模型發(fā)展的意義,不在于一次次測(cè)試結(jié)果,而是驗(yàn)證另一種可能性:在醫(yī)療、法律、工業(yè)等專業(yè)領(lǐng)域,“參數(shù)規(guī)?!辈皇俏ㄒ唤馑?,“Agentic Data”才是破局關(guān)鍵——通過精準(zhǔn)的數(shù)據(jù)源搭建、專用工具開發(fā)、創(chuàng)新訓(xùn)練方法,小規(guī)模模型有機(jī)會(huì)能啃下硬骨頭。
在容錯(cuò)率極低的醫(yī)療領(lǐng)域,專業(yè)模型仍然需要不斷提升可解釋性、合規(guī)性等,這也是行業(yè)未來面臨的共同挑戰(zhàn)。
目前,研究團(tuán)隊(duì)已宣布將MedResearcher-R1的代碼和數(shù)據(jù)集開源,希望在推動(dòng)全球研究者在該領(lǐng)域的協(xié)同創(chuàng)新,加速開發(fā)能夠輔助人類專家、提升醫(yī)療研究效率與質(zhì)量的下一代AI工具。
感興趣的朋友可通過官網(wǎng)鏈接直接體驗(yàn)。
官網(wǎng)鏈接:https://chat.antaq.com/
報(bào)告地址:https://arxiv.org/abs/2508.14880
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.