夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

螞蟻專用模型超越o3!僅用2K訓(xùn)練樣本刷新醫(yī)療AI榜單紀(jì)錄

0
分享至

MedResearcher-R1團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

不卷參數(shù)的專業(yè)模型,會(huì)不會(huì)被通用大模型取代?

醫(yī)療領(lǐng)域,這個(gè)疑問正在被打破。

螞蟻集團(tuán)聯(lián)合研究團(tuán)隊(duì)發(fā)布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技術(shù)報(bào)告,證明了一條關(guān)鍵路徑:專業(yè)開源模型只要做好領(lǐng)域化設(shè)計(jì),有機(jī)會(huì)在垂直賽道上“以小博大”,反超通用大模型。



團(tuán)隊(duì)發(fā)布的醫(yī)學(xué)AI智能體MedResearcher-R1,靠2100條(約2K規(guī)模)訓(xùn)練樣本,在權(quán)威醫(yī)療基準(zhǔn)測(cè)試MedBrowseComp上,將復(fù)雜醫(yī)療研究任務(wù)的準(zhǔn)確回答數(shù)量提升至27.5。

刷新該榜單紀(jì)錄的同時(shí),超過o3、Gemini 2.5 Pro等領(lǐng)先通用大模型,突破了此前25.5的業(yè)界準(zhǔn)確回答“卡點(diǎn)”。



讓AI學(xué)會(huì)像醫(yī)學(xué)專家那樣思考
研究背景

現(xiàn)在,基于大語言模型 (LLM) 的Agent已展現(xiàn)出跨越多個(gè)領(lǐng)域的卓越能力。

例如深度研究系統(tǒng)在復(fù)雜信息搜索和合成任務(wù)中就展現(xiàn)了高性能。但它們?cè)卺t(yī)療等專業(yè)領(lǐng)域容易出現(xiàn)不同程度的“水土不服”,面對(duì)復(fù)雜醫(yī)療查詢時(shí)也常“掉鏈子”,核心問題就兩個(gè):

  1. 缺“專業(yè)儲(chǔ)備”:通用模型沒有密集的醫(yī)療知識(shí),面對(duì)罕見病、多病癥關(guān)聯(lián)等場(chǎng)景,支撐不了臨床推理;
  2. 缺“精準(zhǔn)工具”:依賴公開網(wǎng)頁搜索的通用工具,要么找不到權(quán)威醫(yī)療數(shù)據(jù),要么被錯(cuò)誤信息干擾,無法保障推理嚴(yán)謹(jǐn)性。

而MedResearcher-R1的突破源于數(shù)據(jù)、工具、訓(xùn)練方法三大核心創(chuàng)新。

據(jù)此,螞蟻團(tuán)隊(duì)提出了知識(shí)指引下的軌跡合成框架(KISA),在12個(gè)醫(yī)學(xué)專業(yè)領(lǐng)域生成了2100多條不同的軌跡,每條軌跡平均與4.2個(gè)工具交互,為構(gòu)建“專家級(jí)AI醫(yī)療研究員”提供了全新范式。

三大核心技術(shù):不堆參數(shù),只做 “精準(zhǔn)突破”

MedResearcher-R1沒有走“堆參數(shù)、喂海量數(shù)據(jù)”的老路,而是從“讓AI學(xué)會(huì)像醫(yī)學(xué)專家那樣思考”出發(fā),做了三個(gè)關(guān)鍵設(shè)計(jì):

1. 主動(dòng) “造難題”:從3000萬文獻(xiàn)里煉出“4.2步推理題”

傳統(tǒng)AI訓(xùn)練靠“啃現(xiàn)成數(shù)據(jù)”,而MedResearcher-R1學(xué)會(huì)了“自己造題”,尤其是醫(yī)療領(lǐng)域的“高難度研究型問題”。

研究團(tuán)隊(duì)先從超過3000萬篇醫(yī)學(xué)文獻(xiàn)中,篩選出罕見病、特殊藥理機(jī)制等“冷門但關(guān)鍵”的醫(yī)學(xué)實(shí)體,再圍繞這些實(shí)體搭建知識(shí)圖譜。

最核心的一步是:從知識(shí)圖譜里提取“最長(zhǎng)推理路徑”——比如“罕見遺傳病→關(guān)聯(lián)基因→靶向藥物→代謝副作用”的多環(huán)節(jié)鏈條,最終生成需要平均調(diào)用4.2次工具才能解決的復(fù)雜問題。

這意味著AI訓(xùn)練時(shí)學(xué)的不是“翻書查答案”,而是“拆解問題、逐步驗(yàn)證”的專家級(jí)思維,比如面對(duì)“某罕見心臟病的用藥副作用”,它會(huì)主動(dòng)追溯藥物機(jī)制、臨床數(shù)據(jù),而非直接套模板回答。



2. 專屬“工具箱”:不囿于公開搜索,直連權(quán)威醫(yī)療數(shù)據(jù)源

通用領(lǐng)域Deep Research Agent的“軟肋”之一,是只能依賴公開網(wǎng)頁搜索。

在醫(yī)療場(chǎng)景里,未經(jīng)篩選的網(wǎng)絡(luò)公開檢索信息不僅可能過時(shí),還可能混雜非臨床級(jí)數(shù)據(jù)。

MedResearcher-R1直接配備了私有化部署的醫(yī)療專用工具集:通過直接訪問國際醫(yī)療指南、核心醫(yī)學(xué)期刊等一手權(quán)威信源,盡可能從根源上避免“信息噪音”。

比如在回答“某藥物成分”時(shí),它會(huì)直接調(diào)取官方藥品注冊(cè)數(shù)據(jù),而非依賴可能出錯(cuò)的公開科普;驗(yàn)證“藥物副作用”時(shí),會(huì)對(duì)接臨床驗(yàn)證結(jié)果,確保每一步推理都有權(quán)威依據(jù)。

3. 不教“背誦”教“思考”:「蒙版軌跡引導(dǎo)(Masked Trajectory Guidance)」技術(shù)“逼”出AI的自主能力

怕AI“死記硬背”?MedResearcher-R1的訓(xùn)練方法直接改道而行。



研究團(tuán)隊(duì)用了一種“蒙版軌跡引導(dǎo)(Masked Trajectory Guidance)”技術(shù):訓(xùn)練時(shí)只給 AI一個(gè)“推理框架”(比如“疾病→藥物→副作用”的邏輯鏈),但隱藏關(guān)鍵實(shí)體信息(比如具體疾病名稱、藥物成分)。

這就逼著AI必須主動(dòng)調(diào)用工具:查疾病指南確認(rèn)病癥、搜藥品數(shù)據(jù)庫匹配成分、驗(yàn)臨床數(shù)據(jù)驗(yàn)證副作用,最終自己“拼出”完整推理鏈。

這種訓(xùn)練不是“喂答案”,而是“教方法”——最終提升了小模型的泛化能力,在面對(duì)沒見過的新醫(yī)療問題,也能像人類研究員一樣自主拆解、驗(yàn)證。

舉個(gè)具體例子:當(dāng)被問及“某藥物的活性成分(需滿足質(zhì)數(shù)劑量、受體拮抗機(jī)制等多條件)”時(shí),通用AI通常會(huì)根據(jù)各種公開信息進(jìn)行全面整理給出不同答案;

而MedResearcher-R1會(huì)先查企業(yè)史鎖定藥企,再調(diào)取藥物信息,接著驗(yàn)證成分的化學(xué)結(jié)構(gòu)與受體機(jī)制,最后確認(rèn)副作用 ——整套流程復(fù)刻人類醫(yī)學(xué)研究員的工作邏輯,最終給出具體藥物名稱。

既要追求專業(yè),還要“不偏科”

更值得注意的是,螞蟻還在攻克其專業(yè)模型的 “通用研究能力”提升,試圖打破“專業(yè)模型只能干一行”的刻板印象。

從GAIA、xBench等通用AI助手基準(zhǔn)測(cè)試結(jié)果來看,MedResearcher-R1的表現(xiàn)也保持業(yè)界前列,初步驗(yàn)證小規(guī)模模型可以同時(shí)兼具“領(lǐng)域深度”和“通用廣度”,避免因?yàn)椤皩>t(yī)療”而變成“偏科生”。

MedResearcher-R1等專業(yè)模型發(fā)展的意義,不在于一次次測(cè)試結(jié)果,而是驗(yàn)證另一種可能性:在醫(yī)療、法律、工業(yè)等專業(yè)領(lǐng)域,“參數(shù)規(guī)?!辈皇俏ㄒ唤馑?,“Agentic Data”才是破局關(guān)鍵——通過精準(zhǔn)的數(shù)據(jù)源搭建、專用工具開發(fā)、創(chuàng)新訓(xùn)練方法,小規(guī)模模型有機(jī)會(huì)能啃下硬骨頭。

在容錯(cuò)率極低的醫(yī)療領(lǐng)域,專業(yè)模型仍然需要不斷提升可解釋性、合規(guī)性等,這也是行業(yè)未來面臨的共同挑戰(zhàn)。

目前,研究團(tuán)隊(duì)已宣布將MedResearcher-R1的代碼和數(shù)據(jù)集開源,希望在推動(dòng)全球研究者在該領(lǐng)域的協(xié)同創(chuàng)新,加速開發(fā)能夠輔助人類專家、提升醫(yī)療研究效率與質(zhì)量的下一代AI工具。

感興趣的朋友可通過官網(wǎng)鏈接直接體驗(yàn)。

官網(wǎng)鏈接:https://chat.antaq.com/
報(bào)告地址:https://arxiv.org/abs/2508.14880

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
用肉身擋違法逃逸鐵騎被撞飛的香港公務(wù)員終于被無罪釋放了!死者女友表示不服:對(duì)調(diào)查結(jié)果還是很憤怒!

用肉身擋違法逃逸鐵騎被撞飛的香港公務(wù)員終于被無罪釋放了!死者女友表示不服:對(duì)調(diào)查結(jié)果還是很憤怒!

澳門月刊
2025-08-29 17:03:13
釋永信交代的情況讓人意外,境外賬戶有數(shù)十億存款,還有莊園豪宅

釋永信交代的情況讓人意外,境外賬戶有數(shù)十億存款,還有莊園豪宅

176翠翠
2025-08-28 12:54:49
80歲老人:癱瘓十年后,我才徹底明白,其實(shí)人到晚年誰都靠不住

80歲老人:癱瘓十年后,我才徹底明白,其實(shí)人到晚年誰都靠不住

烙任情感
2025-08-28 22:24:04
小米粥再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

小米粥再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

泠泠說史
2025-08-28 16:14:53
選址日?qǐng)?bào):鈴木汽車投570億建超級(jí)工廠;博世斥100億建研發(fā)基地

選址日?qǐng)?bào):鈴木汽車投570億建超級(jí)工廠;博世斥100億建研發(fā)基地

選址中國
2025-08-29 17:44:51
章子怡七夕帶兒女歡樂出游,9歲醒醒潛水似美人魚,5歲兒子像媽媽

章子怡七夕帶兒女歡樂出游,9歲醒醒潛水似美人魚,5歲兒子像媽媽

史行途
2025-08-29 15:17:41
記者:亞特蘭大將盧克曼排出球隊(duì)之外直至冬窗,甚至整個(gè)賽季

記者:亞特蘭大將盧克曼排出球隊(duì)之外直至冬窗,甚至整個(gè)賽季

懂球帝
2025-08-29 17:59:10
盧談16年總決賽G7最后時(shí)刻:詹姆斯筋疲力盡 就讓歐文挑庫里單打

盧談16年總決賽G7最后時(shí)刻:詹姆斯筋疲力盡 就讓歐文挑庫里單打

直播吧
2025-08-30 00:10:30
北京簽趙睿最打臉的不是廣東,而是CBA!規(guī)則成笑話,威信全掃地

北京簽趙睿最打臉的不是廣東,而是CBA!規(guī)則成笑話,威信全掃地

嘴炮體壇
2025-08-28 22:58:54
座椅通風(fēng),豪車才配?它的價(jià)格是怎么被電車打下來的?丨圖文

座椅通風(fēng),豪車才配?它的價(jià)格是怎么被電車打下來的?丨圖文

柴知道
2025-08-28 18:52:46
為何有人家子孫興旺,有的卻人丁稀少,觀音菩薩:根源在于2個(gè)字

為何有人家子孫興旺,有的卻人丁稀少,觀音菩薩:根源在于2個(gè)字

第四思維
2025-08-25 22:03:31
王國明又獻(xiàn)神撲!單手封出必進(jìn)球,蘭克爾澤抱頭遺憾,前國腳點(diǎn)評(píng)

王國明又獻(xiàn)神撲!單手封出必進(jìn)球,蘭克爾澤抱頭遺憾,前國腳點(diǎn)評(píng)

奧拜爾
2025-08-29 19:52:07
西媒:貝蒂斯與曼聯(lián)達(dá)基本協(xié)議,2000萬歐買安東尼50%所有權(quán)

西媒:貝蒂斯與曼聯(lián)達(dá)基本協(xié)議,2000萬歐買安東尼50%所有權(quán)

直播吧
2025-08-29 23:16:20
歐戰(zhàn)風(fēng)云——俄烏動(dòng)態(tài)快遞

歐戰(zhàn)風(fēng)云——俄烏動(dòng)態(tài)快遞

史政先鋒
2025-08-29 13:21:37
白麗影注銷賬號(hào),發(fā)嚴(yán)正聲明,曝金某在里以淚洗面,他后悔了嗎?

白麗影注銷賬號(hào),發(fā)嚴(yán)正聲明,曝金某在里以淚洗面,他后悔了嗎?

吃瓜盟主
2025-08-28 15:07:07
獨(dú)家揭秘原中國鐵塔集團(tuán)董事長(zhǎng)妻子:說話口氣很大!沒人敢惹!

獨(dú)家揭秘原中國鐵塔集團(tuán)董事長(zhǎng)妻子:說話口氣很大!沒人敢惹!

小李子體育
2025-08-29 01:36:18
深圳這場(chǎng)商演,扯下曲協(xié)主席馮鞏最后的體面!

深圳這場(chǎng)商演,扯下曲協(xié)主席馮鞏最后的體面!

跳跳歷史
2025-08-29 16:35:56
重返英超?穆里尼奧下家賠率:森林&西漢姆領(lǐng)跑,曼聯(lián)11、葡萄牙9

重返英超?穆里尼奧下家賠率:森林&西漢姆領(lǐng)跑,曼聯(lián)11、葡萄牙9

直播吧
2025-08-29 22:13:19
新華社快訊:每個(gè)民族、每個(gè)國家的前途命運(yùn)都緊緊聯(lián)系在一起,應(yīng)該風(fēng)雨同舟,榮辱與共

新華社快訊:每個(gè)民族、每個(gè)國家的前途命運(yùn)都緊緊聯(lián)系在一起,應(yīng)該風(fēng)雨同舟,榮辱與共

新華社
2025-08-29 10:08:10
內(nèi)蒙大媽沙漠里攔路收費(fèi),游客不給就開車撞人,身份被扒是慣犯

內(nèi)蒙大媽沙漠里攔路收費(fèi),游客不給就開車撞人,身份被扒是慣犯

鋭娛之樂
2025-08-29 00:59:47
2025-08-30 00:56:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11211文章數(shù) 176257關(guān)注度
往期回顧 全部

科技要聞

比亞迪中報(bào)營(yíng)收首超特斯拉

頭條要聞

俄羅斯襲擊基輔已致20多人死亡 中方回應(yīng)"是否譴責(zé)俄"

頭條要聞

俄羅斯襲擊基輔已致20多人死亡 中方回應(yīng)"是否譴責(zé)俄"

體育要聞

從新疆飛行2小時(shí),就能看皇馬踢歐冠?!

娛樂要聞

韓磊報(bào)警工作室嚴(yán)正聲明 妻子也回應(yīng)了

財(cái)經(jīng)要聞

A股本輪行情,"創(chuàng)新牛"還是"資金牛"?

汽車要聞

售11.99萬元起 大眾全新凌渡L正式上市

態(tài)度原創(chuàng)

親子
房產(chǎn)
手機(jī)
本地
公開課

親子要聞

新學(xué)期起,北京減免幼兒園學(xué)前1年兒童保教費(fèi)

房產(chǎn)要聞

三亞、陵水?dāng)鄼n發(fā)力,海南新房均價(jià)飆到1.8w+!

手機(jī)要聞

一加 15 工程機(jī)現(xiàn)身 Geekbench,搭載高通驍龍 8 Elite Gen 5

本地新聞

換個(gè)城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 就爱看就爱干| 99精品国产免费久久久久久按摩| 大胆欧美熟妇xx| 亚洲中文字幕成人无码| 人人操AV对战| 色综合久久影院| 日本在线a一区视频高清视频| a888av视频| 成人午夜天| 免费观看又污又黄在线观看| 快婷日播比比| 乱人妻精品一区二区av药水| 无码精品视频一区二区三区| 久久精品亚洲lu08| 菠萝菠萝蜜午夜视频在线播放观看 | 婷婷开心深爱五月天播播| 99精品国产一区二区| 一本大道东京热无码视频| 人人爱人人操人人爱人人| 中国59XXXXX| 久久久久久无码av成人影院| 凹凸熟女白浆精品视频2| 午夜一区二区三区国产好的精华液| 久久综合九色综合97欧美| www.wuyefuli| 无码视频精品合集| 国内精品免费久久久久电影院97 | 婷婷五月丁香社区| 婷婷五月综合久久中文字幕 | 久久综合干| 男人的天堂在成a嫩| 人体欣赏showybeauty| 精品国偷自产在线电影| 日本娇小被黑人巨大撑爆| 中文字幕自拍欧美| 国产精品爽爽久久久久久| 农村人乱子伦精品| 国产精品久久久久久超碰| 在线播放国产精品三级网| 欧美性猛交XXXX免费看漫画| 欧美精品一区午夜小说|