夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

夸克健康大模型萬(wàn)字調(diào)研報(bào)告:透視主任醫(yī)師級(jí)AI大腦背后的工程化

0
分享至





(一)調(diào)研摘要

(二)推理數(shù)據(jù)情況特色

(三)推理數(shù)據(jù)產(chǎn)線一:冷啟動(dòng)數(shù)據(jù)與模型微調(diào)

(四)推理數(shù)據(jù)產(chǎn)線一:推理強(qiáng)化學(xué)習(xí)訓(xùn)練

(五)推理數(shù)據(jù)產(chǎn)線二:高質(zhì)量不可驗(yàn)證數(shù)據(jù)集

(六)強(qiáng)化學(xué)習(xí)推理系統(tǒng):高質(zhì)量推理數(shù)據(jù)質(zhì)量評(píng)估

(七)強(qiáng)化學(xué)習(xí)推理系統(tǒng):多階段訓(xùn)練

(一)調(diào)研摘要

第一,通用大模型能力雖快速增長(zhǎng),但要在高專業(yè)度的健康醫(yī)療領(lǐng)域“煉成”性能高且可靠的推理模型,仍極具挑戰(zhàn)。業(yè)界主流方向早期由DeepSeek R1驗(yàn)證有效。當(dāng)下,或蒸餾DeepSeek R1模型數(shù)據(jù),或在小數(shù)據(jù)集上探索較為常見(jiàn);然而,在選擇合適預(yù)訓(xùn)練模型的基礎(chǔ)上,從頭設(shè)計(jì)并搭建整套流程,并用于業(yè)務(wù)一線,較為罕見(jiàn)。尤其在健康醫(yī)療領(lǐng)域,自建整套流程化系統(tǒng),能夠明確模型從哪些數(shù)據(jù),以何種方式學(xué)到哪些知識(shí),哪個(gè)環(huán)節(jié)學(xué)得不好;不僅提高性能,而且能提高可解釋度和信任度。調(diào)研發(fā)現(xiàn),夸克健康大模型直接支持搜索業(yè)務(wù)一線,并支持智能體夸克健康助手、夸克深度研究產(chǎn)品(僅開(kāi)放試用)。

第二,高質(zhì)量的思考數(shù)據(jù)(Chain-of-Thought, CoT)適合作為推動(dòng)模型形成強(qiáng)化學(xué)習(xí)推理范式的基礎(chǔ)素材已是共識(shí)。強(qiáng)化學(xué)習(xí)通過(guò)“結(jié)果導(dǎo)向、過(guò)程探索”的范式,可在訓(xùn)練中激發(fā)模型,也是共識(shí)。推理模型效果上限受制于多個(gè)與數(shù)據(jù)強(qiáng)耦合的技術(shù)節(jié)點(diǎn)。調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)認(rèn)為:在已知目標(biāo)結(jié)果(如診斷結(jié)論)的情況下,由于模型已經(jīng)在真實(shí)醫(yī)生的思考數(shù)據(jù)中學(xué)習(xí)到初步推理能力(高質(zhì)量冷啟動(dòng)數(shù)據(jù)),再用強(qiáng)化學(xué)習(xí)方法有效激發(fā)模型探索出多樣的推理路徑,從而自主找到最適合模型的推理路徑,進(jìn)一步拔高模型推理能力上限,在多階段訓(xùn)練方法中特意設(shè)計(jì)出篩選優(yōu)質(zhì)數(shù)據(jù)的方法,進(jìn)而與人工難以覆蓋的部分共同努力提高數(shù)據(jù)質(zhì)量,可以極大緩解醫(yī)療數(shù)據(jù)人工標(biāo)注的成本。

調(diào)研發(fā)現(xiàn),在后訓(xùn)練階段,他們精心設(shè)計(jì)多種多階段訓(xùn)練方法(可以是模型能力任務(wù)的多階段,可以是病藥術(shù)檢任務(wù)分別開(kāi)展的多階段,可以是篩選數(shù)據(jù)的多階段,也可以是訓(xùn)練方法的多階段),與此同時(shí),配合大量實(shí)驗(yàn),拔高模型學(xué)習(xí)能力的空間??淇私】荡竽P蛨F(tuán)隊(duì)對(duì)思考數(shù)據(jù)的觀測(cè)、分析、篩選等操作使用多種類型的模型,如驗(yàn)證器判斷結(jié)果準(zhǔn)確性,過(guò)程獎(jiǎng)勵(lì)模型和結(jié)果獎(jiǎng)勵(lì)數(shù)據(jù)評(píng)估推理質(zhì)量,用多維度綜合手段以提升可控性、可信度和專業(yè)度。

第三,追求推理模型效果長(zhǎng)期提升的雄心,必須落實(shí)于有耐心建設(shè)提高數(shù)據(jù)與模型質(zhì)量的“基礎(chǔ)設(shè)施”。調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)的基礎(chǔ)設(shè)施包括:

第一項(xiàng),大規(guī)模(百萬(wàn)級(jí))醫(yī)學(xué)知識(shí)圖譜,以及帶有ICD編碼的《夸克醫(yī)學(xué)術(shù)語(yǔ)集(Quark Med OmnisCT)》。

第二項(xiàng),推理數(shù)據(jù)生產(chǎn)線(下文稱“數(shù)據(jù)產(chǎn)線”)。團(tuán)隊(duì)認(rèn)為,破解困局需自建定制化產(chǎn)線,即構(gòu)建一條滿足“適配”“效率”,而非單純“為了提高質(zhì)量而提高質(zhì)量”的產(chǎn)線。可將數(shù)據(jù)分為可驗(yàn)證數(shù)據(jù)與不可驗(yàn)證數(shù)據(jù)兩種不同類型,并設(shè)計(jì)兩條平行的數(shù)據(jù)產(chǎn)線。該產(chǎn)線既產(chǎn)出高質(zhì)量數(shù)據(jù),也“同步產(chǎn)出”模型。端到端強(qiáng)化學(xué)習(xí),既融入產(chǎn)線,也融入模型系統(tǒng)。

第三項(xiàng),強(qiáng)化學(xué)習(xí)推理多階段訓(xùn)練系統(tǒng),在此基礎(chǔ)之上,形成極致工程化。

調(diào)研發(fā)現(xiàn),若想提高醫(yī)療推理模型的最終效果,需重視模型訓(xùn)練,更需要在數(shù)據(jù)產(chǎn)線上投入更多精力。從醫(yī)療認(rèn)知的角度出發(fā),來(lái)構(gòu)造數(shù)據(jù)和任務(wù)目標(biāo),再根據(jù)數(shù)據(jù)類型和任務(wù)目標(biāo)設(shè)計(jì)合適的多階段訓(xùn)練方法。

(二)推理數(shù)據(jù)情況特色

臨床思維是醫(yī)生在面對(duì)患者時(shí),通過(guò)有目的的提問(wèn)、信息收集和邏輯推理,逐步形成診斷和決策的核心過(guò)程。若健康醫(yī)療大模型希望在臨床場(chǎng)景中發(fā)揮價(jià)值,就必須“內(nèi)化”推理框架。

在數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)上,健康醫(yī)療推理數(shù)據(jù)采用三元組形式,三個(gè)要素分別是:

第一,問(wèn)題(Question);

第二,思考過(guò)程(Chain of Thought, CoT);

第三,最終答案(Answer)。

“問(wèn)題,思考過(guò)程,最終答案”下文簡(jiǎn)稱“問(wèn)思答”,同時(shí)含有這三種元素的數(shù)據(jù)稱為“整組數(shù)據(jù)”。整組數(shù)據(jù)的價(jià)值在于,它不僅要求模型能夠得出正確答案,還要求其過(guò)程合乎醫(yī)學(xué)邏輯,可解釋,可信可復(fù)現(xiàn)。思考過(guò)程質(zhì)量越高,模型越能體現(xiàn)其推理能力,進(jìn)而支撐高水平的可解釋性?!皢?wèn)思答”整組數(shù)據(jù)的獲取成本遠(yuǎn)高于普通問(wèn)答數(shù)據(jù),是核心數(shù)據(jù)資產(chǎn),若進(jìn)一步引入時(shí)間序列等結(jié)構(gòu)復(fù)雜性維度,構(gòu)造難度將指數(shù)級(jí)上升。此外,醫(yī)療健康場(chǎng)景常存在“一題多解、路徑多樣”的特點(diǎn),提出了更高難度的解決方案的需求。

1.問(wèn)題(Question)

在健康醫(yī)療領(lǐng)域,高質(zhì)量提問(wèn)激發(fā)模型高質(zhì)量思考與回答。問(wèn)題(Question)通常伴隨對(duì)自身身體狀況的自述信息,具有較強(qiáng)的上下文描述性與情境還原度?;蛘哒f(shuō)問(wèn)題(Question)是含有健康醫(yī)療背景情況與提示詞的完整問(wèn)題,例如,常見(jiàn)問(wèn)題包括:“我打噴嚏、流鼻涕、嗓子疼,并接觸過(guò)流感病人,該吃哪種藥?”問(wèn)題不單單是一句話,而是含有健康醫(yī)療背景情況與指令的結(jié)構(gòu)化數(shù)據(jù)。此認(rèn)知會(huì)影響過(guò)程獎(jiǎng)勵(lì)模型的設(shè)計(jì)。

調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)從問(wèn)題(Question)開(kāi)始,建立完備的標(biāo)簽體系。標(biāo)簽體系是將健康醫(yī)學(xué)概念標(biāo)準(zhǔn)化、結(jié)構(gòu)化的工程手段。正確使用概念是思維的基礎(chǔ),這就要求定義要清晰,內(nèi)涵要確定,語(yǔ)境要明確。在醫(yī)療領(lǐng)域,對(duì)概念的使用關(guān)系到對(duì)疾病的認(rèn)識(shí),進(jìn)一步影響診斷與治療(姚樹(shù)坤《臨床思維》)。

夸克健康大模型標(biāo)簽體系指的是,對(duì)每個(gè)問(wèn)答樣本中所涉及的關(guān)鍵信息進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化的標(biāo)注過(guò)程。一個(gè)可以被模型獨(dú)立識(shí)別、帶有明確健康含義的最基本信息片段。

比如,醫(yī)學(xué)實(shí)體:疾病名稱(遠(yuǎn)極骨折),癥狀(移位、腫脹),治療(石膏固定),藥物(非甾體抗炎藥)等;

屬性信息:恢復(fù)周期(4周)等;

意圖類型:表示用戶希望達(dá)成的目標(biāo),健康咨詢、找藥、選擇治療方案等。

這一標(biāo)簽體系的構(gòu)建基礎(chǔ)來(lái)源于醫(yī)療問(wèn)答平臺(tái)的真實(shí)信息與夸克搜索引擎日志,通過(guò)自動(dòng)術(shù)語(yǔ)提取、屬性分類與意圖識(shí)別等技術(shù),將用戶問(wèn)題解析為標(biāo)準(zhǔn)化的結(jié)構(gòu)字段,最終形成標(biāo)簽框架。

調(diào)研發(fā)現(xiàn),夸克搜索歷時(shí)五年,沉淀近千萬(wàn)日活搜索日志、大規(guī)模(百萬(wàn)級(jí))醫(yī)學(xué)知識(shí)圖譜,以及帶有ICD編碼的《夸克醫(yī)學(xué)術(shù)語(yǔ)集(Quark Med OmnisCT)》,為標(biāo)簽體系與術(shù)語(yǔ)標(biāo)準(zhǔn)化提供基礎(chǔ)。自然語(yǔ)言中的醫(yī)學(xué)表達(dá)具有極強(qiáng)的多樣性與模糊性,比如“冠心病”“冠狀動(dòng)脈粥樣硬化心臟病”本質(zhì)是同一種疾病,但表達(dá)不同。使用標(biāo)準(zhǔn)術(shù)語(yǔ)集,可以將這些語(yǔ)言的不同表達(dá)統(tǒng)一映射到唯一編碼,確保模型的一致理解,減少誤判或信息丟失。同時(shí),該標(biāo)簽體系支持結(jié)構(gòu)化篩選。標(biāo)簽可作為“索引”或者“字段”,調(diào)用特定標(biāo)簽子集,提高質(zhì)量控制精度,比如,一級(jí)標(biāo)簽(用戶意圖),二級(jí)標(biāo)簽(藥物治療)。

另外,一方面標(biāo)簽需與醫(yī)學(xué)指南與術(shù)語(yǔ)體系保持同步,支持層次化擴(kuò)展,另一方面,如果標(biāo)簽體系數(shù)量?jī)H百余,面對(duì)罕見(jiàn)病、亞專業(yè)細(xì)分場(chǎng)景就會(huì)捉襟見(jiàn)肘。因此,標(biāo)簽體系是問(wèn)題(Question)多樣性的基礎(chǔ),也是龐大數(shù)據(jù)細(xì)顆粒度的管理工具,直接決定了醫(yī)療健康大模型在長(zhǎng)期演進(jìn)中的上限。

2.思考(CoT)

模型不僅看到病歷和答案,還要學(xué)習(xí)“醫(yī)生是如何思考并得出結(jié)論”的全過(guò)程,即“問(wèn)題-思考過(guò)程-答案”(問(wèn)思答)。而健康醫(yī)療知識(shí)天然有難易之分,思考(CoT)也應(yīng)區(qū)分難易。引入劃分難度的構(gòu)造方法,使模型在訓(xùn)練過(guò)程中逐步適應(yīng)和掌握越來(lái)越難的醫(yī)療問(wèn)題,達(dá)成從簡(jiǎn)單到高難度的能力躍遷。調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)在此理解之上,構(gòu)造“思考行動(dòng)體系(Action)”,深入刻畫(huà)和表達(dá)健康醫(yī)療特有的思維路徑。該體系的提出,部分解決了長(zhǎng)期以來(lái)困擾醫(yī)療大模型訓(xùn)練的關(guān)鍵問(wèn)題之一——如何衡量思維過(guò)程質(zhì)量。

僅靠給出最終答案無(wú)法判斷模型是否真正理解,將思考過(guò)程拆解為可觀測(cè)的“思考行動(dòng)(Action)”——典型思考行動(dòng)包括問(wèn)題重述、知識(shí)回憶、問(wèn)題反思、總結(jié)等——用于精確描述思考的每一步的具體行動(dòng),有助于了解思考鏈里的細(xì)節(jié)。另外,思考行動(dòng)提供一種共同語(yǔ)言,方便拔高推理質(zhì)量。比如,假設(shè)思考(CoT)難度越高,問(wèn)題(Question)難度也越大,以此原則篩選有難度的思考數(shù)據(jù),進(jìn)而篩選出與思考過(guò)程配套的問(wèn)題(Question)。

后續(xù)設(shè)計(jì)多種篩選機(jī)制,會(huì)在下文中介紹。

3.最終答案(Answer)

由答案類型入手,將數(shù)據(jù)分為可驗(yàn)證數(shù)據(jù)與不可驗(yàn)證數(shù)據(jù)兩種不同類型,它們?cè)讷@取、篩選等方面存在顯著差異,需分開(kāi)討論。

第一類,可驗(yàn)證類的答案,相對(duì)簡(jiǎn)潔,通常為醫(yī)學(xué)實(shí)體或明確判斷。對(duì)于可驗(yàn)證的答案(Answer),用驗(yàn)證器模型(Verifier)與標(biāo)準(zhǔn)答案(Groundtruth)進(jìn)行比對(duì)判斷。

第二類,對(duì)于不可驗(yàn)證任務(wù),如醫(yī)療建議、健康科普等長(zhǎng)文本,內(nèi)容面廣,語(yǔ)言多變,邏輯各不相同,標(biāo)準(zhǔn)答案(Groundtruth)難以唯一。僅憑獎(jiǎng)勵(lì)模型對(duì)單一維度打分,無(wú)法完全捕捉醫(yī)學(xué)語(yǔ)境下的細(xì)致與專業(yè);需要通過(guò)對(duì)正確性、完整性、合理性分別建立偏好獎(jiǎng)勵(lì)模型打分,并依據(jù)分?jǐn)?shù)篩選數(shù)據(jù)與反饋,或使用規(guī)則、驗(yàn)證器與獎(jiǎng)勵(lì)模型協(xié)同發(fā)揮作用。

另有,健康醫(yī)療無(wú)思考數(shù)據(jù),這類沒(méi)有思考過(guò)程的數(shù)據(jù),有兩種處理方法:

第一,以多科室全職專業(yè)醫(yī)生團(tuán)隊(duì)精細(xì)標(biāo)注的方式,構(gòu)造正確、權(quán)威、復(fù)雜健康醫(yī)療內(nèi)容問(wèn)答集等高質(zhì)量數(shù)據(jù),或團(tuán)隊(duì)全員標(biāo)注。人工標(biāo)注可在初期數(shù)據(jù)資產(chǎn)貧乏時(shí),快速補(bǔ)充“糧草”。

第二,用SOTA語(yǔ)言模型對(duì)問(wèn)題(Question)生成候選答案,這類數(shù)據(jù)有助于彌補(bǔ)多領(lǐng)域知識(shí),提升訓(xùn)練模型問(wèn)答水平(邏輯性、全面性),可低成本高效獲得。

截至目前,上文提到的所有數(shù)據(jù)種類,都可以用獎(jiǎng)勵(lì)模型來(lái)篩選高質(zhì)量數(shù)據(jù)。獎(jiǎng)勵(lì)模型既是強(qiáng)化學(xué)習(xí)的算法組件,又是篩選數(shù)據(jù)的工具。

綜上,調(diào)研組認(rèn)為:伴隨強(qiáng)化學(xué)習(xí)技術(shù)在模型推理能力上的助力,整個(gè)推理微調(diào)與強(qiáng)化學(xué)習(xí)系統(tǒng)的極致工程化會(huì)成為提高壁壘的新競(jìng)爭(zhēng)。

兩條平行數(shù)據(jù)產(chǎn)線逐步關(guān)鍵訓(xùn)練流程為:

推理數(shù)據(jù)產(chǎn)線一(可驗(yàn)證)

第一步,冷啟動(dòng)數(shù)據(jù);

第二步,冷啟動(dòng)模型微調(diào);

第三步,推理強(qiáng)化學(xué)習(xí);

第四步,可驗(yàn)證數(shù)據(jù)蒸餾;

第五步,高質(zhì)量可驗(yàn)證數(shù)據(jù)集。

推理數(shù)據(jù)產(chǎn)線二(不可驗(yàn)證)

第一步,不可驗(yàn)證數(shù)據(jù)蒸餾;

第二步,高質(zhì)量不可驗(yàn)證數(shù)據(jù)集。



(三)推理數(shù)據(jù)產(chǎn)線一:冷啟動(dòng)數(shù)據(jù)與模型微調(diào)

冷啟動(dòng)數(shù)據(jù)需要專業(yè)醫(yī)生精準(zhǔn)標(biāo)注,為后續(xù)強(qiáng)化學(xué)習(xí)階段提供穩(wěn)定起點(diǎn),避免從一開(kāi)始就帶來(lái)“混亂”。構(gòu)造冷啟動(dòng)數(shù)據(jù),使用SOTA語(yǔ)言模型生成高質(zhì)量問(wèn)和答及完整推理鏈(即思考過(guò)程),再由職業(yè)醫(yī)師逐字逐句逐條校驗(yàn),確保健康知識(shí)與權(quán)威一致;驗(yàn)證醫(yī)學(xué)事實(shí)、診療論證邏輯和建議的合理性,確保邏輯可靠、無(wú)風(fēng)險(xiǎn);同時(shí),數(shù)據(jù)團(tuán)隊(duì)確保輸出按一定的格式,格式便于符合后續(xù)獎(jiǎng)勵(lì)模型評(píng)估規(guī)范。

調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)對(duì)冷啟動(dòng)數(shù)據(jù)質(zhì)量給予極高重視。原因在于,冷啟動(dòng)階段的數(shù)據(jù),模型此前從沒(méi)“見(jiàn)過(guò)”。一旦引入邏輯錯(cuò)誤,后續(xù)會(huì)連續(xù)出錯(cuò),形成“早期污染”;同時(shí),強(qiáng)化學(xué)習(xí)會(huì)進(jìn)一步放大錯(cuò)誤,且用過(guò)程獎(jiǎng)勵(lì)模型識(shí)別和修正,成本高昂。不如圖難于易地處理。團(tuán)隊(duì)曾遭受教訓(xùn),后被醫(yī)學(xué)專家指出時(shí)才得以重視。

調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)采用未經(jīng)任何下游微調(diào)的預(yù)訓(xùn)練模型為起點(diǎn),完全避免使用已經(jīng)經(jīng)過(guò)某一類任務(wù)微調(diào)過(guò)的模型,會(huì)對(duì)醫(yī)療領(lǐng)域模型起步產(chǎn)生的干擾。他們認(rèn)為,當(dāng)預(yù)訓(xùn)練的模型接近于“空白”初始狀態(tài),模型數(shù)據(jù)分布的多樣性強(qiáng),信息熵大,后續(xù)提高空間大。

他們觀察到,此階段模型展現(xiàn)出一定的適應(yīng)性:

第一種,當(dāng)健康狀況信息不完整時(shí),模型會(huì)先羅列與現(xiàn)有癥狀相關(guān)的多種疾病,再主動(dòng)推演可能缺失的癥狀或風(fēng)險(xiǎn)因素,用以補(bǔ)齊證據(jù)鏈后再做判斷。

第二種,當(dāng)輸入包含高度特異的關(guān)鍵體征時(shí),模型首先鎖定具備顯著鑒別力的候選疾病種類,隨后用其余癥狀進(jìn)行核對(duì),快速完成推理。

這種現(xiàn)象的存在,說(shuō)明模型能根據(jù)“題干與題面”動(dòng)態(tài)運(yùn)用不同思考方式,而非呆板套用固定答題模板。即便在冷啟動(dòng)階段,模型已具備一定的初步推理行為能力(抓住焦點(diǎn),思考路徑確定),為后續(xù)工作提供了可觀測(cè)的依據(jù)。這種觀察屬于捕捉到“推理的早期覺(jué)醒機(jī)制”,增加對(duì)模型推理的理解。



(四)推理數(shù)據(jù)產(chǎn)線一:推理強(qiáng)化學(xué)習(xí)訓(xùn)練

調(diào)研發(fā)現(xiàn),推理數(shù)據(jù)產(chǎn)線中用強(qiáng)化學(xué)習(xí)方法訓(xùn)練,得到一個(gè)能力上限極高的推理模型是核心,后續(xù)需要對(duì)該模型進(jìn)行蒸餾,所以,拔高該模型性能是整個(gè)系統(tǒng)最考驗(yàn)?zāi)P蛣?chuàng)造力的階段,訓(xùn)練時(shí)間最長(zhǎng),資源投入最大。這條推理數(shù)據(jù)產(chǎn)線同時(shí)也被稱為“可驗(yàn)證數(shù)據(jù)產(chǎn)線”。

本階段訓(xùn)練樣本,可按此五類劃分:基礎(chǔ)知識(shí)、疾病診斷、手術(shù)、藥物藥品、檢驗(yàn)檢查。這五類數(shù)據(jù)均具有明確的醫(yī)療語(yǔ)義,可以按五類任務(wù)劃分驗(yàn)證器模型,或多任務(wù)組合建模,或所有任務(wù)統(tǒng)一模型,具備高度靈活性。對(duì)于可驗(yàn)證的答案,用驗(yàn)證器模型(Verifier)與標(biāo)準(zhǔn)答案(Groundtruth)進(jìn)行比對(duì)判斷,直接且穩(wěn)定。為策略模型提供清晰監(jiān)督信號(hào),指導(dǎo)其向更高準(zhǔn)確性的回答前進(jìn)。

另外,也可以在構(gòu)造高難度“問(wèn)題”的同時(shí)構(gòu)造高難度的“思考”。在已有醫(yī)生構(gòu)造的病例數(shù)據(jù)中,選取結(jié)構(gòu)完整、信息豐富的住院病例作為基礎(chǔ)材料;針對(duì)這些病例中已有的答案,去除部分“泄題”性描述,即那些直接透露最終關(guān)鍵結(jié)論的信息;保留對(duì)結(jié)論有關(guān)鍵參考價(jià)值,但不直接指向答案的癥狀、體征、檢查結(jié)果等內(nèi)容。高難度問(wèn)答數(shù)據(jù)特征之一是,需多步推理才能得出結(jié)論。

調(diào)研發(fā)現(xiàn),在該產(chǎn)線階段,以激發(fā)健康醫(yī)學(xué)知識(shí)運(yùn)用為目標(biāo),提升回答結(jié)果的多樣性與覆蓋度,增強(qiáng)其對(duì)問(wèn)題潛在解空間的探索能力。在強(qiáng)化學(xué)習(xí)階段,策略模型執(zhí)行幾十次輸出采樣(比如,每題生成50個(gè)候選回答),后期實(shí)驗(yàn)證明,這一采樣策略有效拓展了策略模型的行為空間,顯著提升了回答結(jié)果的多樣性與覆蓋度,增強(qiáng)了其對(duì)問(wèn)題(Question)潛在解空間的探索能力。每輪迭代中同步產(chǎn)出階段性最優(yōu)的策略模型與驗(yàn)證器。策略模型設(shè)計(jì)為統(tǒng)一模型,不依賴任務(wù)類型切換。

為了拔高學(xué)習(xí)潛力,策略模型于百萬(wàn)次探索,在輸出的數(shù)據(jù)中篩選有難度的數(shù)據(jù),一輪一輪提高篩選數(shù)據(jù)的難度。這種“篩選一次難題數(shù)據(jù),提高一次模型做難題的能力”的方式,源源不斷提供給模型足夠好、足夠難的數(shù)據(jù),用數(shù)據(jù)質(zhì)量的提升逼近模型能力的上限。后期實(shí)驗(yàn)證明,這一采樣策略有效拓展了策略模型的行為空間。

從推理數(shù)據(jù)產(chǎn)線一(可驗(yàn)證)中產(chǎn)出階段性最優(yōu)的策略模型,對(duì)其進(jìn)行數(shù)據(jù)蒸餾(問(wèn)題,思考過(guò)程,答案)。可以認(rèn)為,獲得該階段策略模型的目的是為了取得可驗(yàn)證的高質(zhì)量數(shù)據(jù)?,F(xiàn)有高質(zhì)量策略模型,再通過(guò)數(shù)據(jù)蒸餾,得到高質(zhì)量可驗(yàn)證數(shù)據(jù)集,進(jìn)而用數(shù)據(jù)來(lái)遷移其醫(yī)學(xué)推理能力。



(五)推理數(shù)據(jù)產(chǎn)線二:高質(zhì)量不可驗(yàn)證數(shù)據(jù)集



首先,高質(zhì)量不可驗(yàn)證數(shù)據(jù)集的原始思考數(shù)據(jù)是通過(guò)數(shù)據(jù)蒸餾而來(lái)。不可驗(yàn)證數(shù)據(jù)所用問(wèn)題(Question)來(lái)源于醫(yī)生檢查過(guò)的高質(zhì)量問(wèn)題、醫(yī)學(xué)論壇提問(wèn)、夸克搜索日志,引導(dǎo)模型生成具備思維過(guò)程的答案輸出,具體方式是對(duì)SOTA語(yǔ)言模型(OpenAI O3和DeepSeek R1)進(jìn)行數(shù)據(jù)蒸餾,顯式引入思維過(guò)程數(shù)據(jù)。同時(shí),此類數(shù)據(jù)的構(gòu)造需要保障數(shù)據(jù)在表達(dá)多樣性與推理復(fù)雜度上的均衡分布。

其次,用偏好獎(jiǎng)勵(lì)模型篩選不可驗(yàn)證類答案(Answer)。由于該類型數(shù)據(jù)通常為長(zhǎng)文本(語(yǔ)義復(fù)雜、表達(dá)多樣),標(biāo)準(zhǔn)答案不唯一。此外,人類打分容易受到個(gè)體差異、打分尺度不一影響,導(dǎo)致穩(wěn)定性和可復(fù)現(xiàn)性差,因此可以采用強(qiáng)化學(xué)習(xí)中的偏好學(xué)習(xí)的方法。不可驗(yàn)證問(wèn)題較為開(kāi)放,可包括全面性、無(wú)害性、相關(guān)性、邏輯性、正確性等多個(gè)方面。因此,需引入多個(gè)維度的偏好模型對(duì)答案進(jìn)行打分。其中每個(gè)獎(jiǎng)勵(lì)模型關(guān)注的角度不同(正確性、有用性),采用偏序建模方式輸出判斷信號(hào),篩選出質(zhì)量最優(yōu)的答案作為最終輸出或用于后續(xù)訓(xùn)練反饋信號(hào)。經(jīng)過(guò)上述多輪篩選,得到下一階段數(shù)據(jù)。最終形成“具挑戰(zhàn)性且質(zhì)量?jī)?yōu)秀”的思考過(guò)程數(shù)據(jù)樣本集。

另外,也有一些方法同時(shí)適用于可驗(yàn)證和不可驗(yàn)證數(shù)據(jù)。比如,通過(guò)篩選答案,間接篩選正確的整組“問(wèn)思答”數(shù)據(jù);以“最終答案”的正確性作為問(wèn)題(Question)篩選衡量標(biāo)準(zhǔn),對(duì)應(yīng)的思考數(shù)據(jù)僅在答案正確時(shí)予以保留,答案錯(cuò)誤則整組“問(wèn)思答”數(shù)據(jù)作廢;進(jìn)而形成“正確答案樣本集”。

綜上,為了篩選高質(zhì)量數(shù)據(jù)(可驗(yàn)證與不可驗(yàn)證),使用多種類型的組件:驗(yàn)證器、偏好獎(jiǎng)勵(lì)模型、過(guò)程獎(jiǎng)勵(lì)模型。健康醫(yī)療領(lǐng)域還有一個(gè)特色問(wèn)題——“多解、多路徑”問(wèn)題。調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)對(duì)此高度重視,提出了一套針對(duì)性方法。



(六)高質(zhì)量推理數(shù)據(jù)質(zhì)量評(píng)估

健康醫(yī)療中“多解、多路徑”問(wèn)題,可概括為:同一不完備描述的癥狀,可能對(duì)應(yīng)多種疾病(比如,僅把發(fā)熱作為主線索,可涉及幾十種甚至上百種疾病,鑒別診斷時(shí),根據(jù)主線索圍繞3-5個(gè)疾病展開(kāi)為宜);診療方案有多種合理選擇,不同醫(yī)生可依據(jù)不同線索和特征得出多種不相同,但均具有合理性的結(jié)論。

模型生成不在預(yù)設(shè)正確答案集合中的內(nèi)容,這類輸出并不意味著錯(cuò)誤,反而可能是高質(zhì)量、有價(jià)值的補(bǔ)充信息,應(yīng)給予正向獎(jiǎng)勵(lì)。也就是說(shuō),對(duì)于那些雖未出現(xiàn)在標(biāo)準(zhǔn)答案中、但具有積極意義的結(jié)果,可以歸為“增益型”(nice-to-have)結(jié)果,亦應(yīng)識(shí)別其價(jià)值,并給予相應(yīng)評(píng)價(jià)分?jǐn)?shù),鼓勵(lì)模型輸出更全面、富有啟發(fā)的答案。

于是,在推理模型的訓(xùn)練過(guò)程中,需要既能夠判斷正確答案(驗(yàn)證器),又能處理模型有時(shí)生成的不在預(yù)設(shè)正確答案集合中的內(nèi)容(生成式模型)。這種多個(gè)解法、多種路徑帶來(lái)的開(kāi)放性和不確定性,使得訓(xùn)練數(shù)據(jù)中的答案不能被作為唯一評(píng)判依據(jù),這樣會(huì)產(chǎn)生錯(cuò)判或者無(wú)法捕捉到細(xì)節(jié)獎(jiǎng)勵(lì)信號(hào)。

健康醫(yī)療中的“多解、多路徑”問(wèn)題,尤其值得注意的是,即便已經(jīng)獲得一個(gè)答案,也存在殊途同歸的情況,答案的背后存在多個(gè)推理的思考路徑(CoT),且有好壞之分。在醫(yī)療的規(guī)范性、信任度、可解釋性的要求下,需要更好的路徑,更多維度的獎(jiǎng)勵(lì),鼓勵(lì)模型具有形成高質(zhì)量診療思考過(guò)程的能力。因此,需要從“推理過(guò)程合理性”與“結(jié)果質(zhì)量”兩個(gè)維度共同考量。

第一,如何設(shè)計(jì)針對(duì)最終答案(Answer)的結(jié)果獎(jiǎng)勵(lì)模型(ORM)?

調(diào)研發(fā)現(xiàn),由于強(qiáng)化學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)模型的計(jì)算成本也是一個(gè)重要的開(kāi)銷(xiāo),不能完全依靠模型,需要設(shè)計(jì)不同類型的獎(jiǎng)勵(lì)組件(基于規(guī)則的驗(yàn)證器、參數(shù)規(guī)模大小不同的模型),甚至部分獎(jiǎng)勵(lì)信號(hào)可以完全基于規(guī)則,以此低成本地拓展模型能力邊界,而不需要人工標(biāo)注。

對(duì)于明確的唯一的答案(比如診斷結(jié)果是某種疾病)設(shè)計(jì)基于規(guī)則的驗(yàn)證器,用于評(píng)估策略模型輸出的答案質(zhì)量,相當(dāng)于規(guī)則打分器。該驗(yàn)證器需要使用預(yù)構(gòu)建的百萬(wàn)數(shù)量級(jí)ICD編碼醫(yī)療術(shù)語(yǔ)集,進(jìn)行結(jié)構(gòu)化比對(duì)與相似度評(píng)估。需要注意的是,術(shù)語(yǔ)集是為每一個(gè)醫(yī)學(xué)概念提供唯一編碼,并定義其語(yǔ)義內(nèi)涵、屬性特征以及與其他概念的結(jié)構(gòu)關(guān)系的重要工具。

具體而言,設(shè)計(jì)三類規(guī)則來(lái)評(píng)估策略模型輸出內(nèi)容與醫(yī)學(xué)知識(shí)體系的一致性:

1.路徑相似度:衡量策略模型輸出中的實(shí)體在知識(shí)圖譜中相對(duì)于目標(biāo)概念的路徑接近程度;

2.圖結(jié)構(gòu)相似度:基于醫(yī)學(xué)實(shí)體之間的距離關(guān)系,度量其在知識(shí)圖譜的圖結(jié)構(gòu)中的語(yǔ)義接近程度;

3.術(shù)語(yǔ)相似度:通過(guò)分析名稱及其屬性信息的匹配度,判斷兩個(gè)術(shù)語(yǔ)在語(yǔ)言層面的相似性。

三類相似度指標(biāo)按照加權(quán)方式進(jìn)行融合,并經(jīng)歸一化處理,輸出一個(gè)綜合得分,作為最終的驗(yàn)證評(píng)分。

驗(yàn)證流程如下:首先將策略模型輸出的醫(yī)學(xué)答案解析為若干具有語(yǔ)義意義的原子實(shí)體(如“上呼吸道感染”被拆分為“上呼吸道”(部位)與“感染”(形態(tài)學(xué)改變)。每個(gè)原子實(shí)體映射到ICD術(shù)語(yǔ)集中,獲得對(duì)應(yīng)編碼。隨后,計(jì)算這些原子實(shí)體與知識(shí)圖譜中標(biāo)準(zhǔn)概念之間的相似度,只要任意一個(gè)原子實(shí)體命中,即可獲得部分得分,進(jìn)一步提升評(píng)估的寬容性。最終得分作為獎(jiǎng)勵(lì)信號(hào)反饋至策略模型,引導(dǎo)其優(yōu)化生成策略。

實(shí)際情況中,病藥術(shù)檢的部分任務(wù)有明確答案標(biāo)簽,部分任務(wù)無(wú)明確答案標(biāo)簽,比如多解、多可能性解,還需要對(duì)答案的整體性進(jìn)行評(píng)價(jià)獎(jiǎng)勵(lì),這部分采用生成式獎(jiǎng)勵(lì)模型。

于是,設(shè)計(jì)獎(jiǎng)勵(lì)系統(tǒng)X Clinical Judge的時(shí)候,需要考慮將兩種情況都覆蓋,用SOTA模型輔助人工構(gòu)建打分示例數(shù)據(jù),用該數(shù)據(jù)教會(huì)驗(yàn)證器和獎(jiǎng)勵(lì)模型打分邏輯。

對(duì)于有答案標(biāo)簽的問(wèn)題,除使用SOTA語(yǔ)言模型的輸出作為評(píng)分參考外,還可利用標(biāo)簽訓(xùn)練結(jié)果驗(yàn)證器(Verifier),判斷策略模型輸出與標(biāo)準(zhǔn)答案的一致性。因?yàn)榇鸢笜?biāo)簽的獲取成本較高,所以,對(duì)于無(wú)答案標(biāo)簽類型的問(wèn)題,采用SOTA語(yǔ)言模型(比如,DeepSeek R1)生成評(píng)分與簡(jiǎn)短評(píng)價(jià),作為結(jié)果獎(jiǎng)勵(lì)模型訓(xùn)練所用的打分示例數(shù)據(jù)。兩類數(shù)據(jù)融合訓(xùn)練,獲得使用一套共享參數(shù)的生成式評(píng)分模型。獎(jiǎng)勵(lì)模型輸出包括兩個(gè)關(guān)鍵維度的評(píng)分結(jié)果——正確性分?jǐn)?shù)與全面性分?jǐn)?shù),并配有簡(jiǎn)潔明確的語(yǔ)言評(píng)價(jià),用于支持模型輸出質(zhì)量的可解釋性。策略模型據(jù)此調(diào)整生成策略。最終,結(jié)果獎(jiǎng)勵(lì)模型在醫(yī)療多解、多路徑的問(wèn)題里,做出可信、可解釋的評(píng)估。

第二,如何設(shè)計(jì)“思考過(guò)程”獎(jiǎng)勵(lì)模型(PRM)?

誠(chéng)然,模型不僅要“答(Answer)對(duì)題”,還非常需要“講清楚思路(CoT)”。然而,缺乏現(xiàn)成答案標(biāo)簽,無(wú)法直接監(jiān)督訓(xùn)練過(guò)程獎(jiǎng)勵(lì)模型。

調(diào)研發(fā)現(xiàn),團(tuán)隊(duì)采取了人工提煉思維模式設(shè)計(jì)提示詞的方式構(gòu)造訓(xùn)練數(shù)據(jù),從而訓(xùn)練“過(guò)程獎(jiǎng)勵(lì)模型”突破難點(diǎn)。

首先,醫(yī)學(xué)專家閱讀大量模型輸出樣本,根據(jù)臨床思維,提煉出若干類“思考方法”(比如排除法、反推法等),并且明確區(qū)別病藥術(shù)檢每種任務(wù)過(guò)程中關(guān)鍵的推理方式。把這些不同類型的思維模式總結(jié)為語(yǔ)言模板(Prompt),輸入給SOTA語(yǔ)言模型,得到對(duì)“思考過(guò)程”的打分?jǐn)?shù)據(jù)(含簡(jiǎn)短文字評(píng)價(jià)),用于訓(xùn)練過(guò)程獎(jiǎng)勵(lì)模型。再用過(guò)程獎(jiǎng)勵(lì)模型對(duì)思考數(shù)據(jù)合乎醫(yī)學(xué)邏輯、結(jié)構(gòu)清晰、信息完整的程度打分,并生成相關(guān)文字評(píng)論,本質(zhì)是讓該模型學(xué)會(huì)評(píng)估質(zhì)量。這些數(shù)據(jù)不會(huì)被用于直接微調(diào)策略模型產(chǎn)出最終答案的能力,以確保過(guò)程獎(jiǎng)勵(lì)模型評(píng)估的獨(dú)立性。

過(guò)程獎(jiǎng)勵(lì)模型和答案驗(yàn)證器訓(xùn)練完畢后,投入使用。

首先,在強(qiáng)化學(xué)習(xí)過(guò)程中,對(duì)同一個(gè)問(wèn)題(Question),策略模型每次給出多組“思考(CoT)+最終答案(Answer)”后,使用過(guò)程獎(jiǎng)勵(lì)模型和答案驗(yàn)證器會(huì)分別對(duì)“思考+答案”進(jìn)行兩個(gè)維度的(合理性與答案準(zhǔn)確性)打分,加權(quán)計(jì)算之后,得出一個(gè)綜合評(píng)分。

其次,這一方法也可以在數(shù)據(jù)篩選過(guò)程中,強(qiáng)調(diào)“思考過(guò)程應(yīng)支撐結(jié)果”的一致性原則。如果模型按照思維引導(dǎo),正確完成了思考過(guò)程,但最終生成的答案仍然錯(cuò)誤,則視為思維與結(jié)果邏輯斷裂,此類樣本將被剔除,或改寫(xiě)為符合一致性原則的樣本再進(jìn)行使用。

在不同類型的醫(yī)療任務(wù)中,“答案的決定性”與“思考過(guò)程的重要性”所占比重不同,所以“思考(CoT)”和“最終答案(Answer)”的評(píng)分在綜合打分中應(yīng)賦予不同權(quán)重。

最終,使用GRPO算法,利用多組采樣及其綜合獎(jiǎng)勵(lì),用于計(jì)算策略優(yōu)勢(shì)(Advantage),再經(jīng)由策略梯度優(yōu)化策略模型參數(shù),從而提升模型在復(fù)雜醫(yī)療任務(wù)中產(chǎn)出清晰推理鏈條的能力。在訓(xùn)練進(jìn)程中,策略模型會(huì)越來(lái)越傾向于輸出有條理、有依據(jù)、有醫(yī)學(xué)常識(shí)支撐的思考過(guò)程和診療建議,從而具備類似高水平醫(yī)生的推理能力,而不是“拍腦門(mén)”的猜答案。

另外,引入一致性驗(yàn)證器模型,對(duì)思考路徑與最終答案之間的一致性進(jìn)行二次校驗(yàn)。模型可能通過(guò)偶然或非健康醫(yī)療規(guī)范路徑得出正確結(jié)論,如果此類情況在訓(xùn)練中被錯(cuò)誤地賦予獎(jiǎng)勵(lì)信號(hào),長(zhǎng)期而言,這將嚴(yán)重?cái)_亂模型推理能力的形成。

第三,對(duì)抗“作弊”。

在訓(xùn)練過(guò)程中,策略模型會(huì)利用規(guī)則漏洞“作弊”(hacking),比如,生成結(jié)構(gòu)表達(dá)上合理優(yōu)雅,但本質(zhì)錯(cuò)誤或欺騙性的回答。一旦這類回答沒(méi)有被準(zhǔn)確識(shí)別,策略模型將持續(xù)朝錯(cuò)誤方向優(yōu)化,導(dǎo)致資源浪費(fèi),且模型能力無(wú)法得到實(shí)質(zhì)提升。對(duì)此,介入方式是人工標(biāo)注負(fù)面案例,補(bǔ)充樣本,迭代訓(xùn)練驗(yàn)證器。即發(fā)現(xiàn)不同作弊手段并有針對(duì)性迭代,隨著驗(yàn)證器的改進(jìn),模型作弊空間被逐步壓縮。

作弊現(xiàn)象包括,但不限于:

第一種,模型在簡(jiǎn)單任務(wù)上“快答”,即直接輸出結(jié)論,無(wú)推理過(guò)程,繼而在復(fù)雜任務(wù)上沿用同樣策略。

第二種,模型為獲取高分,重復(fù)高評(píng)分答案或在同一回復(fù)中多次強(qiáng)調(diào)同一結(jié)論,以最大化累計(jì)獎(jiǎng)勵(lì)。

第三種,模型輸出看似合理,但事實(shí)性錯(cuò)誤的答案,比如,并不存在的疾病。這類錯(cuò)誤往往不易被沒(méi)有醫(yī)學(xué)專業(yè)背景的普通用戶察覺(jué),但在專業(yè)醫(yī)生審閱下會(huì)立即暴露。在健康場(chǎng)景下,具有較高風(fēng)險(xiǎn)隱患。

調(diào)研發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程初期,不宜引入過(guò)多復(fù)雜評(píng)判,需提供結(jié)構(gòu)清晰、判斷標(biāo)準(zhǔn)單一的參照信號(hào),避免策略模型在尚未穩(wěn)定時(shí)被復(fù)雜標(biāo)準(zhǔn)干擾,走偏優(yōu)化方向。

(七)強(qiáng)化學(xué)習(xí)推理系統(tǒng):多階段訓(xùn)練



當(dāng)模型在此處微調(diào),會(huì)有一個(gè)較高的起點(diǎn),原因是微調(diào)采用的數(shù)據(jù)已經(jīng)過(guò)精妙設(shè)計(jì)(多個(gè)階段的多輪迭代與篩選)。同時(shí),在整個(gè)數(shù)據(jù)產(chǎn)線中,模型和數(shù)據(jù)并沒(méi)有壓縮與現(xiàn)實(shí)世界有關(guān)的多領(lǐng)域通用知識(shí),在這一階段增加此類通用數(shù)據(jù),使得模型處理問(wèn)題的能力更全面,更具備解決現(xiàn)實(shí)健康與醫(yī)療問(wèn)題和狀況的能力。

健康需求是一種低頻剛需,此類產(chǎn)品的用戶通常是有健康需求,或處于健康困擾中。模型回答不僅需確保準(zhǔn)確性與專業(yè)性,更應(yīng)體現(xiàn)出適度的情感關(guān)懷,避免因措辭不當(dāng)引發(fā)用戶焦慮。

因此,需要偏好獎(jiǎng)勵(lì)模型對(duì)齊風(fēng)格,方法是先訓(xùn)練獎(jiǎng)勵(lì)模型,選擇基于“成對(duì)比較樣本訓(xùn)練機(jī)制(Pairwise)”,學(xué)習(xí)相對(duì)偏好。模型在推理階段獨(dú)立地對(duì)單個(gè)回答給出打分(Pointwise),連續(xù)打分,而非分類結(jié)果。隨后,獎(jiǎng)勵(lì)模型輸出生成一個(gè)連續(xù)實(shí)數(shù)作為質(zhì)量評(píng)分,用于引導(dǎo)策略模型更新方向。

再次引入數(shù)據(jù)產(chǎn)線一階段的驗(yàn)證器,該驗(yàn)證器來(lái)源于前一階段數(shù)據(jù)產(chǎn)線中的強(qiáng)化學(xué)習(xí)階段,具備標(biāo)準(zhǔn)答案或判定規(guī)則。此處的再驗(yàn)證,用于防止策略模型經(jīng)過(guò)多階段的訓(xùn)練后產(chǎn)生遺忘,該步驟在健康醫(yī)療領(lǐng)域尤其重要。該訓(xùn)練階段采用混合訓(xùn)練的方式,偏好獎(jiǎng)勵(lì)模型(RLHF)和驗(yàn)證器補(bǔ)充檢驗(yàn)(RLVR),兩者共同保障了策略模型能力迭代增長(zhǎng)的同時(shí),對(duì)醫(yī)學(xué)任務(wù)規(guī)范性與推理邏輯的長(zhǎng)期保持與強(qiáng)化。

綜上,夸克健康大模型團(tuán)隊(duì),使用兩條平行數(shù)據(jù)產(chǎn)線產(chǎn)出的高質(zhì)量訓(xùn)練數(shù)據(jù),結(jié)合多階段訓(xùn)練方法,得到具備一定推理能力與可靠性的健康醫(yī)療推理模型。

(完)

附錄







特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
民間故事:吸陰術(shù)

民間故事:吸陰術(shù)

心靈悅讀
2025-09-22 10:15:19
拉平上將被一擼到底后,普京怒氣未消,下令將其趕出俄軍貶出中央

拉平上將被一擼到底后,普京怒氣未消,下令將其趕出俄軍貶出中央

鐵錘簡(jiǎn)科
2025-09-23 17:09:09
蘋(píng)果iPhone Air國(guó)行版10月上市 僅提供合約機(jī)

蘋(píng)果iPhone Air國(guó)行版10月上市 僅提供合約機(jī)

PChome電腦之家
2025-09-22 09:59:43
5020萬(wàn)買(mǎi)來(lái)!羅馬諾:曼聯(lián)和奧納納都想分手,預(yù)計(jì)球員下賽季離隊(duì)

5020萬(wàn)買(mǎi)來(lái)!羅馬諾:曼聯(lián)和奧納納都想分手,預(yù)計(jì)球員下賽季離隊(duì)

直播吧
2025-09-22 19:31:08
剛剛,DeepSeek-V3.1「終極版」重磅發(fā)布!最大提升超36%,V4/R2還遠(yuǎn)嗎?

剛剛,DeepSeek-V3.1「終極版」重磅發(fā)布!最大提升超36%,V4/R2還遠(yuǎn)嗎?

新智元
2025-09-23 00:27:26
記者:曼聯(lián)的首發(fā)門(mén)將幾乎是英超最差的,索帥要為放棄亨德森負(fù)責(zé)

記者:曼聯(lián)的首發(fā)門(mén)將幾乎是英超最差的,索帥要為放棄亨德森負(fù)責(zé)

直播吧
2025-09-23 17:52:05
血壓、血糖、血脂、尿酸標(biāo)準(zhǔn)對(duì)照表,忌口清單全都有!

血壓、血糖、血脂、尿酸標(biāo)準(zhǔn)對(duì)照表,忌口清單全都有!

泠泠說(shuō)史
2025-09-22 18:05:30
毛主席曾留七大預(yù)言:當(dāng)時(shí)沒(méi)人信,如今6個(gè)已應(yīng)驗(yàn),第7個(gè)即將實(shí)現(xiàn)

毛主席曾留七大預(yù)言:當(dāng)時(shí)沒(méi)人信,如今6個(gè)已應(yīng)驗(yàn),第7個(gè)即將實(shí)現(xiàn)

秀心文雅
2025-09-13 10:25:44
菲律賓局勢(shì)控制不住,馬科斯下令抓人,莎拉忽然透露老杜去向

菲律賓局勢(shì)控制不住,馬科斯下令抓人,莎拉忽然透露老杜去向

阿天愛(ài)旅行
2025-09-23 15:37:45
米歇爾憑啥打動(dòng)鞏俐?看70歲的他求婚時(shí),鞏俐提出的要求就知道了

米歇爾憑啥打動(dòng)鞏俐?看70歲的他求婚時(shí),鞏俐提出的要求就知道了

粵語(yǔ)經(jīng)典歌單
2025-09-23 16:36:16
A股:大家做好心理準(zhǔn)備,不出所料,明天周三很有可能要這樣走?

A股:大家做好心理準(zhǔn)備,不出所料,明天周三很有可能要這樣走?

云鵬敘事
2025-09-23 15:15:23
鄭州昔日“第一高樓”將變臉,效果圖來(lái)了

鄭州昔日“第一高樓”將變臉,效果圖來(lái)了

GA環(huán)球建筑
2025-09-22 16:54:04
證監(jiān)會(huì)的漏洞百出!9月23日,今日凌晨的四大消息正式來(lái)襲!

證監(jiān)會(huì)的漏洞百出!9月23日,今日凌晨的四大消息正式來(lái)襲!

搬磚知天下事
2025-09-23 09:11:43
曝知名女星給全體員工換iPhone 17 Pro 網(wǎng)友實(shí)名羨慕

曝知名女星給全體員工換iPhone 17 Pro 網(wǎng)友實(shí)名羨慕

手機(jī)中國(guó)
2025-09-22 10:04:27
臺(tái)風(fēng)前夕,廣東人最不愛(ài)吃的菜暴露了,沒(méi)錯(cuò)就是它

臺(tái)風(fēng)前夕,廣東人最不愛(ài)吃的菜暴露了,沒(méi)錯(cuò)就是它

丁丁鯉史紀(jì)
2025-09-23 12:56:17
育英田老師被提級(jí)調(diào)查,家長(zhǎng)群內(nèi)卻好評(píng)如潮,被體罰學(xué)生媽媽回應(yīng)

育英田老師被提級(jí)調(diào)查,家長(zhǎng)群內(nèi)卻好評(píng)如潮,被體罰學(xué)生媽媽回應(yīng)

花心電影
2025-09-23 10:43:14
吳亦凡監(jiān)獄近況曝光:身染重病、夜夜痛哭!網(wǎng)友:這下徹底完了!

吳亦凡監(jiān)獄近況曝光:身染重病、夜夜痛哭!網(wǎng)友:這下徹底完了!

叨叨話影
2025-09-07 09:36:07
我只是誠(chéng)實(shí)地面對(duì)這個(gè)疾病,如果哪天無(wú)藥可醫(yī)了,也不會(huì)轉(zhuǎn)向中醫(yī)

我只是誠(chéng)實(shí)地面對(duì)這個(gè)疾病,如果哪天無(wú)藥可醫(yī)了,也不會(huì)轉(zhuǎn)向中醫(yī)

蔥哥說(shuō)
2025-09-21 21:55:08
紀(jì)實(shí):25歲華裔女子遭男友強(qiáng)制塞高爾夫球,3小時(shí)后在痛苦中死去

紀(jì)實(shí):25歲華裔女子遭男友強(qiáng)制塞高爾夫球,3小時(shí)后在痛苦中死去

談史論天地
2025-09-11 14:59:38
“電彈三杰”亮相 福建艦實(shí)現(xiàn)電磁彈射起飛意味著什么?

“電彈三杰”亮相 福建艦實(shí)現(xiàn)電磁彈射起飛意味著什么?

環(huán)球網(wǎng)資訊
2025-09-23 09:52:09
2025-09-23 18:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11341文章數(shù) 142455關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)的1000億美元,最后又回了英偉達(dá)?

頭條要聞

搞權(quán)色交易江西"虎"受賄6517萬(wàn) 曾陷"周公子"炫富風(fēng)波

頭條要聞

搞權(quán)色交易江西"虎"受賄6517萬(wàn) 曾陷"周公子"炫富風(fēng)波

體育要聞

放下游戲機(jī),捧起金球獎(jiǎng)

娛樂(lè)要聞

娛樂(lè)圈里最干凈的是王寶強(qiáng)和肖戰(zhàn)?

財(cái)經(jīng)要聞

金價(jià)創(chuàng)出今年“第36個(gè)新高”

汽車(chē)要聞

"聽(tīng)勸"但"不從眾", iCAR將"特色車(chē)"進(jìn)行到底

態(tài)度原創(chuàng)

健康
教育
手機(jī)
親子
家居

內(nèi)分泌科專家破解身高八大謠言

教育要聞

教育部:中國(guó)基礎(chǔ)教育已達(dá)世界高收入國(guó)家平均水平

手機(jī)要聞

蘋(píng)果關(guān)閉iOS 18系統(tǒng)驗(yàn)證 升級(jí)iOS 26后將無(wú)法降級(jí)

親子要聞

敏上岸吃三個(gè)月能定植嗎

家居要聞

城市肌理 半島富貴生活

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲人人妻AV在线播放| 欧美动作大片在线观看| 国产综合色产在线精品| 午夜福利视频合集1000| 成人网站免费观看永久视频下载 | 国产精品久久久久9999县| 日韩精品一区二区三区色| 观看在线人视频| 夜夜高潮夜夜爽国产伦精品| 国产午夜无码AV毛片久久| 国产一区二区福利| 亚洲精品无码无人区麻豆a| 福利一区二区在线观看| 国产伊人熟女| 国产成人无码8X| 性欧美四在线| 成人网站WWW污污污网站| 激情国产一区二区三区四区小说| www.-级毛片线天内射视视| 成人免费在线观看一区二区| 欧美怡春院一区二区三区| 国产福利无码一区二区在线| 蜜桃AⅤ无码在线| 久久久亚洲AV波多野结衣苍井空| 亚洲av大乳天堂在线观看| 久久一区二区三区黄色片| 中文字幕人妻第一区| 尤物视频在线播放你懂的| 狠狠躁日日躁夜夜躁婷婷| 国产免费爽爽视频| 色七七亚洲综合网站| 成在线人视频免费视频| 精品国产一区二区三区四区在线看| 国产成人vr精品a视频| 天堂影院一区二区三区四区| 欧美熟妇呻吟猛交xx性| 亚洲精品午夜| haodiaori精品| 成人av无码久久久| 中文区中文字幕免费看| 日产亚洲一区二区三区|