(一)調(diào)研摘要
(二)推理數(shù)據(jù)情況特色
(三)推理數(shù)據(jù)產(chǎn)線一:冷啟動(dòng)數(shù)據(jù)與模型微調(diào)
(四)推理數(shù)據(jù)產(chǎn)線一:推理強(qiáng)化學(xué)習(xí)訓(xùn)練
(五)推理數(shù)據(jù)產(chǎn)線二:高質(zhì)量不可驗(yàn)證數(shù)據(jù)集
(六)強(qiáng)化學(xué)習(xí)推理系統(tǒng):高質(zhì)量推理數(shù)據(jù)質(zhì)量評(píng)估
(七)強(qiáng)化學(xué)習(xí)推理系統(tǒng):多階段訓(xùn)練
(一)調(diào)研摘要
第一,通用大模型能力雖快速增長(zhǎng),但要在高專業(yè)度的健康醫(yī)療領(lǐng)域“煉成”性能高且可靠的推理模型,仍極具挑戰(zhàn)。業(yè)界主流方向早期由DeepSeek R1驗(yàn)證有效。當(dāng)下,或蒸餾DeepSeek R1模型數(shù)據(jù),或在小數(shù)據(jù)集上探索較為常見(jiàn);然而,在選擇合適預(yù)訓(xùn)練模型的基礎(chǔ)上,從頭設(shè)計(jì)并搭建整套流程,并用于業(yè)務(wù)一線,較為罕見(jiàn)。尤其在健康醫(yī)療領(lǐng)域,自建整套流程化系統(tǒng),能夠明確模型從哪些數(shù)據(jù),以何種方式學(xué)到哪些知識(shí),哪個(gè)環(huán)節(jié)學(xué)得不好;不僅提高性能,而且能提高可解釋度和信任度。調(diào)研發(fā)現(xiàn),夸克健康大模型直接支持搜索業(yè)務(wù)一線,并支持智能體夸克健康助手、夸克深度研究產(chǎn)品(僅開(kāi)放試用)。
第二,高質(zhì)量的思考數(shù)據(jù)(Chain-of-Thought, CoT)適合作為推動(dòng)模型形成強(qiáng)化學(xué)習(xí)推理范式的基礎(chǔ)素材已是共識(shí)。強(qiáng)化學(xué)習(xí)通過(guò)“結(jié)果導(dǎo)向、過(guò)程探索”的范式,可在訓(xùn)練中激發(fā)模型,也是共識(shí)。推理模型效果上限受制于多個(gè)與數(shù)據(jù)強(qiáng)耦合的技術(shù)節(jié)點(diǎn)。調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)認(rèn)為:在已知目標(biāo)結(jié)果(如診斷結(jié)論)的情況下,由于模型已經(jīng)在真實(shí)醫(yī)生的思考數(shù)據(jù)中學(xué)習(xí)到初步推理能力(高質(zhì)量冷啟動(dòng)數(shù)據(jù)),再用強(qiáng)化學(xué)習(xí)方法有效激發(fā)模型探索出多樣的推理路徑,從而自主找到最適合模型的推理路徑,進(jìn)一步拔高模型推理能力上限,在多階段訓(xùn)練方法中特意設(shè)計(jì)出篩選優(yōu)質(zhì)數(shù)據(jù)的方法,進(jìn)而與人工難以覆蓋的部分共同努力提高數(shù)據(jù)質(zhì)量,可以極大緩解醫(yī)療數(shù)據(jù)人工標(biāo)注的成本。
調(diào)研發(fā)現(xiàn),在后訓(xùn)練階段,他們精心設(shè)計(jì)多種多階段訓(xùn)練方法(可以是模型能力任務(wù)的多階段,可以是病藥術(shù)檢任務(wù)分別開(kāi)展的多階段,可以是篩選數(shù)據(jù)的多階段,也可以是訓(xùn)練方法的多階段),與此同時(shí),配合大量實(shí)驗(yàn),拔高模型學(xué)習(xí)能力的空間??淇私】荡竽P蛨F(tuán)隊(duì)對(duì)思考數(shù)據(jù)的觀測(cè)、分析、篩選等操作使用多種類型的模型,如驗(yàn)證器判斷結(jié)果準(zhǔn)確性,過(guò)程獎(jiǎng)勵(lì)模型和結(jié)果獎(jiǎng)勵(lì)數(shù)據(jù)評(píng)估推理質(zhì)量,用多維度綜合手段以提升可控性、可信度和專業(yè)度。
第三,追求推理模型效果長(zhǎng)期提升的雄心,必須落實(shí)于有耐心建設(shè)提高數(shù)據(jù)與模型質(zhì)量的“基礎(chǔ)設(shè)施”。調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)的基礎(chǔ)設(shè)施包括:
第一項(xiàng),大規(guī)模(百萬(wàn)級(jí))醫(yī)學(xué)知識(shí)圖譜,以及帶有ICD編碼的《夸克醫(yī)學(xué)術(shù)語(yǔ)集(Quark Med OmnisCT)》。
第二項(xiàng),推理數(shù)據(jù)生產(chǎn)線(下文稱“數(shù)據(jù)產(chǎn)線”)。團(tuán)隊(duì)認(rèn)為,破解困局需自建定制化產(chǎn)線,即構(gòu)建一條滿足“適配”“效率”,而非單純“為了提高質(zhì)量而提高質(zhì)量”的產(chǎn)線。可將數(shù)據(jù)分為可驗(yàn)證數(shù)據(jù)與不可驗(yàn)證數(shù)據(jù)兩種不同類型,并設(shè)計(jì)兩條平行的數(shù)據(jù)產(chǎn)線。該產(chǎn)線既產(chǎn)出高質(zhì)量數(shù)據(jù),也“同步產(chǎn)出”模型。端到端強(qiáng)化學(xué)習(xí),既融入產(chǎn)線,也融入模型系統(tǒng)。
第三項(xiàng),強(qiáng)化學(xué)習(xí)推理多階段訓(xùn)練系統(tǒng),在此基礎(chǔ)之上,形成極致工程化。
調(diào)研發(fā)現(xiàn),若想提高醫(yī)療推理模型的最終效果,需重視模型訓(xùn)練,更需要在數(shù)據(jù)產(chǎn)線上投入更多精力。從醫(yī)療認(rèn)知的角度出發(fā),來(lái)構(gòu)造數(shù)據(jù)和任務(wù)目標(biāo),再根據(jù)數(shù)據(jù)類型和任務(wù)目標(biāo)設(shè)計(jì)合適的多階段訓(xùn)練方法。
(二)推理數(shù)據(jù)情況特色
臨床思維是醫(yī)生在面對(duì)患者時(shí),通過(guò)有目的的提問(wèn)、信息收集和邏輯推理,逐步形成診斷和決策的核心過(guò)程。若健康醫(yī)療大模型希望在臨床場(chǎng)景中發(fā)揮價(jià)值,就必須“內(nèi)化”推理框架。
在數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)上,健康醫(yī)療推理數(shù)據(jù)采用三元組形式,三個(gè)要素分別是:
第一,問(wèn)題(Question);
第二,思考過(guò)程(Chain of Thought, CoT);
第三,最終答案(Answer)。
“問(wèn)題,思考過(guò)程,最終答案”下文簡(jiǎn)稱“問(wèn)思答”,同時(shí)含有這三種元素的數(shù)據(jù)稱為“整組數(shù)據(jù)”。整組數(shù)據(jù)的價(jià)值在于,它不僅要求模型能夠得出正確答案,還要求其過(guò)程合乎醫(yī)學(xué)邏輯,可解釋,可信可復(fù)現(xiàn)。思考過(guò)程質(zhì)量越高,模型越能體現(xiàn)其推理能力,進(jìn)而支撐高水平的可解釋性?!皢?wèn)思答”整組數(shù)據(jù)的獲取成本遠(yuǎn)高于普通問(wèn)答數(shù)據(jù),是核心數(shù)據(jù)資產(chǎn),若進(jìn)一步引入時(shí)間序列等結(jié)構(gòu)復(fù)雜性維度,構(gòu)造難度將指數(shù)級(jí)上升。此外,醫(yī)療健康場(chǎng)景常存在“一題多解、路徑多樣”的特點(diǎn),提出了更高難度的解決方案的需求。
1.問(wèn)題(Question)
在健康醫(yī)療領(lǐng)域,高質(zhì)量提問(wèn)激發(fā)模型高質(zhì)量思考與回答。問(wèn)題(Question)通常伴隨對(duì)自身身體狀況的自述信息,具有較強(qiáng)的上下文描述性與情境還原度?;蛘哒f(shuō)問(wèn)題(Question)是含有健康醫(yī)療背景情況與提示詞的完整問(wèn)題,例如,常見(jiàn)問(wèn)題包括:“我打噴嚏、流鼻涕、嗓子疼,并接觸過(guò)流感病人,該吃哪種藥?”問(wèn)題不單單是一句話,而是含有健康醫(yī)療背景情況與指令的結(jié)構(gòu)化數(shù)據(jù)。此認(rèn)知會(huì)影響過(guò)程獎(jiǎng)勵(lì)模型的設(shè)計(jì)。
調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)從問(wèn)題(Question)開(kāi)始,建立完備的標(biāo)簽體系。標(biāo)簽體系是將健康醫(yī)學(xué)概念標(biāo)準(zhǔn)化、結(jié)構(gòu)化的工程手段。正確使用概念是思維的基礎(chǔ),這就要求定義要清晰,內(nèi)涵要確定,語(yǔ)境要明確。在醫(yī)療領(lǐng)域,對(duì)概念的使用關(guān)系到對(duì)疾病的認(rèn)識(shí),進(jìn)一步影響診斷與治療(姚樹(shù)坤《臨床思維》)。
夸克健康大模型標(biāo)簽體系指的是,對(duì)每個(gè)問(wèn)答樣本中所涉及的關(guān)鍵信息進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化的標(biāo)注過(guò)程。一個(gè)可以被模型獨(dú)立識(shí)別、帶有明確健康含義的最基本信息片段。
比如,醫(yī)學(xué)實(shí)體:疾病名稱(遠(yuǎn)極骨折),癥狀(移位、腫脹),治療(石膏固定),藥物(非甾體抗炎藥)等;
屬性信息:恢復(fù)周期(4周)等;
意圖類型:表示用戶希望達(dá)成的目標(biāo),健康咨詢、找藥、選擇治療方案等。
這一標(biāo)簽體系的構(gòu)建基礎(chǔ)來(lái)源于醫(yī)療問(wèn)答平臺(tái)的真實(shí)信息與夸克搜索引擎日志,通過(guò)自動(dòng)術(shù)語(yǔ)提取、屬性分類與意圖識(shí)別等技術(shù),將用戶問(wèn)題解析為標(biāo)準(zhǔn)化的結(jié)構(gòu)字段,最終形成標(biāo)簽框架。
調(diào)研發(fā)現(xiàn),夸克搜索歷時(shí)五年,沉淀近千萬(wàn)日活搜索日志、大規(guī)模(百萬(wàn)級(jí))醫(yī)學(xué)知識(shí)圖譜,以及帶有ICD編碼的《夸克醫(yī)學(xué)術(shù)語(yǔ)集(Quark Med OmnisCT)》,為標(biāo)簽體系與術(shù)語(yǔ)標(biāo)準(zhǔn)化提供基礎(chǔ)。自然語(yǔ)言中的醫(yī)學(xué)表達(dá)具有極強(qiáng)的多樣性與模糊性,比如“冠心病”“冠狀動(dòng)脈粥樣硬化心臟病”本質(zhì)是同一種疾病,但表達(dá)不同。使用標(biāo)準(zhǔn)術(shù)語(yǔ)集,可以將這些語(yǔ)言的不同表達(dá)統(tǒng)一映射到唯一編碼,確保模型的一致理解,減少誤判或信息丟失。同時(shí),該標(biāo)簽體系支持結(jié)構(gòu)化篩選。標(biāo)簽可作為“索引”或者“字段”,調(diào)用特定標(biāo)簽子集,提高質(zhì)量控制精度,比如,一級(jí)標(biāo)簽(用戶意圖),二級(jí)標(biāo)簽(藥物治療)。
另外,一方面標(biāo)簽需與醫(yī)學(xué)指南與術(shù)語(yǔ)體系保持同步,支持層次化擴(kuò)展,另一方面,如果標(biāo)簽體系數(shù)量?jī)H百余,面對(duì)罕見(jiàn)病、亞專業(yè)細(xì)分場(chǎng)景就會(huì)捉襟見(jiàn)肘。因此,標(biāo)簽體系是問(wèn)題(Question)多樣性的基礎(chǔ),也是龐大數(shù)據(jù)細(xì)顆粒度的管理工具,直接決定了醫(yī)療健康大模型在長(zhǎng)期演進(jìn)中的上限。
2.思考(CoT)
模型不僅看到病歷和答案,還要學(xué)習(xí)“醫(yī)生是如何思考并得出結(jié)論”的全過(guò)程,即“問(wèn)題-思考過(guò)程-答案”(問(wèn)思答)。而健康醫(yī)療知識(shí)天然有難易之分,思考(CoT)也應(yīng)區(qū)分難易。引入劃分難度的構(gòu)造方法,使模型在訓(xùn)練過(guò)程中逐步適應(yīng)和掌握越來(lái)越難的醫(yī)療問(wèn)題,達(dá)成從簡(jiǎn)單到高難度的能力躍遷。調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)在此理解之上,構(gòu)造“思考行動(dòng)體系(Action)”,深入刻畫(huà)和表達(dá)健康醫(yī)療特有的思維路徑。該體系的提出,部分解決了長(zhǎng)期以來(lái)困擾醫(yī)療大模型訓(xùn)練的關(guān)鍵問(wèn)題之一——如何衡量思維過(guò)程質(zhì)量。
僅靠給出最終答案無(wú)法判斷模型是否真正理解,將思考過(guò)程拆解為可觀測(cè)的“思考行動(dòng)(Action)”——典型思考行動(dòng)包括問(wèn)題重述、知識(shí)回憶、問(wèn)題反思、總結(jié)等——用于精確描述思考的每一步的具體行動(dòng),有助于了解思考鏈里的細(xì)節(jié)。另外,思考行動(dòng)提供一種共同語(yǔ)言,方便拔高推理質(zhì)量。比如,假設(shè)思考(CoT)難度越高,問(wèn)題(Question)難度也越大,以此原則篩選有難度的思考數(shù)據(jù),進(jìn)而篩選出與思考過(guò)程配套的問(wèn)題(Question)。
后續(xù)設(shè)計(jì)多種篩選機(jī)制,會(huì)在下文中介紹。
3.最終答案(Answer)
由答案類型入手,將數(shù)據(jù)分為可驗(yàn)證數(shù)據(jù)與不可驗(yàn)證數(shù)據(jù)兩種不同類型,它們?cè)讷@取、篩選等方面存在顯著差異,需分開(kāi)討論。
第一類,可驗(yàn)證類的答案,相對(duì)簡(jiǎn)潔,通常為醫(yī)學(xué)實(shí)體或明確判斷。對(duì)于可驗(yàn)證的答案(Answer),用驗(yàn)證器模型(Verifier)與標(biāo)準(zhǔn)答案(Groundtruth)進(jìn)行比對(duì)判斷。
第二類,對(duì)于不可驗(yàn)證任務(wù),如醫(yī)療建議、健康科普等長(zhǎng)文本,內(nèi)容面廣,語(yǔ)言多變,邏輯各不相同,標(biāo)準(zhǔn)答案(Groundtruth)難以唯一。僅憑獎(jiǎng)勵(lì)模型對(duì)單一維度打分,無(wú)法完全捕捉醫(yī)學(xué)語(yǔ)境下的細(xì)致與專業(yè);需要通過(guò)對(duì)正確性、完整性、合理性分別建立偏好獎(jiǎng)勵(lì)模型打分,并依據(jù)分?jǐn)?shù)篩選數(shù)據(jù)與反饋,或使用規(guī)則、驗(yàn)證器與獎(jiǎng)勵(lì)模型協(xié)同發(fā)揮作用。
另有,健康醫(yī)療無(wú)思考數(shù)據(jù),這類沒(méi)有思考過(guò)程的數(shù)據(jù),有兩種處理方法:
第一,以多科室全職專業(yè)醫(yī)生團(tuán)隊(duì)精細(xì)標(biāo)注的方式,構(gòu)造正確、權(quán)威、復(fù)雜健康醫(yī)療內(nèi)容問(wèn)答集等高質(zhì)量數(shù)據(jù),或團(tuán)隊(duì)全員標(biāo)注。人工標(biāo)注可在初期數(shù)據(jù)資產(chǎn)貧乏時(shí),快速補(bǔ)充“糧草”。
第二,用SOTA語(yǔ)言模型對(duì)問(wèn)題(Question)生成候選答案,這類數(shù)據(jù)有助于彌補(bǔ)多領(lǐng)域知識(shí),提升訓(xùn)練模型問(wèn)答水平(邏輯性、全面性),可低成本高效獲得。
截至目前,上文提到的所有數(shù)據(jù)種類,都可以用獎(jiǎng)勵(lì)模型來(lái)篩選高質(zhì)量數(shù)據(jù)。獎(jiǎng)勵(lì)模型既是強(qiáng)化學(xué)習(xí)的算法組件,又是篩選數(shù)據(jù)的工具。
綜上,調(diào)研組認(rèn)為:伴隨強(qiáng)化學(xué)習(xí)技術(shù)在模型推理能力上的助力,整個(gè)推理微調(diào)與強(qiáng)化學(xué)習(xí)系統(tǒng)的極致工程化會(huì)成為提高壁壘的新競(jìng)爭(zhēng)。
兩條平行數(shù)據(jù)產(chǎn)線逐步關(guān)鍵訓(xùn)練流程為:
推理數(shù)據(jù)產(chǎn)線一(可驗(yàn)證)
第一步,冷啟動(dòng)數(shù)據(jù);
第二步,冷啟動(dòng)模型微調(diào);
第三步,推理強(qiáng)化學(xué)習(xí);
第四步,可驗(yàn)證數(shù)據(jù)蒸餾;
第五步,高質(zhì)量可驗(yàn)證數(shù)據(jù)集。
推理數(shù)據(jù)產(chǎn)線二(不可驗(yàn)證)
第一步,不可驗(yàn)證數(shù)據(jù)蒸餾;
第二步,高質(zhì)量不可驗(yàn)證數(shù)據(jù)集。
(三)推理數(shù)據(jù)產(chǎn)線一:冷啟動(dòng)數(shù)據(jù)與模型微調(diào)
冷啟動(dòng)數(shù)據(jù)需要專業(yè)醫(yī)生精準(zhǔn)標(biāo)注,為后續(xù)強(qiáng)化學(xué)習(xí)階段提供穩(wěn)定起點(diǎn),避免從一開(kāi)始就帶來(lái)“混亂”。構(gòu)造冷啟動(dòng)數(shù)據(jù),使用SOTA語(yǔ)言模型生成高質(zhì)量問(wèn)和答及完整推理鏈(即思考過(guò)程),再由職業(yè)醫(yī)師逐字逐句逐條校驗(yàn),確保健康知識(shí)與權(quán)威一致;驗(yàn)證醫(yī)學(xué)事實(shí)、診療論證邏輯和建議的合理性,確保邏輯可靠、無(wú)風(fēng)險(xiǎn);同時(shí),數(shù)據(jù)團(tuán)隊(duì)確保輸出按一定的格式,格式便于符合后續(xù)獎(jiǎng)勵(lì)模型評(píng)估規(guī)范。
調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)對(duì)冷啟動(dòng)數(shù)據(jù)質(zhì)量給予極高重視。原因在于,冷啟動(dòng)階段的數(shù)據(jù),模型此前從沒(méi)“見(jiàn)過(guò)”。一旦引入邏輯錯(cuò)誤,后續(xù)會(huì)連續(xù)出錯(cuò),形成“早期污染”;同時(shí),強(qiáng)化學(xué)習(xí)會(huì)進(jìn)一步放大錯(cuò)誤,且用過(guò)程獎(jiǎng)勵(lì)模型識(shí)別和修正,成本高昂。不如圖難于易地處理。團(tuán)隊(duì)曾遭受教訓(xùn),后被醫(yī)學(xué)專家指出時(shí)才得以重視。
調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)采用未經(jīng)任何下游微調(diào)的預(yù)訓(xùn)練模型為起點(diǎn),完全避免使用已經(jīng)經(jīng)過(guò)某一類任務(wù)微調(diào)過(guò)的模型,會(huì)對(duì)醫(yī)療領(lǐng)域模型起步產(chǎn)生的干擾。他們認(rèn)為,當(dāng)預(yù)訓(xùn)練的模型接近于“空白”初始狀態(tài),模型數(shù)據(jù)分布的多樣性強(qiáng),信息熵大,后續(xù)提高空間大。
他們觀察到,此階段模型展現(xiàn)出一定的適應(yīng)性:
第一種,當(dāng)健康狀況信息不完整時(shí),模型會(huì)先羅列與現(xiàn)有癥狀相關(guān)的多種疾病,再主動(dòng)推演可能缺失的癥狀或風(fēng)險(xiǎn)因素,用以補(bǔ)齊證據(jù)鏈后再做判斷。
第二種,當(dāng)輸入包含高度特異的關(guān)鍵體征時(shí),模型首先鎖定具備顯著鑒別力的候選疾病種類,隨后用其余癥狀進(jìn)行核對(duì),快速完成推理。
這種現(xiàn)象的存在,說(shuō)明模型能根據(jù)“題干與題面”動(dòng)態(tài)運(yùn)用不同思考方式,而非呆板套用固定答題模板。即便在冷啟動(dòng)階段,模型已具備一定的初步推理行為能力(抓住焦點(diǎn),思考路徑確定),為后續(xù)工作提供了可觀測(cè)的依據(jù)。這種觀察屬于捕捉到“推理的早期覺(jué)醒機(jī)制”,增加對(duì)模型推理的理解。
(四)推理數(shù)據(jù)產(chǎn)線一:推理強(qiáng)化學(xué)習(xí)訓(xùn)練
調(diào)研發(fā)現(xiàn),推理數(shù)據(jù)產(chǎn)線中用強(qiáng)化學(xué)習(xí)方法訓(xùn)練,得到一個(gè)能力上限極高的推理模型是核心,后續(xù)需要對(duì)該模型進(jìn)行蒸餾,所以,拔高該模型性能是整個(gè)系統(tǒng)最考驗(yàn)?zāi)P蛣?chuàng)造力的階段,訓(xùn)練時(shí)間最長(zhǎng),資源投入最大。這條推理數(shù)據(jù)產(chǎn)線同時(shí)也被稱為“可驗(yàn)證數(shù)據(jù)產(chǎn)線”。
本階段訓(xùn)練樣本,可按此五類劃分:基礎(chǔ)知識(shí)、疾病診斷、手術(shù)、藥物藥品、檢驗(yàn)檢查。這五類數(shù)據(jù)均具有明確的醫(yī)療語(yǔ)義,可以按五類任務(wù)劃分驗(yàn)證器模型,或多任務(wù)組合建模,或所有任務(wù)統(tǒng)一模型,具備高度靈活性。對(duì)于可驗(yàn)證的答案,用驗(yàn)證器模型(Verifier)與標(biāo)準(zhǔn)答案(Groundtruth)進(jìn)行比對(duì)判斷,直接且穩(wěn)定。為策略模型提供清晰監(jiān)督信號(hào),指導(dǎo)其向更高準(zhǔn)確性的回答前進(jìn)。
另外,也可以在構(gòu)造高難度“問(wèn)題”的同時(shí)構(gòu)造高難度的“思考”。在已有醫(yī)生構(gòu)造的病例數(shù)據(jù)中,選取結(jié)構(gòu)完整、信息豐富的住院病例作為基礎(chǔ)材料;針對(duì)這些病例中已有的答案,去除部分“泄題”性描述,即那些直接透露最終關(guān)鍵結(jié)論的信息;保留對(duì)結(jié)論有關(guān)鍵參考價(jià)值,但不直接指向答案的癥狀、體征、檢查結(jié)果等內(nèi)容。高難度問(wèn)答數(shù)據(jù)特征之一是,需多步推理才能得出結(jié)論。
調(diào)研發(fā)現(xiàn),在該產(chǎn)線階段,以激發(fā)健康醫(yī)學(xué)知識(shí)運(yùn)用為目標(biāo),提升回答結(jié)果的多樣性與覆蓋度,增強(qiáng)其對(duì)問(wèn)題潛在解空間的探索能力。在強(qiáng)化學(xué)習(xí)階段,策略模型執(zhí)行幾十次輸出采樣(比如,每題生成50個(gè)候選回答),后期實(shí)驗(yàn)證明,這一采樣策略有效拓展了策略模型的行為空間,顯著提升了回答結(jié)果的多樣性與覆蓋度,增強(qiáng)了其對(duì)問(wèn)題(Question)潛在解空間的探索能力。每輪迭代中同步產(chǎn)出階段性最優(yōu)的策略模型與驗(yàn)證器。策略模型設(shè)計(jì)為統(tǒng)一模型,不依賴任務(wù)類型切換。
為了拔高學(xué)習(xí)潛力,策略模型于百萬(wàn)次探索,在輸出的數(shù)據(jù)中篩選有難度的數(shù)據(jù),一輪一輪提高篩選數(shù)據(jù)的難度。這種“篩選一次難題數(shù)據(jù),提高一次模型做難題的能力”的方式,源源不斷提供給模型足夠好、足夠難的數(shù)據(jù),用數(shù)據(jù)質(zhì)量的提升逼近模型能力的上限。后期實(shí)驗(yàn)證明,這一采樣策略有效拓展了策略模型的行為空間。
從推理數(shù)據(jù)產(chǎn)線一(可驗(yàn)證)中產(chǎn)出階段性最優(yōu)的策略模型,對(duì)其進(jìn)行數(shù)據(jù)蒸餾(問(wèn)題,思考過(guò)程,答案)。可以認(rèn)為,獲得該階段策略模型的目的是為了取得可驗(yàn)證的高質(zhì)量數(shù)據(jù)?,F(xiàn)有高質(zhì)量策略模型,再通過(guò)數(shù)據(jù)蒸餾,得到高質(zhì)量可驗(yàn)證數(shù)據(jù)集,進(jìn)而用數(shù)據(jù)來(lái)遷移其醫(yī)學(xué)推理能力。
(五)推理數(shù)據(jù)產(chǎn)線二:高質(zhì)量不可驗(yàn)證數(shù)據(jù)集
首先,高質(zhì)量不可驗(yàn)證數(shù)據(jù)集的原始思考數(shù)據(jù)是通過(guò)數(shù)據(jù)蒸餾而來(lái)。不可驗(yàn)證數(shù)據(jù)所用問(wèn)題(Question)來(lái)源于醫(yī)生檢查過(guò)的高質(zhì)量問(wèn)題、醫(yī)學(xué)論壇提問(wèn)、夸克搜索日志,引導(dǎo)模型生成具備思維過(guò)程的答案輸出,具體方式是對(duì)SOTA語(yǔ)言模型(OpenAI O3和DeepSeek R1)進(jìn)行數(shù)據(jù)蒸餾,顯式引入思維過(guò)程數(shù)據(jù)。同時(shí),此類數(shù)據(jù)的構(gòu)造需要保障數(shù)據(jù)在表達(dá)多樣性與推理復(fù)雜度上的均衡分布。
其次,用偏好獎(jiǎng)勵(lì)模型篩選不可驗(yàn)證類答案(Answer)。由于該類型數(shù)據(jù)通常為長(zhǎng)文本(語(yǔ)義復(fù)雜、表達(dá)多樣),標(biāo)準(zhǔn)答案不唯一。此外,人類打分容易受到個(gè)體差異、打分尺度不一影響,導(dǎo)致穩(wěn)定性和可復(fù)現(xiàn)性差,因此可以采用強(qiáng)化學(xué)習(xí)中的偏好學(xué)習(xí)的方法。不可驗(yàn)證問(wèn)題較為開(kāi)放,可包括全面性、無(wú)害性、相關(guān)性、邏輯性、正確性等多個(gè)方面。因此,需引入多個(gè)維度的偏好模型對(duì)答案進(jìn)行打分。其中每個(gè)獎(jiǎng)勵(lì)模型關(guān)注的角度不同(正確性、有用性),采用偏序建模方式輸出判斷信號(hào),篩選出質(zhì)量最優(yōu)的答案作為最終輸出或用于后續(xù)訓(xùn)練反饋信號(hào)。經(jīng)過(guò)上述多輪篩選,得到下一階段數(shù)據(jù)。最終形成“具挑戰(zhàn)性且質(zhì)量?jī)?yōu)秀”的思考過(guò)程數(shù)據(jù)樣本集。
另外,也有一些方法同時(shí)適用于可驗(yàn)證和不可驗(yàn)證數(shù)據(jù)。比如,通過(guò)篩選答案,間接篩選正確的整組“問(wèn)思答”數(shù)據(jù);以“最終答案”的正確性作為問(wèn)題(Question)篩選衡量標(biāo)準(zhǔn),對(duì)應(yīng)的思考數(shù)據(jù)僅在答案正確時(shí)予以保留,答案錯(cuò)誤則整組“問(wèn)思答”數(shù)據(jù)作廢;進(jìn)而形成“正確答案樣本集”。
綜上,為了篩選高質(zhì)量數(shù)據(jù)(可驗(yàn)證與不可驗(yàn)證),使用多種類型的組件:驗(yàn)證器、偏好獎(jiǎng)勵(lì)模型、過(guò)程獎(jiǎng)勵(lì)模型。健康醫(yī)療領(lǐng)域還有一個(gè)特色問(wèn)題——“多解、多路徑”問(wèn)題。調(diào)研發(fā)現(xiàn),夸克健康大模型團(tuán)隊(duì)對(duì)此高度重視,提出了一套針對(duì)性方法。
(六)高質(zhì)量推理數(shù)據(jù)質(zhì)量評(píng)估
健康醫(yī)療中“多解、多路徑”問(wèn)題,可概括為:同一不完備描述的癥狀,可能對(duì)應(yīng)多種疾病(比如,僅把發(fā)熱作為主線索,可涉及幾十種甚至上百種疾病,鑒別診斷時(shí),根據(jù)主線索圍繞3-5個(gè)疾病展開(kāi)為宜);診療方案有多種合理選擇,不同醫(yī)生可依據(jù)不同線索和特征得出多種不相同,但均具有合理性的結(jié)論。
模型生成不在預(yù)設(shè)正確答案集合中的內(nèi)容,這類輸出并不意味著錯(cuò)誤,反而可能是高質(zhì)量、有價(jià)值的補(bǔ)充信息,應(yīng)給予正向獎(jiǎng)勵(lì)。也就是說(shuō),對(duì)于那些雖未出現(xiàn)在標(biāo)準(zhǔn)答案中、但具有積極意義的結(jié)果,可以歸為“增益型”(nice-to-have)結(jié)果,亦應(yīng)識(shí)別其價(jià)值,并給予相應(yīng)評(píng)價(jià)分?jǐn)?shù),鼓勵(lì)模型輸出更全面、富有啟發(fā)的答案。
于是,在推理模型的訓(xùn)練過(guò)程中,需要既能夠判斷正確答案(驗(yàn)證器),又能處理模型有時(shí)生成的不在預(yù)設(shè)正確答案集合中的內(nèi)容(生成式模型)。這種多個(gè)解法、多種路徑帶來(lái)的開(kāi)放性和不確定性,使得訓(xùn)練數(shù)據(jù)中的答案不能被作為唯一評(píng)判依據(jù),這樣會(huì)產(chǎn)生錯(cuò)判或者無(wú)法捕捉到細(xì)節(jié)獎(jiǎng)勵(lì)信號(hào)。
健康醫(yī)療中的“多解、多路徑”問(wèn)題,尤其值得注意的是,即便已經(jīng)獲得一個(gè)答案,也存在殊途同歸的情況,答案的背后存在多個(gè)推理的思考路徑(CoT),且有好壞之分。在醫(yī)療的規(guī)范性、信任度、可解釋性的要求下,需要更好的路徑,更多維度的獎(jiǎng)勵(lì),鼓勵(lì)模型具有形成高質(zhì)量診療思考過(guò)程的能力。因此,需要從“推理過(guò)程合理性”與“結(jié)果質(zhì)量”兩個(gè)維度共同考量。
第一,如何設(shè)計(jì)針對(duì)最終答案(Answer)的結(jié)果獎(jiǎng)勵(lì)模型(ORM)?
調(diào)研發(fā)現(xiàn),由于強(qiáng)化學(xué)習(xí)過(guò)程中獎(jiǎng)勵(lì)模型的計(jì)算成本也是一個(gè)重要的開(kāi)銷(xiāo),不能完全依靠模型,需要設(shè)計(jì)不同類型的獎(jiǎng)勵(lì)組件(基于規(guī)則的驗(yàn)證器、參數(shù)規(guī)模大小不同的模型),甚至部分獎(jiǎng)勵(lì)信號(hào)可以完全基于規(guī)則,以此低成本地拓展模型能力邊界,而不需要人工標(biāo)注。
對(duì)于明確的唯一的答案(比如診斷結(jié)果是某種疾病)設(shè)計(jì)基于規(guī)則的驗(yàn)證器,用于評(píng)估策略模型輸出的答案質(zhì)量,相當(dāng)于規(guī)則打分器。該驗(yàn)證器需要使用預(yù)構(gòu)建的百萬(wàn)數(shù)量級(jí)ICD編碼醫(yī)療術(shù)語(yǔ)集,進(jìn)行結(jié)構(gòu)化比對(duì)與相似度評(píng)估。需要注意的是,術(shù)語(yǔ)集是為每一個(gè)醫(yī)學(xué)概念提供唯一編碼,并定義其語(yǔ)義內(nèi)涵、屬性特征以及與其他概念的結(jié)構(gòu)關(guān)系的重要工具。
具體而言,設(shè)計(jì)三類規(guī)則來(lái)評(píng)估策略模型輸出內(nèi)容與醫(yī)學(xué)知識(shí)體系的一致性:
1.路徑相似度:衡量策略模型輸出中的實(shí)體在知識(shí)圖譜中相對(duì)于目標(biāo)概念的路徑接近程度;
2.圖結(jié)構(gòu)相似度:基于醫(yī)學(xué)實(shí)體之間的距離關(guān)系,度量其在知識(shí)圖譜的圖結(jié)構(gòu)中的語(yǔ)義接近程度;
3.術(shù)語(yǔ)相似度:通過(guò)分析名稱及其屬性信息的匹配度,判斷兩個(gè)術(shù)語(yǔ)在語(yǔ)言層面的相似性。
三類相似度指標(biāo)按照加權(quán)方式進(jìn)行融合,并經(jīng)歸一化處理,輸出一個(gè)綜合得分,作為最終的驗(yàn)證評(píng)分。
驗(yàn)證流程如下:首先將策略模型輸出的醫(yī)學(xué)答案解析為若干具有語(yǔ)義意義的原子實(shí)體(如“上呼吸道感染”被拆分為“上呼吸道”(部位)與“感染”(形態(tài)學(xué)改變)。每個(gè)原子實(shí)體映射到ICD術(shù)語(yǔ)集中,獲得對(duì)應(yīng)編碼。隨后,計(jì)算這些原子實(shí)體與知識(shí)圖譜中標(biāo)準(zhǔn)概念之間的相似度,只要任意一個(gè)原子實(shí)體命中,即可獲得部分得分,進(jìn)一步提升評(píng)估的寬容性。最終得分作為獎(jiǎng)勵(lì)信號(hào)反饋至策略模型,引導(dǎo)其優(yōu)化生成策略。
實(shí)際情況中,病藥術(shù)檢的部分任務(wù)有明確答案標(biāo)簽,部分任務(wù)無(wú)明確答案標(biāo)簽,比如多解、多可能性解,還需要對(duì)答案的整體性進(jìn)行評(píng)價(jià)獎(jiǎng)勵(lì),這部分采用生成式獎(jiǎng)勵(lì)模型。
于是,設(shè)計(jì)獎(jiǎng)勵(lì)系統(tǒng)X Clinical Judge的時(shí)候,需要考慮將兩種情況都覆蓋,用SOTA模型輔助人工構(gòu)建打分示例數(shù)據(jù),用該數(shù)據(jù)教會(huì)驗(yàn)證器和獎(jiǎng)勵(lì)模型打分邏輯。
對(duì)于有答案標(biāo)簽的問(wèn)題,除使用SOTA語(yǔ)言模型的輸出作為評(píng)分參考外,還可利用標(biāo)簽訓(xùn)練結(jié)果驗(yàn)證器(Verifier),判斷策略模型輸出與標(biāo)準(zhǔn)答案的一致性。因?yàn)榇鸢笜?biāo)簽的獲取成本較高,所以,對(duì)于無(wú)答案標(biāo)簽類型的問(wèn)題,采用SOTA語(yǔ)言模型(比如,DeepSeek R1)生成評(píng)分與簡(jiǎn)短評(píng)價(jià),作為結(jié)果獎(jiǎng)勵(lì)模型訓(xùn)練所用的打分示例數(shù)據(jù)。兩類數(shù)據(jù)融合訓(xùn)練,獲得使用一套共享參數(shù)的生成式評(píng)分模型。獎(jiǎng)勵(lì)模型輸出包括兩個(gè)關(guān)鍵維度的評(píng)分結(jié)果——正確性分?jǐn)?shù)與全面性分?jǐn)?shù),并配有簡(jiǎn)潔明確的語(yǔ)言評(píng)價(jià),用于支持模型輸出質(zhì)量的可解釋性。策略模型據(jù)此調(diào)整生成策略。最終,結(jié)果獎(jiǎng)勵(lì)模型在醫(yī)療多解、多路徑的問(wèn)題里,做出可信、可解釋的評(píng)估。
第二,如何設(shè)計(jì)“思考過(guò)程”獎(jiǎng)勵(lì)模型(PRM)?
誠(chéng)然,模型不僅要“答(Answer)對(duì)題”,還非常需要“講清楚思路(CoT)”。然而,缺乏現(xiàn)成答案標(biāo)簽,無(wú)法直接監(jiān)督訓(xùn)練過(guò)程獎(jiǎng)勵(lì)模型。
調(diào)研發(fā)現(xiàn),團(tuán)隊(duì)采取了人工提煉思維模式設(shè)計(jì)提示詞的方式構(gòu)造訓(xùn)練數(shù)據(jù),從而訓(xùn)練“過(guò)程獎(jiǎng)勵(lì)模型”突破難點(diǎn)。
首先,醫(yī)學(xué)專家閱讀大量模型輸出樣本,根據(jù)臨床思維,提煉出若干類“思考方法”(比如排除法、反推法等),并且明確區(qū)別病藥術(shù)檢每種任務(wù)過(guò)程中關(guān)鍵的推理方式。把這些不同類型的思維模式總結(jié)為語(yǔ)言模板(Prompt),輸入給SOTA語(yǔ)言模型,得到對(duì)“思考過(guò)程”的打分?jǐn)?shù)據(jù)(含簡(jiǎn)短文字評(píng)價(jià)),用于訓(xùn)練過(guò)程獎(jiǎng)勵(lì)模型。再用過(guò)程獎(jiǎng)勵(lì)模型對(duì)思考數(shù)據(jù)合乎醫(yī)學(xué)邏輯、結(jié)構(gòu)清晰、信息完整的程度打分,并生成相關(guān)文字評(píng)論,本質(zhì)是讓該模型學(xué)會(huì)評(píng)估質(zhì)量。這些數(shù)據(jù)不會(huì)被用于直接微調(diào)策略模型產(chǎn)出最終答案的能力,以確保過(guò)程獎(jiǎng)勵(lì)模型評(píng)估的獨(dú)立性。
過(guò)程獎(jiǎng)勵(lì)模型和答案驗(yàn)證器訓(xùn)練完畢后,投入使用。
首先,在強(qiáng)化學(xué)習(xí)過(guò)程中,對(duì)同一個(gè)問(wèn)題(Question),策略模型每次給出多組“思考(CoT)+最終答案(Answer)”后,使用過(guò)程獎(jiǎng)勵(lì)模型和答案驗(yàn)證器會(huì)分別對(duì)“思考+答案”進(jìn)行兩個(gè)維度的(合理性與答案準(zhǔn)確性)打分,加權(quán)計(jì)算之后,得出一個(gè)綜合評(píng)分。
其次,這一方法也可以在數(shù)據(jù)篩選過(guò)程中,強(qiáng)調(diào)“思考過(guò)程應(yīng)支撐結(jié)果”的一致性原則。如果模型按照思維引導(dǎo),正確完成了思考過(guò)程,但最終生成的答案仍然錯(cuò)誤,則視為思維與結(jié)果邏輯斷裂,此類樣本將被剔除,或改寫(xiě)為符合一致性原則的樣本再進(jìn)行使用。
在不同類型的醫(yī)療任務(wù)中,“答案的決定性”與“思考過(guò)程的重要性”所占比重不同,所以“思考(CoT)”和“最終答案(Answer)”的評(píng)分在綜合打分中應(yīng)賦予不同權(quán)重。
最終,使用GRPO算法,利用多組采樣及其綜合獎(jiǎng)勵(lì),用于計(jì)算策略優(yōu)勢(shì)(Advantage),再經(jīng)由策略梯度優(yōu)化策略模型參數(shù),從而提升模型在復(fù)雜醫(yī)療任務(wù)中產(chǎn)出清晰推理鏈條的能力。在訓(xùn)練進(jìn)程中,策略模型會(huì)越來(lái)越傾向于輸出有條理、有依據(jù)、有醫(yī)學(xué)常識(shí)支撐的思考過(guò)程和診療建議,從而具備類似高水平醫(yī)生的推理能力,而不是“拍腦門(mén)”的猜答案。
另外,引入一致性驗(yàn)證器模型,對(duì)思考路徑與最終答案之間的一致性進(jìn)行二次校驗(yàn)。模型可能通過(guò)偶然或非健康醫(yī)療規(guī)范路徑得出正確結(jié)論,如果此類情況在訓(xùn)練中被錯(cuò)誤地賦予獎(jiǎng)勵(lì)信號(hào),長(zhǎng)期而言,這將嚴(yán)重?cái)_亂模型推理能力的形成。
第三,對(duì)抗“作弊”。
在訓(xùn)練過(guò)程中,策略模型會(huì)利用規(guī)則漏洞“作弊”(hacking),比如,生成結(jié)構(gòu)表達(dá)上合理優(yōu)雅,但本質(zhì)錯(cuò)誤或欺騙性的回答。一旦這類回答沒(méi)有被準(zhǔn)確識(shí)別,策略模型將持續(xù)朝錯(cuò)誤方向優(yōu)化,導(dǎo)致資源浪費(fèi),且模型能力無(wú)法得到實(shí)質(zhì)提升。對(duì)此,介入方式是人工標(biāo)注負(fù)面案例,補(bǔ)充樣本,迭代訓(xùn)練驗(yàn)證器。即發(fā)現(xiàn)不同作弊手段并有針對(duì)性迭代,隨著驗(yàn)證器的改進(jìn),模型作弊空間被逐步壓縮。
作弊現(xiàn)象包括,但不限于:
第一種,模型在簡(jiǎn)單任務(wù)上“快答”,即直接輸出結(jié)論,無(wú)推理過(guò)程,繼而在復(fù)雜任務(wù)上沿用同樣策略。
第二種,模型為獲取高分,重復(fù)高評(píng)分答案或在同一回復(fù)中多次強(qiáng)調(diào)同一結(jié)論,以最大化累計(jì)獎(jiǎng)勵(lì)。
第三種,模型輸出看似合理,但事實(shí)性錯(cuò)誤的答案,比如,并不存在的疾病。這類錯(cuò)誤往往不易被沒(méi)有醫(yī)學(xué)專業(yè)背景的普通用戶察覺(jué),但在專業(yè)醫(yī)生審閱下會(huì)立即暴露。在健康場(chǎng)景下,具有較高風(fēng)險(xiǎn)隱患。
調(diào)研發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程初期,不宜引入過(guò)多復(fù)雜評(píng)判,需提供結(jié)構(gòu)清晰、判斷標(biāo)準(zhǔn)單一的參照信號(hào),避免策略模型在尚未穩(wěn)定時(shí)被復(fù)雜標(biāo)準(zhǔn)干擾,走偏優(yōu)化方向。
(七)強(qiáng)化學(xué)習(xí)推理系統(tǒng):多階段訓(xùn)練
當(dāng)模型在此處微調(diào),會(huì)有一個(gè)較高的起點(diǎn),原因是微調(diào)采用的數(shù)據(jù)已經(jīng)過(guò)精妙設(shè)計(jì)(多個(gè)階段的多輪迭代與篩選)。同時(shí),在整個(gè)數(shù)據(jù)產(chǎn)線中,模型和數(shù)據(jù)并沒(méi)有壓縮與現(xiàn)實(shí)世界有關(guān)的多領(lǐng)域通用知識(shí),在這一階段增加此類通用數(shù)據(jù),使得模型處理問(wèn)題的能力更全面,更具備解決現(xiàn)實(shí)健康與醫(yī)療問(wèn)題和狀況的能力。
健康需求是一種低頻剛需,此類產(chǎn)品的用戶通常是有健康需求,或處于健康困擾中。模型回答不僅需確保準(zhǔn)確性與專業(yè)性,更應(yīng)體現(xiàn)出適度的情感關(guān)懷,避免因措辭不當(dāng)引發(fā)用戶焦慮。
因此,需要偏好獎(jiǎng)勵(lì)模型對(duì)齊風(fēng)格,方法是先訓(xùn)練獎(jiǎng)勵(lì)模型,選擇基于“成對(duì)比較樣本訓(xùn)練機(jī)制(Pairwise)”,學(xué)習(xí)相對(duì)偏好。模型在推理階段獨(dú)立地對(duì)單個(gè)回答給出打分(Pointwise),連續(xù)打分,而非分類結(jié)果。隨后,獎(jiǎng)勵(lì)模型輸出生成一個(gè)連續(xù)實(shí)數(shù)作為質(zhì)量評(píng)分,用于引導(dǎo)策略模型更新方向。
再次引入數(shù)據(jù)產(chǎn)線一階段的驗(yàn)證器,該驗(yàn)證器來(lái)源于前一階段數(shù)據(jù)產(chǎn)線中的強(qiáng)化學(xué)習(xí)階段,具備標(biāo)準(zhǔn)答案或判定規(guī)則。此處的再驗(yàn)證,用于防止策略模型經(jīng)過(guò)多階段的訓(xùn)練后產(chǎn)生遺忘,該步驟在健康醫(yī)療領(lǐng)域尤其重要。該訓(xùn)練階段采用混合訓(xùn)練的方式,偏好獎(jiǎng)勵(lì)模型(RLHF)和驗(yàn)證器補(bǔ)充檢驗(yàn)(RLVR),兩者共同保障了策略模型能力迭代增長(zhǎng)的同時(shí),對(duì)醫(yī)學(xué)任務(wù)規(guī)范性與推理邏輯的長(zhǎng)期保持與強(qiáng)化。
綜上,夸克健康大模型團(tuán)隊(duì),使用兩條平行數(shù)據(jù)產(chǎn)線產(chǎn)出的高質(zhì)量訓(xùn)練數(shù)據(jù),結(jié)合多階段訓(xùn)練方法,得到具備一定推理能力與可靠性的健康醫(yī)療推理模型。
(完)
附錄
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.