本文內(nèi)容整理自醫(yī)咖會(huì)《機(jī)器學(xué)習(xí)在醫(yī)學(xué)研究中的應(yīng)用案例實(shí)戰(zhàn)教學(xué)》專欄,小咖針對其中的機(jī)器學(xué)習(xí)建模流程相關(guān)內(nèi)容進(jìn)行了整理,可點(diǎn)擊左下角“閱讀原文”查看完整視頻。
選題和研究思路的確定
推薦以下五個(gè)維度來獲取選題靈感:臨床實(shí)踐、同行交流、文獻(xiàn)閱讀、理論支撐、基金指南(政策導(dǎo)向),也可以從研究設(shè)計(jì),也就是PI(E)COS的五個(gè)角度幫助尋找創(chuàng)新性的選題。
圖. PI(E)COS
研究設(shè)計(jì)和數(shù)據(jù)采集
當(dāng)前臨床預(yù)測模型的建模分為兩大類:
診斷模型:預(yù)測當(dāng)前患某病的風(fēng)險(xiǎn),往往用橫斷面研究和病例對照研究;
預(yù)后模型:預(yù)測未來一段時(shí)間內(nèi)發(fā)生特定預(yù)后事件的風(fēng)險(xiǎn),往往用隊(duì)列研究和回顧性、前瞻性研究。
數(shù)據(jù)采集有五種方法:
A.自行設(shè)計(jì)問卷,開展調(diào)查,收集數(shù)據(jù);
B.查閱病案,批量查找和導(dǎo)出數(shù)據(jù);
C. 其他信息系統(tǒng)測量的數(shù)據(jù),如ICU監(jiān)護(hù)儀,可穿戴設(shè)備等
D. 申請臨床公開數(shù)據(jù)庫、大型專病隊(duì)列,數(shù)據(jù)競賽網(wǎng)站公開數(shù)據(jù)集。
圖.各領(lǐng)域的國內(nèi)外數(shù)據(jù)庫
數(shù)據(jù)預(yù)處理
拿到數(shù)據(jù)后需要對數(shù)據(jù)進(jìn)行預(yù)處理,一般需要進(jìn)行變量轉(zhuǎn)換、缺失值處理和異常值檢測。推薦大家收集原始數(shù)據(jù)時(shí)盡量收集連續(xù)型數(shù)據(jù),可以靈活轉(zhuǎn)化為多分類和二分類變量。
模型訓(xùn)練和變量選擇
預(yù)處理之后,需要進(jìn)行變量篩選,比較常規(guī)的篩選方法有:單因素篩選、多因素逐步回歸、LASSO回歸、其他機(jī)器學(xué)習(xí)算法(如隨機(jī)森林的變量重要性排序)。
機(jī)器學(xué)習(xí)較傳統(tǒng)回歸的一個(gè)不同之處是需要做超參數(shù)的調(diào)優(yōu),如隨機(jī)森林有兩個(gè)超參數(shù), ntree(要建立多少樹模型進(jìn)行預(yù)測)和mtry(一個(gè)樹模型從變量值中隨機(jī)抽取幾個(gè)變量來建立決策樹),而調(diào)優(yōu)后需要使用調(diào)優(yōu)指標(biāo)評估,選取最優(yōu)的超參數(shù),比如分類模型可以使用AUC和分類準(zhǔn)確率。
圖.超參數(shù)的調(diào)優(yōu)
模型評價(jià)、驗(yàn)證和比較
模型評價(jià)、驗(yàn)證和比較指標(biāo)包括:
區(qū)分度:AUC和ROC曲線,也可以包括靈敏度、特異度、分類正確率等指標(biāo);
校準(zhǔn)度:Brier評分和校準(zhǔn)曲線;
臨床實(shí)用性:DCA曲線。
圖例.模型評價(jià)、驗(yàn)證和比較指標(biāo)
模型可視化報(bào)告
可以考慮多種方式進(jìn)行模型的呈現(xiàn):
A.OR/HR/B或森林圖
圖例.Logistic回歸模型的森林圖
B.評分表(根據(jù)OR/HR/β進(jìn)行打分,四舍五入取整數(shù),或者X5\X10翻倍)
C.列線圖(也是一種更直觀的評分表)
圖例.列線圖
D.網(wǎng)頁計(jì)算器(便于在線應(yīng)用)
圖例. 網(wǎng)頁計(jì)算器
E.決策樹等(也非常直觀)
圖例.決策樹
還有一些集成模型,比如隨機(jī)森林不可能將每一棵樹的決策過程都呈現(xiàn)出來,一般會(huì)對樹的結(jié)果進(jìn)行整合,根據(jù)變量重要性進(jìn)行排序(左圖)。對于黑箱模型這類無法解釋的模型,支持向量機(jī)比較抽象,可以采取一些新的可解釋的技術(shù),如SHAP、LIME等,右圖利用LIME進(jìn)行解釋,第一行為平均風(fēng)險(xiǎn),下面為變量特異性取值時(shí)的風(fēng)險(xiǎn)。
圖.隨機(jī)森林變量重要性排序(左)和LIME解釋黑箱模型(右)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.