本文內容整理自醫(yī)咖會《缺失值的處理和常見研究類型的統(tǒng)計分析》專欄,小咖針對缺失數(shù)據(jù)處理的核心方法進行了整理,可點擊左下角“閱讀原文”查看完整視頻。
缺失數(shù)據(jù)的處理方法主要分為三大類:基于完整觀測單位的方法、基于填補的方法、基于人工智能的方法。結合臨床實踐和臨床科研的多年經(jīng)驗,常用的6種處理方法為:直接刪除法、單一填補法、虛擬變量法、均值填補法、回歸填補法、多重填補法。前5種方法具體情況如下:
問
直接刪除法
直接刪除缺失數(shù)據(jù)。如RCT中忽略未完成治療的患者,進行符合研究方案分析(per protocol),這種PP分析容易導致高估療效。若缺失數(shù)據(jù)所占的比例特別低,對結果的影響可以忽略時,也可以直接刪除。直接刪除法簡單易行,好操作,但損失了部分信息,甚至可能得出錯誤結果,所以使用前必須評估可行性。
問
單一填補法
使用單一的原則進行填補。與PP分析相對應的是意向性(ITT)分析,將未完成治療的兩組設定為未發(fā)生陽性結局,即無療效。這種方法易縮小兩組的差距,低估試驗結果。
有些研究中會使用末次填補法,即使用前一次的數(shù)據(jù)填補后面的缺失數(shù)據(jù)。該方法更適合脫落或失訪后較為穩(wěn)定的情況,當隨訪指標隨時間變化較快時,則不適合使用該方法。此外,常用的單一填補法還有基線填補法、最差填補法、最優(yōu)填補法等。推薦在正文中根據(jù)研究對象或研究變量的發(fā)展趨勢選擇最適宜的方法,并在敏感性分析中選擇不同填補方法比較二者結果趨勢的一致性。
問
虛擬變量法
針對分類變量,可以將缺失值分為單獨的一類。如性別存在缺失數(shù)據(jù)時,可以在原有分類0、1的基礎上增加分類2。這種方法簡單、易理解,且保留了變量和樣本的信息,但自變量取值增加,可能對估計精度存在影響。
問
均值填補法
文獻中常見均值填補法處理連續(xù)變量,比如體重。如果變量分布不滿足正態(tài)分布,可以使用中位數(shù)填補。這種方法簡單、便于操作理解,且保留了變量和樣本的信息,但沒有考慮不同樣本間的差異,容易減少樣本間的變異。所以可以通過其他協(xié)變量進行一定的改進,比如缺失值為男性的體重,就可以選擇男性體重的均值。
問
回歸填補法
隨著統(tǒng)計學發(fā)展,更推薦使用回歸填補法對連續(xù)變量進行填補,比如身高和體重相關性較強,可以據(jù)此構建回歸方程,通過身高預測缺失的體重值。即在某一列變量存在缺失時,根據(jù)臨床經(jīng)驗建立從其他變量到該變量的回歸方程,根據(jù)其他變量計算缺失變量的預測值。該方法同樣比較簡單,且計算出來的數(shù)值接近真實值,優(yōu)于均值填補,但仍舊可能低估標準誤。
上文內容摘自醫(yī)咖會專欄課程《缺失值的處理和常見研究類型的統(tǒng)計分析》,請點擊左下方的“閱讀原文”,觀看完整視頻內容。
研究設計、統(tǒng)計分析、論文投稿難題,快聯(lián)系小咖(微信:xys2019ykh)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.