本文內(nèi)容整理自醫(yī)咖會(huì)《SPSS聚類分析及臨床研究應(yīng)用》專欄,小咖針對(duì)其中關(guān)于聚類分析的類型與計(jì)算原理相關(guān)內(nèi)容進(jìn)行了整理,可點(diǎn)擊左下角“閱讀原文”查看完整視頻。
聚類分析根據(jù)原理可以分為兩種類型,系統(tǒng)聚類/層次聚類和動(dòng)態(tài)樣本聚類,前者為Q型和R型聚類,后者為常說(shuō)的K-means聚類。
聚類分析根本上是對(duì)相似性/距離的度量,需計(jì)算樣本/變量之間的相似系數(shù)/距離。對(duì)于連續(xù)型變量的距離,計(jì)算公式如下,最常用的是歐氏距離,這個(gè)公式其實(shí)在中學(xué)時(shí)向量計(jì)算中就有所接觸。
連續(xù)型變量的相似度計(jì)算公式如下:
對(duì)于離散型變量的相似度,可以使用卡方和Phi方統(tǒng)計(jì)量。
聚類過(guò)程中可能會(huì)產(chǎn)生中間類別,逐級(jí)聚類至幾個(gè)大類。這些小類之間的相似度計(jì)算公式如下:
最短距離法即尋找兩個(gè)類別中距離最近的兩個(gè)變量,將這兩個(gè)變量之間的距離定義為兩個(gè)類別的距離;最長(zhǎng)距離法則相反。類間平均鎖鏈法考慮每個(gè)變量與另一類別中每個(gè)變量的距離,最后取平均距離;類內(nèi)平均鎖鏈法則考慮每個(gè)變量與自身所屬類別和另一個(gè)類別中的所有變量的距離。重心法在每個(gè)類別中尋找“重心”,將兩個(gè)重心之間距離定義為兩類別的距離。
以上計(jì)算公式均以Q型聚類為例,R型與其相似,只是前者計(jì)算樣本間的距離,一般使用距離公式,后者為變量之間的距離,一般使用相似系數(shù)。K-means聚類本質(zhì)上屬于基于距離的樣本聚類,但計(jì)算更為簡(jiǎn)便,聚類更為快速。Q型聚類案例如下,當(dāng)樣本量過(guò)大時(shí),樹(shù)形圖過(guò)于復(fù)雜不利于展示,通常使用K-means聚類。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.