近日,研究人員提出一種融合因果推理與圖神經(jīng)網(wǎng)絡(luò)的新型表示學習框架——CauSkelNet,能被用于建模人體關(guān)節(jié)之間的因果關(guān)系與信息流強度。
研究團隊首次將 Peter-Clark(PC)算法與 KL 散度(Kullback–Leibler divergence)結(jié)合,借此引入了“因果強度”的概念,為特征間的因果作用建立了可量化和可比較的機制,克服了傳統(tǒng)圖模型僅具相關(guān)性、缺乏方向性解釋的問題。
通過在 EmoPain 數(shù)據(jù)集上分析不同情境下的保護性行為與非保護性行為,研究團隊發(fā)現(xiàn)疼痛和情緒變化會顯著重塑關(guān)節(jié)之間的因果圖結(jié)構(gòu),表現(xiàn)為方向反轉(zhuǎn)與強度變化等規(guī)律性模式。這一發(fā)現(xiàn)不僅揭示了痛感行為背后的機制性聯(lián)系,也為行為識別和個性化健康干預提供了理論依據(jù)。研究表明,CauSkelNet 在運動識別任務(wù)中顯著優(yōu)于傳統(tǒng)圖卷積網(wǎng)絡(luò)(GCN,Graph Convolutional Network)模型,具備更強的可解釋性與泛化能力,開辟了“因果建模+結(jié)構(gòu)學習”在以人為中心的數(shù)據(jù)分析中的新方向。
(來源:https://arxiv.org/pdf/2409.15564)
未來幾年內(nèi),本次成果有望在多個領(lǐng)域得到應(yīng)用。
首先,在個性化康復和物理治療方面,基于因果圖的關(guān)節(jié)交互模型可以實時監(jiān)測患者的運動模式,識別疼痛觸發(fā)的“保護性行為”,并通過反饋來指導康復訓練方案的動態(tài)調(diào)整。
其次,在體育訓練與運動科學中,教練可以利用因果強度量化數(shù)據(jù),精準分析運動員的動作連鎖反應(yīng),定制專項技術(shù)改進計劃。
再次,在可穿戴設(shè)備與遠程健康監(jiān)測領(lǐng)域,智能手環(huán)、智能服裝等可以內(nèi)置簡化版因果模型,從而能夠動態(tài)評估日?;顒又械臐撛趥︼L險,并在異常時發(fā)出警報;在虛擬現(xiàn)實/增強現(xiàn)實交互中,該模型可被用于驅(qū)動更加真實的人體骨骼動畫,提升沉浸感;在人機協(xié)作和外骨骼機器人輔助中,其能預測人體意圖并調(diào)整助力策略,實現(xiàn)更安全、更高效的力量放大與動作矯正。
最后,在智能安防和情感計算場景下,通過捕捉細微的因果運動信號,其能更早地檢測跌倒、痛苦或壓力狀態(tài),為老年人看護與心理健康監(jiān)測提供技術(shù)支持。
隨著數(shù)據(jù)規(guī)模與計算能力的增長,CauSkelNet 框架還可擴展到多模態(tài)生理信號融合和實時在線更新,為未來智慧醫(yī)療、智能運動和人機融合交互奠定堅實基礎(chǔ)。
本次研究的初衷并非源自運動學或人體行為分析的具體應(yīng)用,而是源于對機器學習中特征層面因果關(guān)系建模的根本關(guān)切。隨著人工智能在醫(yī)學、情感計算、人機交互等領(lǐng)域的深入發(fā)展,越來越多的任務(wù)聚焦于處理以人為中心的數(shù)據(jù)。這類數(shù)據(jù)不僅結(jié)構(gòu)復雜、動態(tài)性強,還受到生理結(jié)構(gòu)與認知調(diào)控機制的深刻約束。
然而,傳統(tǒng)深度學習模型通常僅捕捉相關(guān)性,忽視了特征之間的潛在因果聯(lián)系,尤其缺乏一種機制去刻畫這些聯(lián)系在結(jié)構(gòu)性人類數(shù)據(jù)中的非對稱性與方向性。
研究團隊受到自然科學中“萬有引力”思想的啟發(fā):不同實體之間存在可量化的相互作用,這種作用不僅有強弱之分,也有明確的方向性。類似地,人類行為中的各類特征并非平等獨立,而是蘊含復雜的依賴路徑與信息傳遞結(jié)構(gòu)。
因此,研究團隊試圖構(gòu)建一種因果可解釋的表示學習框架,嘗試為深度模型提供一種“因果引力場”式的視角,使得模型不僅能學習“是否相關(guān)”,更能判斷“誰影響誰、影響有多強”。
具體而言,他們引入 KL 散度這一非對稱的信息度量方式,以便度量不同節(jié)點(或特征)之間的信息流強度,并結(jié)合圖神經(jīng)網(wǎng)絡(luò)構(gòu)建結(jié)構(gòu)化的因果圖表示,從而首次在圖結(jié)構(gòu)學習中建立了可解釋、可比較、可量化的因果強度機制。這一方法不僅提升了模型的解釋力,也為人類行為理解提供了機制層級的建模視角,填補了當前深度學習模型缺乏因果刻畫的關(guān)鍵空白。
起初,研究團隊在機器學習領(lǐng)域關(guān)注到:現(xiàn)有深度模型往往只停留在“相關(guān)性”層面,對于特征之間真正的“因果關(guān)聯(lián)”沒有明確的刻畫。隨著人工智能在醫(yī)療、情感計算和人機交互等領(lǐng)域的廣泛應(yīng)用,處理以人為中心的復雜數(shù)據(jù)變得日益重要。這類數(shù)據(jù)不僅存在高度結(jié)構(gòu)化的特點,還受到生理與認知規(guī)律的雙重制約。于是,研究團隊決定從“特征層面因果建模”的根本問題入手,探索能夠為深度模型引入因果解釋能力的通用框架,并最終將這一思路應(yīng)用到人體運動分析中,驗證其可行性與實用性。
在選定研究方向之后,研究團隊展開了兩方面的深入調(diào)研:一方面研讀因果推理領(lǐng)域的經(jīng)典文獻,重點了解 Peter-Clark(PC)算法、貝葉斯網(wǎng)絡(luò)以及信息論中 KL 散度在因果發(fā)現(xiàn)中的應(yīng)用;另一方面梳理現(xiàn)有運動識別與圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究進展,特別關(guān)注這些方法在模式識別與預測方面的優(yōu)勢與局限。通過對比分析研究團隊認識到:若能將 PC 算法與 KL 散度的非對稱信息度量引入到圖結(jié)構(gòu)學習中,就能在“相關(guān)性”之外挖掘特征間更深層次的“因果強度”,豐富模型的可解釋性和魯棒性。
在理論思路清晰之后,研究團隊開始具體設(shè)計方法框架。首先,基于 PC 算法對人體關(guān)節(jié)數(shù)據(jù)進行條件獨立性檢驗,構(gòu)建初步的無向骨架圖以捕獲關(guān)節(jié)間潛在的關(guān)聯(lián)結(jié)構(gòu);接著,利用 KL 散度衡量條件概率與邊際概率之間的信息差異,判定關(guān)節(jié)間“誰對誰”的因果方向及強度。最后,研究團隊將所得因果強度作為邊權(quán)引入到圖神經(jīng)網(wǎng)絡(luò)的消息傳遞機制中,實現(xiàn)對因果關(guān)系“可解釋量化”的學習,從而搭建了完整的 CauSkelNet 框架。
為了驗證框架的有效性,研究團隊選擇了公開可用的 EmoPain 數(shù)據(jù)集——它記錄了慢性疼痛患者與健康對照組在多種動作情境下的三維關(guān)節(jié)坐標,既能體現(xiàn)日常運動差異,又能捕捉疼痛誘發(fā)的保護性行為特征。在這一階段,研究團隊完成了數(shù)據(jù)清洗、缺失值插補、坐標歸一化等一系列預處理操作,為后續(xù)的 PC 算法與 KL 散度計算提供了質(zhì)量可靠的基礎(chǔ)數(shù)據(jù)。
預處理完成后,研究團隊通過編寫代碼實現(xiàn)了兩個核心模塊。第一個核心模塊是因果結(jié)構(gòu)發(fā)現(xiàn):即基于 PC 算法的條件獨立性檢驗流程,逐步去除不顯著的關(guān)節(jié)點連邊,生成初始無向骨架。第二個核心模塊是信息流量化:即針對每對骨架連邊的關(guān)節(jié),分別估計條件分布與邊際分布,計算 KL 散度以衡量信息增益,從而確定有向因果邊及其權(quán)重。
隨后,研究團隊在圖神經(jīng)網(wǎng)絡(luò)中融入上述因果權(quán)重,讓網(wǎng)絡(luò)在消息傳遞時同時關(guān)注結(jié)構(gòu)連接與信息流強度,并在多輪迭代中訓練模型,使其輸出既包括運動類別預測,也包含可解釋的因果表示。
完成模型訓練之后,研究團隊按照預設(shè)方案進行全面評估。首先,他們進行了基線對比:將 CauSkelNet 與傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)在“保護性行為”與“非保護性行為”兩類任務(wù)中進行對比,比較準確率、F1 分數(shù)與召回率等指標。其次,他們進行了因果圖可視化:對比了不同動作類型下的因果圖結(jié)構(gòu),觀察疼痛狀態(tài)下關(guān)節(jié)因果方向與強度的規(guī)律性變化。
實驗結(jié)果表明,CauSkelNet 在各項指標上均顯著優(yōu)于基準模型,同時可視化因果圖揭示了膝關(guān)節(jié)、髖關(guān)節(jié)等節(jié)點在疼痛誘發(fā)行為中的信息流模式,這一發(fā)現(xiàn)與生物力學與疼痛醫(yī)學中的“防御性收縮”理論相呼應(yīng),也印證了本次方法在可解釋性方面的價值。
在初步實驗結(jié)果出來后,研究團隊針對算法細節(jié)進行了多輪迭代優(yōu)化,例如在 KL 散度計算中加入統(tǒng)計校正、改進 PC 算法中的條件檢驗策略,以及在圖神經(jīng)網(wǎng)絡(luò)設(shè)計中增加正則化項以提升魯棒性。每次優(yōu)化后都重新評估模型性能,并不斷完善論文中方法與實驗細節(jié)的描述。
(來源:https://arxiv.org/pdf/2409.15564)
在研究因果圖的那段日子里,有一件事至今讓相關(guān)論文的第一作者谷星銳印象深刻。最初,他和其他團隊成員按照 PC 算法得到了關(guān)節(jié)之間的“骨架”連邊,但如何量化每一條邊的因果方向和強度,卻讓他頭疼不已。他試過用回歸分析、也嘗試過基于嵌入空間的相似度度量,可是總覺得無法體現(xiàn)出“非對稱”的信息流。換句話說,怎么證明關(guān)節(jié) A 對關(guān)節(jié) B 的“因果推動”要比 B 對 A 的影響更強,這個核心問題始終無法突破。
(來源:https://arxiv.org/pdf/2409.15564)
有一天深夜,谷星銳依然在實驗室的臺式機前來回翻閱論文。隔壁桌的同學已經(jīng)下班,只剩電腦的風扇聲在響。這時,谷星銳打開了 Indexing 數(shù)理信息論的一本相關(guān)圖書,書頁中突然跳出一段關(guān)于 Kullback–Leibler 散度描述:“它可以衡量兩個概率分布之間的‘非對稱差異’?!惫刃卿J戳著電腦屏幕想:“如果能拿這個去測量 P(B|A) 與 P(A|B) 之間的差距,或許就能量化誰向誰更多地傳遞了信息?”這個念頭一閃而過,心跳卻瞬間提速——因為幾乎可以想象的是,如果把每對連接的關(guān)節(jié)看作隨機變量,那么用 KL 散度去比較條件概率和邊際概率,正好可以反映“信息增益”的非對稱性。正是這一小插曲,成為了他完成本次研究的助力之一。
不過,現(xiàn)階段的研究只停留了驗證方法可行性上。在圖神經(jīng)網(wǎng)絡(luò)和表征學習中,利用 KL 散度去表示點到點之間的因果關(guān)系,將其中的線賦予更多的信息與潛在的關(guān)系,是一次新的嘗試,也給其他學者提供了一種挖掘數(shù)據(jù)間潛在的因果關(guān)系的方法。
整體來說,研究團隊僅用 EmoPain 數(shù)據(jù)簡單驗證了想法可行性。而在未來的計劃里面,其打算嘗試在更多的領(lǐng)域去驗證這個方法的價值。一方面,他們將嘗試在更多數(shù)據(jù)集和領(lǐng)域上運用這個方法??紤]到研究團隊的因果表征學習能挖掘圖數(shù)據(jù)的點與點之間的因果關(guān)系,他們也想將其運用到更多的領(lǐng)域,比如在用圖神經(jīng)網(wǎng)絡(luò)做區(qū)域出行預測等。另一方面,研究團隊想嘗試利用不同的算法去模擬因果關(guān)系,而 KL 散度只是一種嘗試,其還需要挖掘更多能用來評估因果關(guān)系的方法,從而挖掘出一個比較好的度量數(shù)據(jù)之間的因果關(guān)系。
據(jù)介紹,本次論文的第一作者谷星銳本科就讀于英國倫敦國王學院,后在英國倫敦大學學院讀碩。接著,谷星銳前往美國加州大學伯克利分校讀碩,目前即將完成學業(yè)。本次論文的第二作者其本科就讀于英國布里斯托大學,目前剛從美國哥倫比亞大學獲得碩士學位。
與此同時,谷星銳還創(chuàng)辦了一家公司,并研發(fā)了一款名為 HippaLove 的軟件,這是一款結(jié)合情緒人工智能(Affective Computing)與智能硬件的個性化健康科技產(chǎn)品,旨在提升親密關(guān)系中的互動體驗。該項目聚焦于通過實時生理信號(如心率、皮膚電反應(yīng)等)感知用戶狀態(tài),并利用強化學習模型實現(xiàn)設(shè)備的動態(tài)自適應(yīng)調(diào)整,從而提供更加自然與人性化的反饋機制。在產(chǎn)品研發(fā)初期,谷星銳構(gòu)建了多模態(tài)數(shù)據(jù)采集系統(tǒng)與情緒識別模型,并完成了初代原型的迭代測試。這一項目曾入圍 TechFounders 的早期項目評估,并與多所高校的行為科學與工程實驗室建立合作。盡管目前公司仍處于早期階段,但已初步驗證了市場潛力與技術(shù)可行性,因此該公司計劃在下一階段尋求種子輪融資以擴展研發(fā)與市場落地。
參考資料:
https://arxiv.org/abs/2409.15564
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.