新智元報道
編輯:LRST
【新智元導讀】GenSeg用AI生成高質量醫(yī)學圖像及對應分割標注,在僅有幾十張樣本時也能訓練出媲美傳統深度模型的分割系統,顯著降低醫(yī)生手工標注負擔。
醫(yī)學圖像語義分割是現代醫(yī)療中的關鍵環(huán)節(jié),廣泛應用于疾病診斷、治療規(guī)劃、手術輔助等任務中。從皮膚病變到眼底病灶、從腫瘤邊界到器官結構,精準的像素級分割結果對于臨床醫(yī)生具有極高價值。
隨著深度學習的發(fā)展,醫(yī)學圖像語義分割的準確性顯著提升,但一個普遍的核心難題依然存在——對大量高質量標注數據的依賴。
在醫(yī)療領域中,標注一個分割樣本意味著:專業(yè)人員需逐像素勾畫病灶區(qū)域;每張圖像的標注常耗時數十分鐘甚至更久;而且數據受限于隱私保護等合規(guī)限制。
這使得我們在許多真實臨床場景中,面臨超低數據的困境:數據少,難以訓練出性能可靠的模型;而沒有數據,則深度學習寸步難行。
盡管已有一些嘗試(如數據增強、半監(jiān)督學習),但它們仍存在關鍵局限:數據增強和分割模型訓練分離,生成的樣本無法很好的提升分割模型的性能;半監(jiān)督方法依賴海量未標注圖像,而這些在醫(yī)療領域仍存難以獲得。
針對上述問題,加州大學圣地亞哥分校的研究團隊提出了GenSeg,一種用于訓練語義分割模型的三階段框架,該框架中數據增強模型的優(yōu)化和語義分割模型的訓練緊密耦合,確保了數據增強模型生成的樣本可以有效的提升分割模型的性能。
論文地址:https://www.nature.com/articles/s41467-025-61754-6
代碼地址:https://github.com/importZL/GenSeg
GenSeg可以被應用到不同的分割模型,比如UNet和DeepLab來提升他們在in-domain(測試數據和訓練數據來自于同一數據集)和out-of-domain(測試數據和訓練數據來自于不同數據集)場景下的性能。
通過采用對應的數據生成模型和語義分割模型,GenSeg可以被應用到3D數據分割任務。
GenSeg三層優(yōu)化訓練框架
該論文近日被國際著名期刊Nature Communications正式接收。
第一作者為博士生Li Zhang,通訊作者為該校副教授Pengtao Xie,團隊其他成員還包括Basu Jindal,Ahmed Alaa,Robert Weinreb,David Wilson,Eran Segal,James Zou。
技術核心
GenSeg包含兩個主要組件:
1. 語義分割模型,負責預測輸入圖像的語義分割掩膜;
2. 掩膜到圖像的生成模型,用于預測輸入掩膜對應的圖像。
其中GenSeg對普通的生成模型進行了修改,使其的模型結構可以在訓練過程中進行優(yōu)化。
整個GenSeg框架由三個階段構成,采用端到端的訓練方式:
首先,我們使用真實的圖像-掩膜來訓練生成模型的參數,其模型結構在該階段是固定的;
接下來,對真實分割掩膜進行增強,生成新的掩膜,再通過使用上一階段訓練好的生成模型生成對應的醫(yī)學圖像,構成合成圖像-掩膜對,將其與真實樣本共同用于訓練分割模型;
最后,將訓練好的分割模型在真實驗證集上評估,并根據驗證損失反向更新生成模型的結構。
之后再次進入階段1,開啟新一輪的訓練-生成-優(yōu)化循環(huán),直至收斂,可以將上述過程整合成一個多層優(yōu)化框架:
其中,G表示數據生成模型中的生成器,H表示數據生成模型中的判別器,A表示生成器的模型結構參數,S表示語義分割模型,表示用于訓練生成器的數據,表示用于訓練分割模型的數據,表示用于更新生成器結構的驗證數據。
GenSeg通過一個以分割性能為直接優(yōu)化目標的多層級優(yōu)化過程,生成高保真度的圖像-掩膜對,確保合成數據不僅質量優(yōu)異,同時能有效提升下游模型的訓練效果。
不同于傳統的數據增強方法,GenSeg實現了與分割任務深度耦合的端到端數據生成;也區(qū)別于半監(jiān)督方法,GenSeg無需依賴任何額外未標注圖像。
作為一個通用、與模型無關的框架,GenSeg 可以無縫集成到現有的醫(yī)學圖像分割模型中,助力構建更高效、更低成本的訓練體系。
實驗結果
相比傳統方法,GenSeg 在顯著減少訓練樣本的同時,仍可達到相當甚至更優(yōu)的分割性能。
不同方法在訓練樣本數量(x軸)與分割性能(y軸)之間的關系。
越接近圖中左上角的方法,表示越具樣本效率(即用更少數據達成更高性能)。
在所有實驗中,GenSeg的表現始終接近左上角,遠優(yōu)于主流基線方法。子圖a和b分別表示在in-domain和out-of-domain場景下的實驗結果。
在in-domain實驗中,GenSeg顯示出顯著的樣本節(jié)省效果,比如在足部潰瘍分割實驗中,要達到Dice分數約0.6,UNet需600張圖像,GenSeg-UNet僅需50張,減少12倍的數據量;
在out-of-domain實驗中,在皮膚病變分割任務中,GenSeg-DeepLab僅使用40張ISIC圖像即可在DermIS測試集上達到Jaccard指數0.67,而標準DeepLab在使用200張圖像時仍未達到這一水平。
通過和分離式策略對比,GenSeg的端到端數據生成機制的合理性得以驗證。
在分離式策略中,圖像生成模型與分割模型是分開訓練的:首先訓練好生成器后固定,然后再用其生成的數據去訓練分割模型。
實驗結果表明,GenSeg的端到端聯合優(yōu)化機制顯著優(yōu)于分離式策略。
比如,在胎盤血管分割任務中,GenSeg-DeepLab實現了0.52的Dice分數,相比之下Separate-DeepLab僅為0.42
研究人員進一步探究了GenSeg的優(yōu)勢是否依賴于某一類特定的生成模型。
默認情況下,GenSeg使用的是基于GAN的Pix2Pix模型。
為此,實驗中額外測試了兩種替代生成模型:基于擴散模型的BBDM和基于變分自編碼器的Soft-intro VAE。對于每種生成模型,都分別測試了分離式訓練與端到端訓練兩種策略。
上圖中的實驗結果清晰地表明兩點:
1. 無論使用哪種生成模型,端到端訓練策略幾乎總是優(yōu)于分離式訓練策略;
2. 在所有組合中,端到端的擴散模型(BBDM)通常帶來最優(yōu)的分割性能,但通過實驗發(fā)現它也帶來了顯著更高的計算成本。
這說明端到端優(yōu)化機制是 GenSeg 成功的通用核心原則,不依賴特定模型;更強大的生成模型(如擴散模型)在性能上確有進一步提升空間,但需權衡計算效率與成本。
總結
GenSeg 通過創(chuàng)新的端到端生成式框架,成功突破了醫(yī)學圖像分割中極少標注數據難以支持模型訓練的關鍵瓶頸。
不同于傳統生成模型將數據生成與圖像分割訓練分開來的做法,該方法通過多層級優(yōu)化策略實現端到端的數據生成流程,將模型結構可優(yōu)化的條件式生成模型與圖像語義分割模型深度耦合,使分割性能直接反向指導數據生成過程,從而生成更有助于提升分割效果的樣本。
GenSeg在涵蓋多種疾病、器官與成像模態(tài)的11個醫(yī)學圖像分割任務和19個數據集上展現出強泛化能力。
在同域與跨域設定下均可帶來10–20%的絕對性能提升,且所需的訓練數據量僅為現有方法的1/8到1/20,大大提高了深度學習在數據匱乏醫(yī)學圖像場景下的可行性與成本效率。
參考資料:
https://www.nature.com/articles/s41467-025-61754-6
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.