LawDIS開創(chuàng)高精圖像分割新范式，雙控模式刷新SOTA

2025-08-21 19:20:40　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。A800/H20等算力6.25元/卡時，支持在線微調(diào)訓(xùn)練，及線部署和。

隨著高性能相機設(shè)備的普及，計算機視覺中的分割任務(wù)已從粗略位置定位發(fā)展為高精細節(jié)刻畫。在此背景下，圖像二值分割(DIS)任務(wù)，專注于在高分辨率圖像中進行前景目標(biāo)的高精度分割，因其多樣的應(yīng)用場景而受到了廣泛關(guān)注，例如: 三維重建，圖像編輯，AR制作，醫(yī)學(xué)影像分析，工業(yè)檢測等。

然而，現(xiàn)有方法在處理高分辨率圖像時面臨兩大難題：圖像中出現(xiàn)多個對象時，無法靈活控制分割的目標(biāo)；對細節(jié)不滿意時，無法對局部區(qū)域靈活優(yōu)化。

ICCV2025論文LawDIS，針對DIS任務(wù)提出一個基于語言-窗口的可控圖像二值分割框架，支持宏觀和微觀兩種用戶控制模式，宏觀模式支持用戶通過自然語言得到初步分割結(jié)果，微觀模式支持用戶在已有分割結(jié)果上無限次框選任意不滿意的區(qū)域進行細節(jié)優(yōu)化。想分哪里分哪里，哪里不對點哪里！在 DIS5K 基準(zhǔn)測試中，LawDIS全面超越 11 種前沿方法，刷新任務(wù)新 SOTA！LawDIS已上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗。

模型地址

https://www.wisemodel.cn/models/xinyu/LawDIS

01.

亮點直擊

框架革新：將高精主體目標(biāo)分割（DIS）任務(wù)重構(gòu)為潛在擴散模型下以圖像為條件的掩碼生成任務(wù)，在同一模型、同一套參數(shù)下實現(xiàn)兩種用戶控制模式的無縫集成；

雙控機制：利用模式切換器，實現(xiàn)宏觀到微觀兩種控制模式。宏觀模式下，用戶通過自然語言指令得到初步分割結(jié)果，微觀模式支持用戶在已有的分割結(jié)果上框選任意不滿意的區(qū)域，在可調(diào)節(jié)大小的局部窗口下無限次進行細節(jié)優(yōu)化，精準(zhǔn)捕捉復(fù)雜結(jié)構(gòu)邊緣；

靈活適配：兩種模式可獨立運行或協(xié)同工作：聯(lián)合使用兩種模式時滿足高精度個性化需求；單獨啟用微觀模式時，可作為通用后優(yōu)化工具提升任意其他分割模型的結(jié)果；

性能領(lǐng)先：在 DIS5K 基準(zhǔn)測試中，全面超越 11 種前沿方法，相比次優(yōu)模型 MVANet，僅使用宏觀模式時F值可提升3.6%，聯(lián)合使用兩種模式時F值可提升 4.6%。

02.

方法介紹

本文將 DIS 任務(wù)重新定義為一個基于穩(wěn)定擴散模型的條件去噪擴散過程，旨在建模分割掩碼的條件概率分布，其中條件為待分割的 RGB 圖像。為了使LawDIS能夠在兩種模式下執(zhí)行不同功能，在預(yù)訓(xùn)練的 Stable Diffusion 模型基礎(chǔ)上，我們引入模式切換器，將其擴展為宏觀模式與微觀模式。這兩種模式在訓(xùn)練過程中相互促進，在推理階段則可實現(xiàn)無縫切換。

聯(lián)合訓(xùn)練。首先對UNet進行訓(xùn)練，如上圖所示，宏觀模式以整張圖像及其對應(yīng)的分割圖為輸入，微觀模式則以圖像的局部區(qū)域和對應(yīng)的局部分割圖為輸入。兩組輸入分別被送入 VAE 編碼器，轉(zhuǎn)換至潛在空間。結(jié)合語言提示嵌入（用于宏觀模式）與空提示嵌入（用于微觀模式），這些潛在表示被輸入到 U-Net 中，分別輸出噪聲預(yù)測，進而用于針對分割潛變量的標(biāo)準(zhǔn)擴散目標(biāo)進行優(yōu)化。

在完成 U-Net 的訓(xùn)練后，LawDIS對原本為 RGB 圖像重建設(shè)計的 VAE 解碼器進行微調(diào)，以適應(yīng) DIS任務(wù)。值得注意的是，在微調(diào)過程中，為了生成分割結(jié)果，模型需執(zhí)行 T 步去噪操作，將隨機噪聲還原為干凈的潛在特征。

然而，常用的去噪調(diào)度器，如DDIM通常需要 50 步才能生成一張分割圖像，這在實際場景中是難以接受的。為此，本文引入軌跡一致性蒸餾（TCD）作為一種即插即用的去噪調(diào)度器，將采樣過程簡化為一步操作。該策略不僅能夠有效避免 VAE 解碼器微調(diào)過程中出現(xiàn)顯存溢出問題，還顯著提升了推理效率。

兩階段推理。上圖展示了推理流程的整體框架，主要包括兩個階段：第一階段為語言控制的初步分割，此時 LawDIS切換至宏觀模式，根據(jù)用戶提供的語言提示生成初始分割結(jié)果。第二階段為可選的細化過程，僅在用戶希望進一步調(diào)整分割結(jié)果時觸發(fā)。在該階段，模型切換至微觀模式，用戶可通過設(shè)定的可控窗口，對局部區(qū)域進行精細化調(diào)整。

該模式面臨的一個關(guān)鍵挑戰(zhàn)是：將從任意窗口裁剪的局部圖像塊輸入網(wǎng)絡(luò)時，由于缺乏全圖上下文信息，難以實現(xiàn)可靠的細節(jié)優(yōu)化。為了解決這一問題，我們提出以全局分割結(jié)果中的局部圖像塊作為擴散過程的起始點，而非隨機噪聲，從而在兩種模式之間間接傳遞上下文信息，提升微觀模式下的細節(jié)精度。該過程支持多次重復(fù)，直到獲得滿意的分割結(jié)果為止。

03.

SOTA結(jié)果

定量對比。如上表所示，在DIS5K數(shù)據(jù)集上，與11 個具有代表性的相關(guān)任務(wù)方法相比，LawDIS在僅使用宏觀模式得到的初始結(jié)果（Ours-S）即可全面超越主流方法，通過在微觀模式下對 Ours-S進行細化后的結(jié)果（Ours-R）則能進一步提高指標(biāo)。

定性對比。在宏觀層面，我們能夠更完整地分割目標(biāo)區(qū)域；而在微觀層面，我們的方法在處理復(fù)雜結(jié)構(gòu)和細節(jié)方面表現(xiàn)出更高的精度。

宏觀控制的有效性。如上圖所示，我們的模型展示了語言提示控制下靈活分割各種目標(biāo)對象的能力。

微觀控制的有效性。LawDIS提供了全自動窗口優(yōu)化（無需用戶干預(yù)）和半自動窗口優(yōu)化（用戶手動選擇優(yōu)化窗口）方案。如上表所示，兩種方式均能有效優(yōu)化初始分割結(jié)果，獲得更精細的掩碼。

值得注意的是，LawDIS的WR策略能夠作為已有分割方法的后優(yōu)化工具。如上表所示，我們將WR策略在多種已有的DIS方法預(yù)測的分割掩碼上進行細化，不同程度地提升了分割性能。

效率分析。我們在單塊 A100 GPU 上進行了效率分析，如上表第5行和第6行所示，LawDIS與次優(yōu)模型 MVANet進行比較時，在分割性能和推理速度上均表現(xiàn)出顯著優(yōu)勢。

04.

應(yīng)用展示

1、背景去除

2、3D建模

3、AR

4、靜態(tài)圖像動畫

05.

未來展望

LawDIS 的提出為高分辨率圖像分割領(lǐng)域注入了全新的思路與活力。其創(chuàng)新地將任務(wù)重構(gòu)為潛在擴散模型下以圖像為條件的掩碼生成任務(wù)，并引入模式切換器，實現(xiàn)語言和窗口的雙重控制，不僅在 DIS5K基準(zhǔn)上取得領(lǐng)先性能，更展現(xiàn)出強大的靈活性和泛用性。

隨著技術(shù)的不斷發(fā)展和優(yōu)化，LawDIS 有望拓展至更多復(fù)雜應(yīng)用場景，在提高分割精度的同時，進一步增強人機協(xié)同的靈活性與實用性。

未來，LawDIS 的研發(fā)團隊將持續(xù)推動模型在效率與語義精準(zhǔn)控制層面的優(yōu)化，進一步提升交互的響應(yīng)速度與智能性。

在實際應(yīng)用中，LawDIS 有望在醫(yī)療影像分析、智能標(biāo)注輔助、文化遺產(chǎn)修復(fù)、以及工業(yè)檢測等領(lǐng)域發(fā)揮作用。例如在醫(yī)療場景下，醫(yī)生可以通過自然語言指定疑似病變區(qū)域并精細修正，極大提升診斷效率；在影視特效制作場景中，LawDIS 支持藝術(shù)家通過語言快速選中復(fù)雜目標(biāo)并精修邊界細節(jié)，大幅提升摳像效率與精度。

LawDIS 不僅是一次技術(shù)上的突破，更為未來更智能、更交互的視覺系統(tǒng)鋪平了道路。

編輯：成蘊年

----- END -----

wisemodel相關(guān)：

系統(tǒng)升級：

系列活動：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高?？蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.