始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。A800/H20等算力6.25元/卡時,支持在線微調(diào)訓(xùn)練,及線部署和。
隨著高性能相機設(shè)備的普及,計算機視覺中的分割任務(wù)已從粗略位置定位發(fā)展為高精細節(jié)刻畫。在此背景下,圖像二值分割(DIS)任務(wù),專注于在高分辨率圖像中進行前景目標(biāo)的高精度分割,因其多樣的應(yīng)用場景而受到了廣泛關(guān)注,例如: 三維重建,圖像編輯,AR制作,醫(yī)學(xué)影像分析,工業(yè)檢測等。
然而,現(xiàn)有方法在處理高分辨率圖像時面臨兩大難題:圖像中出現(xiàn)多個對象時,無法靈活控制分割的目標(biāo);對細節(jié)不滿意時,無法對局部區(qū)域靈活優(yōu)化。
ICCV2025論文LawDIS,針對DIS任務(wù)提出一個基于語言-窗口的可控圖像二值分割框架,支持宏觀和微觀兩種用戶控制模式,宏觀模式支持用戶通過自然語言得到初步分割結(jié)果,微觀模式支持用戶在已有分割結(jié)果上無限次框選任意不滿意的區(qū)域進行細節(jié)優(yōu)化。想分哪里分哪里,哪里不對點哪里! 在 DIS5K 基準(zhǔn)測試中,LawDIS全面超越 11 種前沿方法,刷新任務(wù)新 SOTA!LawDIS已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。
模型地址
https://www.wisemodel.cn/models/xinyu/LawDIS
01.
亮點直擊
框架革新:將高精主體目標(biāo)分割(DIS)任務(wù)重構(gòu)為潛在擴散模型下以圖像為條件的掩碼生成任務(wù),在同一模型、同一套參數(shù)下實現(xiàn)兩種用戶控制模式的無縫集成;
雙控機制:利用模式切換器,實現(xiàn)宏觀到微觀兩種控制模式。宏觀模式下,用戶通過自然語言指令得到初步分割結(jié)果,微觀模式支持用戶在已有的分割結(jié)果上框選任意不滿意的區(qū)域,在可調(diào)節(jié)大小的局部窗口下無限次進行細節(jié)優(yōu)化,精準(zhǔn)捕捉復(fù)雜結(jié)構(gòu)邊緣;
靈活適配:兩種模式可獨立運行或協(xié)同工作:聯(lián)合使用兩種模式時滿足高精度個性化需求;單獨啟用微觀模式時,可作為通用后優(yōu)化工具提升任意其他分割模型的結(jié)果;
性能領(lǐng)先:在 DIS5K 基準(zhǔn)測試中,全面超越 11 種前沿方法,相比次優(yōu)模型 MVANet,僅使用宏觀模式時F值可提升3.6%,聯(lián)合使用兩種模式時F值可提升 4.6%。
02.
方法介紹
本文將 DIS 任務(wù)重新定義為一個基于穩(wěn)定擴散模型的條件去噪擴散過程,旨在建模分割掩碼的條件概率分布,其中條件為待分割的 RGB 圖像。為了使LawDIS能夠在兩種模式下執(zhí)行不同功能,在預(yù)訓(xùn)練的 Stable Diffusion 模型基礎(chǔ)上,我們引入模式切換器,將其擴展為宏觀模式與微觀模式。這兩種模式在訓(xùn)練過程中相互促進,在推理階段則可實現(xiàn)無縫切換。
聯(lián)合訓(xùn)練。首先對UNet進行訓(xùn)練,如上圖所示,宏觀模式以整張圖像及其對應(yīng)的分割圖為輸入,微觀模式則以圖像的局部區(qū)域和對應(yīng)的局部分割圖為輸入。兩組輸入分別被送入 VAE 編碼器,轉(zhuǎn)換至潛在空間。結(jié)合語言提示嵌入(用于宏觀模式)與空提示嵌入(用于微觀模式),這些潛在表示被輸入到 U-Net 中,分別輸出噪聲預(yù)測,進而用于針對分割潛變量的標(biāo)準(zhǔn)擴散目標(biāo)進行優(yōu)化。
在完成 U-Net 的訓(xùn)練后,LawDIS對原本為 RGB 圖像重建設(shè)計的 VAE 解碼器進行微調(diào),以適應(yīng) DIS任務(wù)。值得注意的是,在微調(diào)過程中,為了生成分割結(jié)果,模型需執(zhí)行 T 步去噪操作,將隨機噪聲還原為干凈的潛在特征。
然而,常用的去噪調(diào)度器,如DDIM通常需要 50 步才能生成一張分割圖像,這在實際場景中是難以接受的。為此,本文引入軌跡一致性蒸餾(TCD)作為一種即插即用的去噪調(diào)度器,將采樣過程簡化為一步操作。該策略不僅能夠有效避免 VAE 解碼器微調(diào)過程中出現(xiàn)顯存溢出問題,還顯著提升了推理效率。
兩階段推理。上圖展示了推理流程的整體框架,主要包括兩個階段:第一階段為語言控制的初步分割,此時 LawDIS切換至宏觀模式,根據(jù)用戶提供的語言提示生成初始分割結(jié)果。第二階段為可選的細化過程,僅在用戶希望進一步調(diào)整分割結(jié)果時觸發(fā)。在該階段,模型切換至微觀模式,用戶可通過設(shè)定的可控窗口,對局部區(qū)域進行精細化調(diào)整。
該模式面臨的一個關(guān)鍵挑戰(zhàn)是:將從任意窗口裁剪的局部圖像塊輸入網(wǎng)絡(luò)時,由于缺乏全圖上下文信息,難以實現(xiàn)可靠的細節(jié)優(yōu)化。為了解決這一問題,我們提出以全局分割結(jié)果中的局部圖像塊作為擴散過程的起始點,而非隨機噪聲,從而在兩種模式之間間接傳遞上下文信息,提升微觀模式下的細節(jié)精度。該過程支持多次重復(fù),直到獲得滿意的分割結(jié)果為止。
03.
SOTA結(jié)果
定量對比。如上表所示,在DIS5K數(shù)據(jù)集上,與11 個具有代表性的相關(guān)任務(wù)方法相比,LawDIS在僅使用宏觀模式得到的初始結(jié)果(Ours-S)即可全面超越主流方法,通過在微觀模式下對 Ours-S進行細化后的結(jié)果(Ours-R)則能進一步提高指標(biāo)。
定性對比。在宏觀層面,我們能夠更完整地分割目標(biāo)區(qū)域;而在微觀層面,我們的方法在處理復(fù)雜結(jié)構(gòu)和細節(jié)方面表現(xiàn)出更高的精度。
宏觀控制的有效性。如上圖所示,我們的模型展示了語言提示控制下靈活分割各種目標(biāo)對象的能力。
微觀控制的有效性。LawDIS提供了全自動窗口優(yōu)化(無需用戶干預(yù))和半自動窗口優(yōu)化(用戶手動選擇優(yōu)化窗口)方案。如上表所示,兩種方式均能有效優(yōu)化初始分割結(jié)果,獲得更精細的掩碼。
值得注意的是,LawDIS的WR策略能夠作為已有分割方法的后優(yōu)化工具。如上表所示,我們將WR策略在多種已有的DIS方法預(yù)測的分割掩碼上進行細化,不同程度地提升了分割性能。
效率分析。我們在單塊 A100 GPU 上進行了效率分析,如上表第5行和第6行所示,LawDIS與次優(yōu)模型 MVANet進行比較時,在分割性能和推理速度上均表現(xiàn)出顯著優(yōu)勢。
04.
應(yīng)用展示
1、背景去除
2、3D建模
3、AR
4、靜態(tài)圖像動畫
05.
未來展望
LawDIS 的提出為高分辨率圖像分割領(lǐng)域注入了全新的思路與活力。其創(chuàng)新地將任務(wù)重構(gòu)為潛在擴散模型下以圖像為條件的掩碼生成任務(wù),并引入模式切換器,實現(xiàn)語言和窗口的雙重控制,不僅在 DIS5K基準(zhǔn)上取得領(lǐng)先性能,更展現(xiàn)出強大的靈活性和泛用性。
隨著技術(shù)的不斷發(fā)展和優(yōu)化,LawDIS 有望拓展至更多復(fù)雜應(yīng)用場景,在提高分割精度的同時,進一步增強人機協(xié)同的靈活性與實用性。
未來,LawDIS 的研發(fā)團隊將持續(xù)推動模型在效率與語義精準(zhǔn)控制層面的優(yōu)化,進一步提升交互的響應(yīng)速度與智能性。
在實際應(yīng)用中,LawDIS 有望在醫(yī)療影像分析、智能標(biāo)注輔助、文化遺產(chǎn)修復(fù)、以及工業(yè)檢測等領(lǐng)域發(fā)揮作用。例如在醫(yī)療場景下,醫(yī)生可以通過自然語言指定疑似病變區(qū)域并精細修正,極大提升診斷效率;在影視特效制作場景中,LawDIS 支持藝術(shù)家通過語言快速選中復(fù)雜目標(biāo)并精修邊界細節(jié),大幅提升摳像效率與精度。
LawDIS 不僅是一次技術(shù)上的突破,更為未來更智能、更交互的視覺系統(tǒng)鋪平了道路。
編輯:成蘊年
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
系列活動:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.