夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

浙大提出ContextGen,實(shí)現(xiàn)布局錨定多實(shí)例生成新SOTA

0
分享至



隨著擴(kuò)散模型(Diffusion Models)的迭代演進(jìn),圖像生成已經(jīng)日臻成熟。然而,在多實(shí)例圖像生成(Multi-Instance Image Generation, MIG)這一有著大量用戶場景的關(guān)鍵領(lǐng)域,現(xiàn)有的方法仍面臨核心瓶頸:如何同時(shí)實(shí)現(xiàn)對多個(gè)對象的空間布局控制(Layout Control)以及身份特征的良好保持(Identity Preservation)。

主流方法往往無法做到兩全其美:依賴文本和布局引導(dǎo)(Layout-to-Image)的模型往往難以實(shí)現(xiàn)高度的實(shí)例定制化,且實(shí)例遺漏、屬性泄露的問題時(shí)有發(fā)生;而主流的主體驅(qū)動(dòng)(Subject-driven)方法在主體數(shù)量增加時(shí),面臨著嚴(yán)重的身份混淆和細(xì)節(jié)丟失的問題。



ContextGen 與主流 SOTA 的對比示例,以及 ContextGen 的使用例

為解決這一制約高度定制化圖像生成的難題,浙江大學(xué) ReLER 團(tuán)隊(duì)發(fā)布 ContextGen,一個(gè)新型的基于Diffusion Transformer (DiT)的框架,旨在通過上下文學(xué)習(xí),可靠地完成圖像引導(dǎo)的多實(shí)例生成任務(wù)!



  • 論文地址:https://arxiv.org/abs/2510.11000
  • 項(xiàng)目地址:https://nenhang.github.io/ContextGen
  • 開源代碼:https://github.com/nenhang/ContextGen
  • 開源模型:https://huggingface.co/ruihangxu/ContextGen

ContextGen 提出了全新的上下文生成范式,通過整合布局圖像和多張參考圖像,將布局控制與身份保持的挑戰(zhàn)轉(zhuǎn)化為統(tǒng)一的上下文建模問題。

雙核驅(qū)動(dòng):實(shí)現(xiàn)布局與身份的雙重保真

ContextGen 的雙重核心機(jī)制,共同作用于統(tǒng)一的上下文 Token 序列上:



ContextGen 框架結(jié)構(gòu)概覽

上下文布局錨定(Contextual Layout Anchoring, CLA)

CLA 機(jī)制聚焦于全局上下文的引導(dǎo),接受用戶設(shè)計(jì)(或者模型自動(dòng)拼合)的布局圖像作為輸入,以提供精確的全局布局控制和初步的身份信息。它通過在 DiT 模塊的前置層和后置層部署自注意力機(jī)制,確保文本、待生成圖像和布局圖像三者進(jìn)行充分注意力交互,對整體圖像結(jié)構(gòu)進(jìn)行有效控制。

身份一致性注意力(Identity Consistency Attention, ICA)

ICA 機(jī)制聚焦細(xì)粒度的身份注入,利用原始高保真度的參考圖像,將身份信息注入到其對應(yīng)的目標(biāo)位置,從而保障多個(gè)實(shí)例的身份一致性。它被部署到 DiT 模塊的中間層,通過一個(gè)隔離式的注意力掩碼,將參考圖像的 Token 與對應(yīng)待去噪?yún)^(qū)域的 Token 建立連接,旨在緩解重疊或者壓縮導(dǎo)致的細(xì)節(jié)丟失問題,并在圖像序列增長時(shí)保證身份信息的穩(wěn)定注入。

這種的層次化的雙重注意力策略,有效地讓框架兼具了宏觀的布局控制和精細(xì)的實(shí)例級身份保持。此外,ContextGen 還采用了增強(qiáng)的位置索引策略,系統(tǒng)性地區(qū)分和組織統(tǒng)一 Token 序列中多圖像之間的關(guān)系。

數(shù)據(jù)基石:大規(guī)模詳細(xì)標(biāo)注的多實(shí)例數(shù)據(jù)集

針對當(dāng)前領(lǐng)域高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺的現(xiàn)狀,團(tuán)隊(duì)同時(shí)推出了IMIG-100K 數(shù)據(jù)集。這是首個(gè)為圖像引導(dǎo)的多實(shí)例生成任務(wù)設(shè)計(jì)的大規(guī)模、具備不同難度層級、提供詳細(xì)布局和身份標(biāo)注的合成數(shù)據(jù)集,其構(gòu)建流程代碼也已經(jīng)開源,支持用戶根據(jù)自身需求生成定制化數(shù)據(jù)集。



IMIG-100K 數(shù)據(jù)集概覽



IMIG-100K 的布局、身份標(biāo)注

性能優(yōu)化:DPO 強(qiáng)化學(xué)習(xí)解放創(chuàng)造力

團(tuán)隊(duì)在訓(xùn)練過程中發(fā)現(xiàn),僅僅使用監(jiān)督微調(diào)容易使得模型過度參考布局圖像,導(dǎo)致生成的圖像缺乏多樣性和靈活性。為此,在監(jiān)督微調(diào)之外,ContextGen 還引入了基于偏好優(yōu)化(DPO)的強(qiáng)化學(xué)習(xí)階段。該階段將布局圖像作為非偏好輸入,鼓勵(lì)模型不僵硬復(fù)制布局內(nèi)容,生成更具創(chuàng)意和多樣性的圖像。



DPO 微調(diào)過程示例

實(shí)驗(yàn)驗(yàn)證:對標(biāo)閉源模型,樹立性能標(biāo)桿

在廣泛的定量和定性評估中,ContextGen 展現(xiàn)出卓越的 SOTA 性能。

身份保持:比肩閉源巨頭

在LAMICBench++基準(zhǔn)測試中,ContextGen 不僅超越了所有開源模型(平均得分提升+1.3%),更在身份一致性上比肩了一些閉源的商業(yè)巨頭,在多實(shí)例的復(fù)雜場景中,ContextGen 在人物身份保持 (IDS) 和物體特征保持 (IPS) 上甚至可以和 GPT-4o 和 Nano Banana 一較高下。



LAMICBench++ 基準(zhǔn)的定量對比



LAMICBench++ 基準(zhǔn)的定性對比1



LAMICBench++ 基準(zhǔn)的定性對比2

布局與屬性控制:準(zhǔn)確率大幅提升

在COCO-MIG上,ContextGen 在實(shí)例級成功率 (I-SR) 上提升+3.3%,空間準(zhǔn)確性 (mIoU) 提升+5.9%。 在LayoutSAM-Eval中,ContextGen 在顏色、材質(zhì)等屬性的正確率上也超過了現(xiàn)有的模型。



COCO-MIG 和 LayoutSAM-Eval 基準(zhǔn)的定量比較



COCO-MIG 基準(zhǔn)的定性比較



LayoutSam-Eval 基準(zhǔn)的定性比較

這些結(jié)果充分證明了 ContextGen 在多實(shí)例圖像生成任務(wù)中的強(qiáng)大能力,成功實(shí)現(xiàn)了對布局和身份的雙重精確控制。

前端支持:便捷的用戶交互

為了方便用戶體驗(yàn),在項(xiàng)目中團(tuán)隊(duì)增加了一個(gè)簡單易用的前端界面,支持用戶上傳參考圖像、以文本的形式添加新素材、通過拖拽方便地設(shè)計(jì)布局,生成多實(shí)例圖像。



ContextGen 前端交互界面

展望與未來

ContextGen 通過帶有雙重注意力的上下文機(jī)制,為高度可控的多實(shí)例生成提供了一個(gè)強(qiáng)大且可行的 DiT 框架。ReLER 團(tuán)隊(duì)進(jìn)一步提出,如何更智能地理解用戶的文本意圖與多模態(tài)參考,仍然是一個(gè)值得深入探索的課題。未來,團(tuán)隊(duì)計(jì)劃進(jìn)一步優(yōu)化模型架構(gòu),提升生成效率,并探索更多樣化的用戶交互方式,以滿足更廣泛的應(yīng)用需求。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
乘客強(qiáng)行登車致設(shè)備損壞列車臨時(shí)停車,濟(jì)南地鐵發(fā)布安全倡議

乘客強(qiáng)行登車致設(shè)備損壞列車臨時(shí)停車,濟(jì)南地鐵發(fā)布安全倡議

新京報(bào)
2025-12-29 14:11:06
南京這把火,直燒到了北京一位“通天“人物的心坎上

南京這把火,直燒到了北京一位“通天“人物的心坎上

鶴羽說個(gè)事
2025-12-24 15:00:47
章子怡女兒10歲醒醒生日宴驚艷亮相,穿搭簡約大方顏值亮眼

章子怡女兒10歲醒醒生日宴驚艷亮相,穿搭簡約大方顏值亮眼

述家娛記
2025-12-28 19:26:47
柬埔寨的打法越來越像哈馬斯了

柬埔寨的打法越來越像哈馬斯了

歷史總在押韻
2025-12-27 12:26:25
徐湖平的膽子太大了!

徐湖平的膽子太大了!

仕道
2025-12-29 10:15:03
梅西是神!亞馬爾:C羅能有今天的成就在于他不跟任何人比較

梅西是神!亞馬爾:C羅能有今天的成就在于他不跟任何人比較

茜子足球
2025-12-29 12:02:45
北京的房價(jià),已經(jīng)變成一個(gè)天大的笑話,現(xiàn)在賣房子可笑到什么程度

北京的房價(jià),已經(jīng)變成一個(gè)天大的笑話,現(xiàn)在賣房子可笑到什么程度

靚仔情感
2025-12-29 09:35:09
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

蜉蝣說
2025-11-20 14:40:39
周冬雨整容失敗,五官被鋸平,辨識(shí)度為零,網(wǎng)友:認(rèn)不出來

周冬雨整容失敗,五官被鋸平,辨識(shí)度為零,網(wǎng)友:認(rèn)不出來

科學(xué)發(fā)掘
2025-12-29 02:53:07
一聞就能“睡得香”的8種水果!床頭隨便擺一個(gè),家人都說好用

一聞就能“睡得香”的8種水果!床頭隨便擺一個(gè),家人都說好用

神奇故事
2025-12-28 22:55:13
2名美國公民為烏克蘭作戰(zhàn)時(shí)于12月初陣亡,累計(jì)有92名美國人陣亡

2名美國公民為烏克蘭作戰(zhàn)時(shí)于12月初陣亡,累計(jì)有92名美國人陣亡

山河路口
2025-12-27 22:05:08
日本右翼終于閉嘴了!解放軍給美軍前所未有的待遇,把高市看懵了

日本右翼終于閉嘴了!解放軍給美軍前所未有的待遇,把高市看懵了

諦聽骨語本尊
2025-12-29 17:11:51
五角大樓內(nèi)部達(dá)成共識(shí):一旦解放軍動(dòng)手,美軍保臺(tái)的下場只有一個(gè)

五角大樓內(nèi)部達(dá)成共識(shí):一旦解放軍動(dòng)手,美軍保臺(tái)的下場只有一個(gè)

老黯談娛
2025-12-17 03:18:35
NBA教練工資排名榜單發(fā)布!泰倫盧年薪1億 是湖人教練雷迪克兩倍

NBA教練工資排名榜單發(fā)布!泰倫盧年薪1億 是湖人教練雷迪克兩倍

體壇八點(diǎn)半的那些事兒
2025-12-29 20:35:43
金門2026要變天!“女戰(zhàn)神”陳玉珍扛旗參選,硬剛民進(jìn)黨!

金門2026要變天!“女戰(zhàn)神”陳玉珍扛旗參選,硬剛民進(jìn)黨!

李博世財(cái)經(jīng)
2025-12-29 14:02:43
日本女優(yōu)天月杏宣布年內(nèi)引退:不想再出賣自己身體了

日本女優(yōu)天月杏宣布年內(nèi)引退:不想再出賣自己身體了

隨波蕩漾的漂流瓶
2025-12-28 16:18:22
臺(tái)海電纜事件大反轉(zhuǎn),大陸全球通緝兩名臺(tái)灣人,打了賴清德一耳光

臺(tái)海電纜事件大反轉(zhuǎn),大陸全球通緝兩名臺(tái)灣人,打了賴清德一耳光

非凡觀點(diǎn)
2025-12-29 09:48:34
周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

文史茶館2020
2025-12-28 11:15:51
徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡單,難怪舉報(bào)他4次都不成功

徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡單,難怪舉報(bào)他4次都不成功

葉公子
2025-12-27 19:19:28
山東男籃潰敗邱彪或下課,最佳新帥不是鞏曉彬,而是這位齊魯教頭

山東男籃潰敗邱彪或下課,最佳新帥不是鞏曉彬,而是這位齊魯教頭

姜大叔侃球
2025-12-29 16:34:27
2025-12-30 05:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12016文章數(shù) 142523關(guān)注度
往期回顧 全部

科技要聞

肉搏非洲,傳音不想只當(dāng)個(gè)賣手機(jī)的

頭條要聞

特朗普談烏克蘭試圖襲擊普京官邸:對此很生氣

頭條要聞

特朗普談烏克蘭試圖襲擊普京官?。簩Υ撕苌鷼?/h3>

體育要聞

“史上最貴”的世界杯,球迷成了韭菜

娛樂要聞

44歲林俊杰官宣戀情 帶23歲女友見家長

財(cái)經(jīng)要聞

翁杰明:宏觀數(shù)據(jù)與居民微觀感受存在差距

汽車要聞

“路”要越走越深,猛士的智能越野時(shí)代來了

態(tài)度原創(chuàng)

游戲
健康
旅游
手機(jī)
數(shù)碼

《侍道》?Acquire稱公司希望復(fù)活旗下老IP

這些新療法,讓化療不再那么痛苦

旅游要聞

“雙節(jié)”期間去哪兒玩?揭陽超千場文化活動(dòng)等你來!

手機(jī)要聞

小米17 Plus:6.9英寸直屏+驍龍8 Elite Gen5,暫定H1登場!

數(shù)碼要聞

閃極和中國航母聯(lián)名新品發(fā)布,149元起

無障礙瀏覽 進(jìn)入關(guān)懷版 午夜视频体内射.com.com| 国产二区三区不卡免费| 无码人妻aⅴ一区二区三区鲁大师| www.蜜桃av.com| 男人日女人的网站| 无码不卡免费看| 亚洲日韩国产精品综合在线观看| 久久麻豆精亚洲AV品国产吗合肥| 偷偷做久久久久网站| 色偷偷亚洲女人天堂观看| 欧美性爱插逼视| 777字幕网一区二区三区| 毛片无码高潮喷白浆视频| 亚洲啊v伊人| 国产中文综合无码视频| 久久国产免费观看精品3| 成人影视 亚洲无码| 精品卡通动漫亚洲AV第一页| 亚洲人成无码网站久久| 亂伦国产一区二区三区| 色婷婷精品大在线视频| 性爱一区二区三区| 少妇极品熟妇人妻无码| 国产情侣激情在线对白| 日人妻免费视频| 国产乱人伦精品背下来| 少妇人妻偷人偷人精品| 男人影院亚洲人| 成人做爰69片免费看网站野花| 亚洲国产精品一二三四区| 亚洲日本韩国欧美云霸高清| 亚洲熟女乱伦| 午夜DY888国产精品影院| 亚洲国产精品一区二区成人片 | 日韩一区二区福利| 精品综合久久久久久98| 欧美在线日韩| 国产A熟女一区=区三区| 操女人的逼国产| 国产福利社区一区二区| 人人操人人艹中文|