夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

對(duì)標(biāo)GPT-4o和香蕉!浙大開(kāi)源ContextGen:布局身份協(xié)同新SOTA

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】浙江大學(xué)ReLER團(tuán)隊(duì)開(kāi)源ContextGen框架,攻克多實(shí)例圖像生成中布局與身份協(xié)同控制難題?;贒iffusion Transformer架構(gòu),通過(guò)雙重注意力機(jī)制,實(shí)現(xiàn)布局精準(zhǔn)錨定與身份高保真隔離,在基準(zhǔn)測(cè)試中超越開(kāi)源SOTA模型,對(duì)標(biāo)GPT-4o等閉源系統(tǒng),為定制化AI圖像生成帶來(lái)新突破。

在定制化AI圖像生成領(lǐng)域,多實(shí)例圖像生成(MIG)面臨一個(gè)關(guān)鍵的協(xié)同控制挑戰(zhàn):精確布局控制多主體身份保真的同步實(shí)現(xiàn)。

現(xiàn)有方法往往只能達(dá)成二者之一,少數(shù)能兼顧的方法在性能上也存在顯著不足。

為解決這一布局與身份的協(xié)同控制瓶頸,浙江大學(xué)ReLER團(tuán)隊(duì)提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架構(gòu)內(nèi)部,通過(guò)雙重上下文注意力機(jī)制實(shí)現(xiàn)了架構(gòu)級(jí)的分層解耦控制。

ContextGen在基準(zhǔn)測(cè)試上,身份保持能力超越SOTA開(kāi)源模型,并成功對(duì)標(biāo)了GPT-4o和Nano-Banana等強(qiáng)大的閉源系統(tǒng),實(shí)現(xiàn)了在復(fù)雜定制化控制方面實(shí)現(xiàn)了關(guān)鍵突破。


論文地址:https://arxiv.org/abs/2510.11000

代碼地址:https://github.com/nenhang/ContextGen

行業(yè)痛點(diǎn)

多實(shí)例生成中的「協(xié)同控制挑戰(zhàn)」


當(dāng)前MIG模型在實(shí)際應(yīng)用中,主要表現(xiàn)出在布局精準(zhǔn)度與身份保真度協(xié)同控制上的挑戰(zhàn):

  1. 宏觀布局難以固化即使模型顯式提供了布局控制功能,生成的多個(gè)實(shí)例也難以精確地錨定到用戶指定的空間位置,屬性泄露和實(shí)例遺失現(xiàn)象頻發(fā),導(dǎo)致生成圖像的構(gòu)圖混亂且不符合預(yù)期。

  2. 身份細(xì)節(jié)極易丟失目前很多模型都支持多主體定制化,但主體數(shù)量增加時(shí),身份細(xì)節(jié)丟失的概率會(huì)顯著上升,生成結(jié)果往往無(wú)法忠實(shí)還原每個(gè)實(shí)例的獨(dú)特身份特征。

ContextGen的核心突破在于:它利用注意力機(jī)制控制的上下文學(xué)習(xí),實(shí)現(xiàn)了對(duì)這兩個(gè)問(wèn)題的協(xié)同解決,并在多個(gè)關(guān)鍵基準(zhǔn)上達(dá)到了新的SOTA水平。

核心機(jī)制

布局錨定與身份隔離


ContextGen框架基于DiT架構(gòu)構(gòu)建,將所有輸入整合成一個(gè)統(tǒng)一的Token序列T,創(chuàng)新在于在DiT模塊中嵌入了兩個(gè)功能不同的「注意力核」。

宏觀布局控制模塊

上下文布局錨定 (Contextual Layout Anchoring, CLA)機(jī)制是DiT網(wǎng)絡(luò)的「布局控制器」,負(fù)責(zé)全局結(jié)構(gòu)和構(gòu)圖:

機(jī)制:該模塊采用的注意力掩碼MCLA允許查詢Token q與所有文本、圖像和布局Token進(jìn)行廣泛通信。

效果:通過(guò)在DiT模塊的前置和后置層建立宏觀約束,確保生成的實(shí)例能夠魯棒且精確地遵循用戶指定的布局要求。這種圖像層面的宏觀布局引導(dǎo)更適配于現(xiàn)有的DiT上下文學(xué)習(xí)機(jī)制,簡(jiǎn)單而有效地提升了布局控制的準(zhǔn)確性。

微觀身份隔離模塊

身份一致性注意力 (Instance Consistency Attention, ICA)機(jī)制是解決多主體身份混淆與丟失的「身份隔離器」:

機(jī)制:采用隔離式的注意力掩碼MICA,強(qiáng)制限制位于實(shí)例n邊界框Bn內(nèi)的查詢Token q,只能關(guān)注其自身區(qū)域Bn、文本T以及對(duì)應(yīng)的參考圖像Rn

效果:這一設(shè)計(jì)在DiT模塊的中間層,切斷了不同實(shí)例身份Token之間的交叉通信,它為每個(gè)實(shí)例創(chuàng)造了一個(gè)「注意力孤島」,從機(jī)制上保障了多主體身份信息的高保真隔離注入,這一機(jī)制在應(yīng)對(duì)實(shí)例重疊、壓縮等復(fù)雜場(chǎng)景時(shí),能有效緩解身份信息丟失問(wèn)題,同時(shí)在上下文變長(zhǎng)時(shí),也能維持魯棒的身份保真度。

輔助優(yōu)化與數(shù)據(jù)基石


DPO強(qiáng)化學(xué)習(xí)引入直接偏好優(yōu)化 (DPO),解決了監(jiān)督微調(diào)可能導(dǎo)致的布局僵硬復(fù)制問(wèn)題,從而增強(qiáng)了生成圖像的多樣性和自然度。


IMIG-100K數(shù)據(jù)集團(tuán)隊(duì)同步發(fā)布了IMIG-100K,首個(gè)包含詳細(xì)布局與身份標(biāo)注的、含有不同難度層級(jí)的、大規(guī)模高質(zhì)量多實(shí)例合成數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果

開(kāi)源SOTA,對(duì)標(biāo)閉源巨頭

ContextGen的性能突破,體現(xiàn)在布局精度和身份保持兩個(gè)維度:

布局精度提升:在COCO-MIG基準(zhǔn)上,空間準(zhǔn)確性(mIoU) 實(shí)現(xiàn)了+5.9%提升,驗(yàn)證了ContextGen在精確構(gòu)圖上的領(lǐng)先性。


身份保持的突破:在LAMICBench++身份保持測(cè)試中,ContextGen的在較多主體下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等閉源模型。這一關(guān)鍵結(jié)果證明了ContextGen在復(fù)雜多主體場(chǎng)景中,對(duì)細(xì)節(jié)的保真還原能力。


定性結(jié)果清晰顯示,ContextGen也能還原細(xì)粒度的面部特征,也能靈活融合不同風(fēng)格的參考圖像,同時(shí)還能遵循用戶的布局設(shè)計(jì)要求。




前端支持

用戶友好界面

團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)簡(jiǎn)單的前端界面,用戶可以上傳自己的參考圖像,方便地設(shè)計(jì)布局,從而定制化生成多實(shí)例圖像。


結(jié)語(yǔ)

ContextGen框架通過(guò)在DiT架構(gòu)中引入CLA和ICA雙核注意力機(jī)制,創(chuàng)新性地實(shí)現(xiàn)了宏觀布局和微觀身份信息的架構(gòu)級(jí)分層解耦。

這一工作不僅為多實(shí)例生成提供了SOTA解決方案,成功突破了布局與身份的協(xié)同控制瓶頸,也為DiT等基礎(chǔ)擴(kuò)散模型在高度定制化AIGC任務(wù)中的應(yīng)用開(kāi)辟了新的技術(shù)路徑。

作者簡(jiǎn)介

本工作由浙江大學(xué)ReLER團(tuán)隊(duì)完成,其中第一作者是浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院本科生許瑞航,通訊作者為浙江大學(xué)求是講席教授楊易老師。ReLER團(tuán)隊(duì)長(zhǎng)期致力于人工智能領(lǐng)域的前沿研究,包括但不限于生成模型、多模態(tài)學(xué)習(xí)、AI+X等方向。

參考資料:

https://arxiv.org/abs/2510.11000

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黑白尋仇7:錢槍對(duì)峙局

黑白尋仇7:錢槍對(duì)峙局

金昔說(shuō)故事
2025-12-22 21:59:09
中國(guó)股市:但凡第二日漲停股票,都會(huì)提前釋放這種信號(hào),無(wú)一例外

中國(guó)股市:但凡第二日漲停股票,都會(huì)提前釋放這種信號(hào),無(wú)一例外

股經(jīng)縱橫談
2025-12-22 10:44:38
北京這一晚,55歲劉奕君秒了41歲向佐,才懂男人剛陽(yáng)硬朗的魅力

北京這一晚,55歲劉奕君秒了41歲向佐,才懂男人剛陽(yáng)硬朗的魅力

娛說(shuō)瑜悅
2025-12-20 18:38:52
1月1日起,向好友發(fā)淫穢信息違法

1月1日起,向好友發(fā)淫穢信息違法

大滕新事例
2025-12-22 23:17:07
女性絕經(jīng)后,還能進(jìn)行夫妻生活嗎?下面干巴巴的,究竟該怎么辦?

女性絕經(jīng)后,還能進(jìn)行夫妻生活嗎?下面干巴巴的,究竟該怎么辦?

醫(yī)者榮耀
2025-12-11 12:05:05
對(duì)手:我們?nèi)桥嗣肺鳎∶肺髂菆?chǎng)比賽1進(jìn)球5助攻!

對(duì)手:我們?nèi)桥嗣肺?!梅西那?chǎng)比賽1進(jìn)球5助攻!

氧氣是個(gè)地鐵
2025-12-22 19:01:09
跑2公里拿20萬(wàn)刀?貝克勒廣馬敷衍退賽,網(wǎng)友:這錢不如給張水華

跑2公里拿20萬(wàn)刀?貝克勒廣馬敷衍退賽,網(wǎng)友:這錢不如給張水華

楊華評(píng)論
2025-12-22 20:45:17
全國(guó)統(tǒng)一體制內(nèi)口頭禪,一出口就知道,網(wǎng)友:味太正了!

全國(guó)統(tǒng)一體制內(nèi)口頭禪,一出口就知道,網(wǎng)友:味太正了!

另子維愛(ài)讀史
2025-12-18 16:59:41
81場(chǎng)60球,伊卡爾迪成為加拉塔薩雷隊(duì)史在土超進(jìn)球最多的外援

81場(chǎng)60球,伊卡爾迪成為加拉塔薩雷隊(duì)史在土超進(jìn)球最多的外援

懂球帝
2025-12-22 09:53:39
王詩(shī)齡打卡哈爾濱冰雪大世界,穿迪奧束腰棉服,捧著冰塊好可愛(ài)

王詩(shī)齡打卡哈爾濱冰雪大世界,穿迪奧束腰棉服,捧著冰塊好可愛(ài)

小椰的奶奶
2025-12-22 00:55:49
誰(shuí)沒(méi)有瘋狂過(guò)呢,朱珠舊照海外瘋傳,國(guó)內(nèi)形象反差驚人,驚呆了!

誰(shuí)沒(méi)有瘋狂過(guò)呢,朱珠舊照海外瘋傳,國(guó)內(nèi)形象反差驚人,驚呆了!

情感大頭說(shuō)說(shuō)
2025-12-03 07:52:54
中國(guó)氣候最不宜居的城市是哪里?

中國(guó)氣候最不宜居的城市是哪里?

龍牙的一座山
2025-12-20 11:11:50
韓紅直呼“太離譜”,三甲醫(yī)生連番追問(wèn)!5月齡小洛熙手術(shù)后離世仍需更多真相……

韓紅直呼“太離譜”,三甲醫(yī)生連番追問(wèn)!5月齡小洛熙手術(shù)后離世仍需更多真相……

新民周刊
2025-12-21 14:48:33
安徽建工追討8.59億元工程款,狀告多地城投公司及住建局!

安徽建工追討8.59億元工程款,狀告多地城投公司及住建局!

原廣工業(yè)
2025-12-22 15:40:31
“一針瘦十斤”的減肥針,毀了多少年輕女孩

“一針瘦十斤”的減肥針,毀了多少年輕女孩

ins生活
2025-12-20 20:11:42
阿信演唱會(huì)摔下舞臺(tái),相信音樂(lè)發(fā)聲報(bào)平安:結(jié)束后有專業(yè)人員檢查

阿信演唱會(huì)摔下舞臺(tái),相信音樂(lè)發(fā)聲報(bào)平安:結(jié)束后有專業(yè)人員檢查

扒蝦侃娛
2025-12-22 22:35:17
方便面巨頭涼了!從年銷20億到無(wú)人買,因老板野心大,3年干倒閉

方便面巨頭涼了!從年銷20億到無(wú)人買,因老板野心大,3年干倒閉

以茶帶書(shū)
2025-12-05 17:10:50
南博前副院長(zhǎng)裝病乞憐,卻翻車了

南博前副院長(zhǎng)裝病乞憐,卻翻車了

郁郁乎文
2025-12-22 22:11:42
戰(zhàn)友聚會(huì)AA制每人交3500元,因兒子高燒39度會(huì)沒(méi)去成,次日民警上門

戰(zhàn)友聚會(huì)AA制每人交3500元,因兒子高燒39度會(huì)沒(méi)去成,次日民警上門

罪案洞察者
2025-12-16 14:42:51
過(guò)了50歲,這6個(gè)越勤快越容易生病的習(xí)慣,改掉為好

過(guò)了50歲,這6個(gè)越勤快越容易生病的習(xí)慣,改掉為好

看世界的人
2025-12-22 22:19:27
2025-12-22 23:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14161文章數(shù) 66395關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場(chǎng) 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

德鐵下單200輛中國(guó)巴士 德財(cái)長(zhǎng):這決定讓我十分惱火

頭條要聞

德鐵下單200輛中國(guó)巴士 德財(cái)長(zhǎng):這決定讓我十分惱火

體育要聞

戴琳,中國(guó)足球的反向代言人

娛樂(lè)要聞

張柏芝不再隱瞞,三胎生父早有答案?

財(cái)經(jīng)要聞

央行信用新政:為失信者提供"糾錯(cuò)"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開(kāi)啟盲訂

態(tài)度原創(chuàng)

家居
旅游
手機(jī)
健康
軍事航空

家居要聞

現(xiàn)代手法 詮釋東方文化

旅游要聞

“冷資源”催生“新業(yè)態(tài)”

手機(jī)要聞

OPPO Find X9 Ultra再曝,雙 2 億影像配置

這些新療法,讓化療不再那么痛苦

軍事要聞

俄軍中將在汽車炸彈爆炸中身亡 現(xiàn)場(chǎng)畫(huà)面披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国产一区二区三区精品久久无码 | 久操这里只有精品| 熟妇无码乱子成人精品| 加班被蹂躏的人妻在线| 91情侣在线精品国产| 成年人免费观看毛片| 成人亚洲欧美一区二区| 成人毛片无码一区二区| 爽爽影院免费观看| 好了av在线播放| 伊人网在线播放| 欧美一区二区三区大片| 亚洲中文无码线在线观看| 日韩国产综合精选| 亚洲无码偷拍一区二区三区| 国产特级毛片aaaaaa高潮流水 | MY22.com国产成人片| 成人影院永久免费观看网址| ,丰满少妇A级毛片| 免费黄片A级| 久久国内精品自在自线400部| 五月婷婷六月开心| 国产乱码一区二区三区爽爽爽| 国产精品日日做人人爱| 日日噜久久人妻一区二区| 亚洲av一二三区成人影片| 尤物亚洲国产亚综合在线区| 99久久久国产精品免费动| 精品国产一区91在线| 人妻aⅴ中文字幕| 国内精品久久久久久久久久清纯 | q2002午夜福利| 无码国产69精品久久久久APP| 久久国产精品娇妻素人| 呻吟求饶的办公室人妻| avtt天堂免费观看无需播放器| 日日夜夜操夜夜| 国产成+人+综合+亚洲 欧美| 国产精品亚洲综合久久_| 丰满的美女边做的呻吟想要在线| 熟女一区二区不卡|