夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Snapchat提出Canvas-to-Image:一張畫(huà)布集成 ID、姿態(tài)與布局

0
分享至



Canvas-to-Image 是一個(gè)面向組合式圖像創(chuàng)作的全新框架。它取消了傳統(tǒng)「分散控制」的流程,將身份參考圖、空間布局、姿態(tài)線稿等不同類(lèi)型的控制信息全部整合在同一個(gè)畫(huà)布中。用戶(hù)在畫(huà)布上放置或繪制的內(nèi)容,會(huì)被模型直接解釋為生成指令,簡(jiǎn)化了圖像生成過(guò)程中的控制流程。



  • 作者:Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
  • 通訊作者:Guocheng Gordon Qian
  • 機(jī)構(gòu):1Snap Inc. 2UC Merced 3Virginia Tech
  • 論文標(biāo)題:Canvas-to-Image: Compositional Image Generation with Multimodal Controls
  • 項(xiàng)目主頁(yè):https://snap-research.github.io/canvas-to-image/
  • arXiv:arxiv.org/abs/2511.21691



為什么要把控制方式合并到一張畫(huà)布上?

在以往的生成流程中,身份參考、姿態(tài)線稿、布局框等控制方式往往被設(shè)計(jì)成互不相干的獨(dú)立輸入路徑

例如:

  • 身份控制需要貼一張獨(dú)立的參考圖;
  • 姿態(tài)控制依賴(lài)單獨(dú)的骨架圖;
  • 空間布局要再通過(guò)另一個(gè)模塊或附加輸入傳給模型。

這些控制信號(hào)分別從不同通道進(jìn)入模型,各自擁有獨(dú)立的編碼方式與預(yù)處理邏輯。結(jié)果就是:用戶(hù)無(wú)法在畫(huà)面的同一位置疊加多種控制信息,也無(wú)法用「一個(gè)局部區(qū)域里的組合提示」來(lái)告訴模型該怎么生成。

換句話(huà)說(shuō),傳統(tǒng)方法的輸入結(jié)構(gòu)是多入口、分散式的,缺乏統(tǒng)一的表達(dá)空間。這使得復(fù)雜場(chǎng)景的構(gòu)建流程變得冗長(zhǎng)且割裂,用戶(hù)只能一次提供一種控制,無(wú)法在同一個(gè)圖像區(qū)域上同時(shí)表達(dá)身份 + 姿態(tài) + 位置等組合指令。

Canvas-to-Image 正是針對(duì)這一結(jié)構(gòu)性限制提出新的方案:所有控制信號(hào)都匯聚到同一張畫(huà)布中,由模型在同一個(gè)像素空間內(nèi)理解、組合并執(zhí)行。

核心方法論



(a) 多任務(wù)畫(huà)布(Multi-Task Canvas)

Canvas-to-Image 設(shè)計(jì)的關(guān)鍵在于——畫(huà)布本身既是 UI,也是模型的輸入。畫(huà)布中可以出現(xiàn):

  • 一小塊真實(shí)人物的圖像,用于指定人物;
  • 一組簡(jiǎn)單的骨架線條,用來(lái)調(diào)節(jié)肢體姿勢(shì);
  • 框選區(qū)域,用來(lái)定義人物或物體應(yīng)處的位置。

這些異構(gòu)視覺(jué)符號(hào)中包含的空間關(guān)系、語(yǔ)義信息,都由 VLM-Diffusion(基于 Qwen-Image-Edit)直接解析。

在訓(xùn)練過(guò)程中,Canvas-to-Image 的多任務(wù)畫(huà)布從跨幀圖像集(cross-frame image sets)中自動(dòng)生成。具體流程如下:

  • 隨機(jī)選取一幀作為目標(biāo)圖像。
  • 從其他幀中抽取目標(biāo)幀所需要不同的視覺(jué)元素(人物片段,背景,姿態(tài)結(jié)構(gòu),框選區(qū)域等)。
  • 將抽取的視覺(jué)元素,按照目標(biāo)幀中的相應(yīng)位置,擺放在輸入畫(huà)布中。

這樣的跨幀采樣策略會(huì)在輸入畫(huà)布中自然引入姿態(tài)、光照、表情等方面的顯著差異,使得輸入提示與目標(biāo)圖像之間不存在可直接復(fù)用的像素對(duì)應(yīng)關(guān)系。由此,模型無(wú)法依賴(lài)簡(jiǎn)單的拷貝機(jī)制來(lái)完成訓(xùn)練任務(wù),而必須學(xué)習(xí)更抽象的語(yǔ)義關(guān)聯(lián)與結(jié)構(gòu)映射。這一設(shè)計(jì)在訓(xùn)練階段有效規(guī)避了「抄輸入」的捷徑,從根本上避免了模型在推理階段出現(xiàn) copy-paste 式的生成行為。

為了保持訓(xùn)練的簡(jiǎn)潔性,在每一次訓(xùn)練中,模型只會(huì)接收到一種隨機(jī)選定的控制模態(tài)(例如空間布局、姿態(tài)骨架或邊界框)。這樣可以讓模型分別學(xué)會(huì)獨(dú)立理解不同類(lèi)型的控制提示,并在推理階段自然實(shí)現(xiàn)多控制的組合能力。

(b) 多控制推理

在推理階段,Canvas-to-Image 允許用戶(hù)在同一張畫(huà)布上靈活組合多種控制模態(tài),例如同時(shí)提供身份參考區(qū)域、姿態(tài)骨架以及空間布局框,從而實(shí)現(xiàn)復(fù)雜的多控制場(chǎng)景生成。與傳統(tǒng)「單一路徑控制」的方案不同,用戶(hù)無(wú)需在不同模塊之間切換或分階段注入條件,而是通過(guò)統(tǒng)一畫(huà)布一次性給出所有約束信號(hào)。

從學(xué)習(xí)機(jī)制上看,模型在訓(xùn)練過(guò)程中僅接觸到單一控制模態(tài)的樣本:每個(gè)訓(xùn)練樣本只隨機(jī)激活其中一種控制形式(身份、姿態(tài)或位置),使模型分別掌握對(duì)單獨(dú)控制信號(hào)的理解與對(duì)齊能力。值得注意的是,即便在數(shù)據(jù)中并不存在顯式標(biāo)注的「多模態(tài)組合控制」樣本,模型在推理階段仍然能夠在統(tǒng)一畫(huà)布中同時(shí)解析并整合多種控制信號(hào):它會(huì)在身份參考的約束下保持人物外觀一致性,在姿態(tài)骨架約束下生成結(jié)構(gòu)合理的姿態(tài),并在布局框條件下遵循全局空間排布。

這一現(xiàn)象表明,模型在統(tǒng)一畫(huà)布表示的框架下,學(xué)到的并不是對(duì)某一種控制模態(tài)的簡(jiǎn)單記憶,而是對(duì)「畫(huà)布上局部區(qū)域與目標(biāo)圖像結(jié)構(gòu)之間關(guān)系」的更高層次建模能力。換言之,模型在僅依賴(lài)單模態(tài)訓(xùn)練的前提下,仍然展現(xiàn)出對(duì)未見(jiàn)過(guò)控制組合的泛化能力:在推理中面對(duì)新的、復(fù)雜的多控制配置時(shí),依然能夠生成結(jié)構(gòu)一致、外觀可信且各控制信號(hào)相互兼容的高質(zhì)量結(jié)果。這也從實(shí)驗(yàn)角度驗(yàn)證了統(tǒng)一畫(huà)布設(shè)計(jì)在提升組合式可控生成能力方面的有效性。

實(shí)驗(yàn)結(jié)果

多控制組合(Multi-Control Composition)

Canvas-to-Image 能夠同時(shí)處理身份、姿態(tài)和布局框,而基線方法往往會(huì)失敗。Canvas-to-Image 能:

  • 遵循畫(huà)布中給定的姿態(tài)與空間約束;
  • 保持人物外觀與參考圖一致;
  • 在多種控制疊加時(shí)維持整體畫(huà)面的連貫性與合理性。



身份 + 物體組合

當(dāng)畫(huà)布中同時(shí)包含人物提示和物體提示時(shí),Canvas-to-Image 不會(huì)把兩者當(dāng)作獨(dú)立元素簡(jiǎn)單并置。模型能夠理解兩者之間應(yīng)有的空間與語(yǔ)義關(guān)系,因而會(huì)生成具有自然接觸、合理互動(dòng)的場(chǎng)景。

此外,在多種控制疊加的情況下,Canvas-to-Image 仍能保持:

  • 人物外觀與參考圖一致;
  • 物體的形狀、材質(zhì)和語(yǔ)義保持穩(wěn)定;
  • 人物與物體之間的空間一致性與幾何邏輯不被破壞。

因此即便在復(fù)雜的組合控制設(shè)置下,生成的畫(huà)面也能呈現(xiàn)出連貫、可信的互動(dòng)效果,而不是常見(jiàn)的「貼圖式合成感」。



多層次場(chǎng)景:前景 + 背景

在給定一張背景圖的情況下,Canvas-to-Image 可以通過(guò)放置參考圖或標(biāo)注邊界框的方式,將人物或物體自然地融入場(chǎng)景。模型會(huì)根據(jù)畫(huà)布中的提示自動(dòng)調(diào)整空間關(guān)系,使插入元素在位置、光照和整體氛圍上與背景保持一致,呈現(xiàn)近乎原生的融合效果。



消融研究

我們系統(tǒng)地測(cè)試了當(dāng)逐步添加控制時(shí)模型的表現(xiàn):

  • 僅身份控制:模型能生成人物,但姿態(tài)和位置隨機(jī);
  • + 姿態(tài)控制:模型學(xué)會(huì)同時(shí)控制身份和姿態(tài);
  • + 空間布局:模型能完全控制身份、姿態(tài)和位置。

關(guān)鍵發(fā)現(xiàn):雖然訓(xùn)練時(shí)使用單任務(wù)畫(huà)布,但模型自然學(xué)會(huì)了在推理時(shí)組合多種控制——這種涌現(xiàn)能力驗(yàn)證了我們的設(shè)計(jì)理念。



總結(jié)

Canvas-to-Image 的核心價(jià)值是把多模態(tài)的生成控制方式全部圖形化,讓復(fù)雜場(chǎng)景的構(gòu)建回歸到最直觀的方式:在畫(huà)布上擺放、畫(huà)、框,就能讓模型生成對(duì)應(yīng)的結(jié)構(gòu)化、真實(shí)感強(qiáng)的畫(huà)面。統(tǒng)一畫(huà)布 + 多模態(tài)控制的范式,將有望成為下一代創(chuàng)作工具的基礎(chǔ)界面形態(tài)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
烏軍確認(rèn)再次后撤,波城基本已確認(rèn)淪陷!別人學(xué)不來(lái)俄軍這種打法

烏軍確認(rèn)再次后撤,波城基本已確認(rèn)淪陷!別人學(xué)不來(lái)俄軍這種打法

鷹眼Defence
2025-12-09 16:43:02
有一種算計(jì)叫車(chē)曉和李兆會(huì),離婚12年后,二人之間的輸贏高下立見(jiàn)

有一種算計(jì)叫車(chē)曉和李兆會(huì),離婚12年后,二人之間的輸贏高下立見(jiàn)

娛說(shuō)瑜悅
2025-12-08 14:13:53
被謝賢養(yǎng)了12年,用青春換來(lái)兩千萬(wàn)的coco,已經(jīng)走上了另一條道路

被謝賢養(yǎng)了12年,用青春換來(lái)兩千萬(wàn)的coco,已經(jīng)走上了另一條道路

墨印齋
2025-12-04 19:46:02
為何中國(guó)急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

為何中國(guó)急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

西虹市閑話(huà)
2025-12-09 14:22:19
《內(nèi)幕》宣發(fā)擺爛,票房慘敗英皇巨虧,正式敲響港片喪鐘

《內(nèi)幕》宣發(fā)擺爛,票房慘敗英皇巨虧,正式敲響港片喪鐘

光影新天地
2025-12-08 12:40:33
豐城護(hù)士患癌請(qǐng)假遭拒,院方深夜登門(mén)造訪,衛(wèi)建委定調(diào),網(wǎng)友炸評(píng)

豐城護(hù)士患癌請(qǐng)假遭拒,院方深夜登門(mén)造訪,衛(wèi)建委定調(diào),網(wǎng)友炸評(píng)

周道社會(huì)百態(tài)
2025-12-09 19:17:56
“選擇大于努力”教科書(shū)級(jí)案例,大爺穩(wěn)健投資13年遇爆雷,倒虧200萬(wàn)

“選擇大于努力”教科書(shū)級(jí)案例,大爺穩(wěn)健投資13年遇爆雷,倒虧200萬(wàn)

小蘿卜絲
2025-12-09 19:28:29
“我媽都被你逼得心臟病去世了!”上海鄰里糾紛釀悲劇,僅僅因?yàn)閹咨乳T(mén)

“我媽都被你逼得心臟病去世了!”上海鄰里糾紛釀悲劇,僅僅因?yàn)閹咨乳T(mén)

瀟湘晨報(bào)
2025-12-09 14:54:26
讓法國(guó)人破防的中國(guó)女裝:人人喊打,邊罵邊搶

讓法國(guó)人破防的中國(guó)女裝:人人喊打,邊罵邊搶

陳天宇
2025-12-10 01:30:04
“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話(huà)

“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話(huà)

洲洲影視娛評(píng)
2025-12-08 19:52:00
高風(fēng)險(xiǎn)高回報(bào)!凱爾特人10換1豪賭濃眉的交易方案,組四巨頭沖冠

高風(fēng)險(xiǎn)高回報(bào)!凱爾特人10換1豪賭濃眉的交易方案,組四巨頭沖冠

毒舌NBA
2025-12-10 08:30:50
浙金中心“暫停營(yíng)業(yè)”現(xiàn)場(chǎng)直擊|東站服務(wù)點(diǎn)關(guān)門(mén)多日,總部大樓安保明顯加強(qiáng),連日維權(quán)持續(xù)

浙金中心“暫停營(yíng)業(yè)”現(xiàn)場(chǎng)直擊|東站服務(wù)點(diǎn)關(guān)門(mén)多日,總部大樓安保明顯加強(qiáng),連日維權(quán)持續(xù)

第一財(cái)經(jīng)資訊
2025-12-09 22:55:34
12月9日俄烏最新:第7軍團(tuán)撤出包圍圈

12月9日俄烏最新:第7軍團(tuán)撤出包圍圈

西樓飲月
2025-12-09 20:29:38
詹姆斯的風(fēng)評(píng)越來(lái)越像利拉德,他改變了一些球迷對(duì)籃球的看法

詹姆斯的風(fēng)評(píng)越來(lái)越像利拉德,他改變了一些球迷對(duì)籃球的看法

摸神drose
2025-12-10 08:47:21
卡佩羅:國(guó)米被判點(diǎn)開(kāi)創(chuàng)了一個(gè)糟糕的先例,簡(jiǎn)直是一種恥辱

卡佩羅:國(guó)米被判點(diǎn)開(kāi)創(chuàng)了一個(gè)糟糕的先例,簡(jiǎn)直是一種恥辱

懂球帝
2025-12-10 07:07:08
中金公司參與萬(wàn)科紓困

中金公司參與萬(wàn)科紓困

地產(chǎn)微資訊
2025-12-09 18:32:58
3-2,24歲曼聯(lián)舊將閃耀歐冠:雙響炮,率隊(duì)逆轉(zhuǎn),迎來(lái)2連勝

3-2,24歲曼聯(lián)舊將閃耀歐冠:雙響炮,率隊(duì)逆轉(zhuǎn),迎來(lái)2連勝

側(cè)身凌空斬
2025-12-10 06:59:20
辣眼睛!網(wǎng)傳四川一女子結(jié)婚30年,和親家出軌偷情,聊天記錄流出

辣眼睛!網(wǎng)傳四川一女子結(jié)婚30年,和親家出軌偷情,聊天記錄流出

火山詩(shī)話(huà)
2025-12-10 06:16:24
人類(lèi)史上第一次,中國(guó)貿(mào)易順差破萬(wàn)億,馬克龍:不可接受不可忍受

人類(lèi)史上第一次,中國(guó)貿(mào)易順差破萬(wàn)億,馬克龍:不可接受不可忍受

知鑒明史
2025-12-09 19:25:02
新車(chē)剛到手發(fā)現(xiàn)已充電35次,吉利客服:新車(chē)標(biāo)準(zhǔn)不看充電次數(shù)看里程

新車(chē)剛到手發(fā)現(xiàn)已充電35次,吉利客服:新車(chē)標(biāo)準(zhǔn)不看充電次數(shù)看里程

現(xiàn)代快報(bào)
2025-12-09 20:08:04
2025-12-10 09:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11881文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

微軟宣布230億美元AI投資:175億押注印度

頭條要聞

美媒:有一件事 特朗普沒(méi)法甩鍋給拜登

頭條要聞

美媒:有一件事 特朗普沒(méi)法甩鍋給拜登

體育要聞

“蘇炳添時(shí)代”正式畫(huà)上句號(hào)

娛樂(lè)要聞

尖叫之夜劉宇寧打包餅干被嘲寒酸?

財(cái)經(jīng)要聞

白銀史上首次站上60美元

汽車(chē)要聞

旗艦巨作 鴻蒙智行首款MPV智界V9信息披露

態(tài)度原創(chuàng)

教育
藝術(shù)
家居
時(shí)尚
公開(kāi)課

教育要聞

天一大聯(lián)考范圍解析!12月9日考試在即

藝術(shù)要聞

毛主席書(shū)寫(xiě)曹操《觀滄?!罚焊吖殴P氣令人驚嘆!

家居要聞

現(xiàn)代手法 詮釋東方文化

今年冬天一定要擁有的6件衣服,誰(shuí)穿誰(shuí)好看!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 久久午夜无码鲁丝午夜精品| 国产成人精品1024免费下载| 噜噜噜久久久| 亚洲色AV网站| 97久久精品无码一.区二区| 国产欧美视频一二三四区| 亚洲欧美日本久久综合网站| 在线看片免费人成视频久网下载,| 亚洲AV无码不卡私人影院| 亚洲av成人无码网站| 中文字幕亚洲乱码熟女在线萌芽| 无码人妻aⅴ一区二区三区69堂| 成人午夜激情小视频| 人妻系列无码专区喂奶| 伊人久久大线影院首页| 99p.av| 欧美成人一区二区三区不卡| 激情五月开心五月在线视频| 黄色Av无码网站| 欧美熟妇人妻久久中文字幕| 亚洲日本欧美日韩中文字幕| 国产av啊啊啊啊| 男人在线视频播放| 国产无套无码AⅤ在线观看| www.qiqisea| 人妻人人妻人人躁人人躁人人免费| 亚洲欧美偷拍另类A∨| 欧美成人色图色小说| 久久久久国产精品免费消防器| 日本少妇丰满| 91白浆在线视频| 亚洲制服丝袜系列AV无码| 欧美熟妇人妻| 一区二区三区无码高清视频| 6070熟妇在线视频| 天天日天天搞| 欧洲高清一区| 色婷婷色综合激情国产日韩| 躁躁躁日日躁2020麻豆| 亚洲国产成人不卡高清麻豆| 色欧美乱欧美乱妇15图片|