新智元報(bào)道
編輯:犀牛 好困
【新智元導(dǎo)讀】你永遠(yuǎn)無(wú)法精確描述出梵高的筆觸或王家衛(wèi)的光影。AI創(chuàng)作的未來(lái),是讓AI直接「看懂」你的靈感,而不是去揣摩你的指令。
AI圖像模型殺瘋了!
年初,GPT-4o引爆了一股「吉卜力」熱潮。
最近,全網(wǎng)更是玩瘋了Nano Banana生成的3D手辦。
雖然但是,不知道你有沒(méi)有發(fā)現(xiàn)一個(gè)「華點(diǎn)」:
這些統(tǒng)一生成與編輯,更多都是在卷指令編輯與實(shí)體概念的組合生成;如果想作為智能創(chuàng)作工具,實(shí)際上還差著不少。
當(dāng)語(yǔ)言變得蒼白無(wú)力。
想象一下,你希望將一張照片中人物的背包,換成另一張照片里裙子的那種圖案。你該如何用語(yǔ)言,向AI精確描述那種復(fù)雜而不規(guī)則的波西米亞風(fēng)格圖案呢?
答案是:幾乎不可能。
當(dāng)靈感并非實(shí)體物體。
更進(jìn)一步,當(dāng)你想借鑒的不是物體,而是一種抽象的「感覺(jué)」——
例如,一張老照片獨(dú)特的「復(fù)古膠片感光影」,或者一種特定畫(huà)家的「筆觸風(fēng)格」時(shí),那些只擅長(zhǎng)提取和復(fù)制一個(gè)具體的「物體」的模型便會(huì)束手無(wú)策。
要是AI既能聽(tīng)懂人話,又能精準(zhǔn)Get這些抽象的風(fēng)格,那該多好!
最近,這個(gè)瓶頸被港科大賈佳亞帶領(lǐng)的AI研究團(tuán)隊(duì)給捅破了,Github 兩周攬星1.6K,被很多國(guó)外創(chuàng)作者分享在YouTube和論壇上,引發(fā)大量討論。
在這一篇名為「DreamOmni2: Multimodal Instruction-based Editing and Generation」的論文中,AI掌握了針對(duì)「抽象概念」的多模態(tài)編輯與生成能力。
·論文地址:
https://arxiv.org/html/2510.06679v1
·項(xiàng)目主頁(yè):
https://pbihao.github.io/projects/DreamOmni2/index.html
·代碼倉(cāng)庫(kù):
https://github.com/dvlab-research/DreamOmni2
基于強(qiáng)大的FLUX Kontext模型,DreamOmni2在保留頂尖文生圖與指令編輯能力的基礎(chǔ)上,被賦予了處理多個(gè)參考圖像的全新能力,使其成為更加智能的創(chuàng)作工具。
它不僅在傳統(tǒng)任務(wù)上顯著優(yōu)于現(xiàn)有的開(kāi)源模型,更在全新的抽象概念處理任務(wù)上,展現(xiàn)出超越谷歌最強(qiáng)Nano Banana的實(shí)力。
開(kāi)源版Nano Banana,但更強(qiáng)
光說(shuō)不練假把式,我們直接上實(shí)測(cè)。
首先來(lái)個(gè)經(jīng)典的:輸入一個(gè)產(chǎn)品,然后讓角色來(lái)「帶貨」。
Prompt:
The character from the first image is holding the item from the second picture.
讓圖1里的角色,拿著圖2里的物品。
這表情、這頭發(fā)、這手指的細(xì)節(jié),以及衣服的質(zhì)感,簡(jiǎn)直完美有沒(méi)有。
而且,產(chǎn)品本身也得到了很好的融入。
接下來(lái),我們?cè)僭囋嚾卧锏男Ч屇P桶褕D1中的男子,替換成圖2中的女子。
結(jié)果出爐!
可以看到,在生成的圖片中,背景的山巒和賽博感的光線效果幾乎完美繼承,人物身前的文字更是毫無(wú)影響。
人物方面,衣服和發(fā)型基本和原圖2一致,面部的光線則模仿了圖1中的效果。
可以說(shuō)是十分驚艷了。
說(shuō)到光線渲染,我們加大難度,讓模型把圖2中的紅藍(lán)風(fēng)格,遷移到圖1上。
Prompt:
Make the first image has the same light condition as the second image.
讓圖1的光照和圖2保持一致。
沒(méi)想到,DreamOmni2不僅保持了圖1原有的像格柵一樣的光照,融合之后的紅藍(lán)對(duì)比也十分強(qiáng)烈。
相比之下,GPT-4o(下圖左)只遷移了色調(diào),光影效果沒(méi)有保留。Nano Banana(下圖右)只能說(shuō)稍稍變了點(diǎn)色,但不多。
風(fēng)格遷移更是手拿把掐。
Prompt:
Replace the first image have the same image style as the second image.
將圖1處理成與圖2相同的風(fēng)格
像素風(fēng)的雞——搞定。
二次元風(fēng)的小姐姐——搞定。(太美了)
圖案、文字,也通通不在話下。
Prompt:
On the cup, "Story" is displayed in the same font style as the reference image.
在杯子上用參考圖里的同款字體顯示“Story”字樣
不僅如此,DreamOmni2也十分擅長(zhǎng)對(duì)動(dòng)作進(jìn)行模仿。
Prompt:
Make the person from the first image has the same pose as person from the second image.
讓圖1里的人,模仿圖2中的姿勢(shì)
在DreamOmni2生成的結(jié)果中,胳膊和腿的動(dòng)作基本完美復(fù)刻了圖2。
但有些遺憾的是,人物的方向和手部的細(xì)節(jié)略有不同。
不過(guò),相比起在語(yǔ)義理解上出了大問(wèn)題的開(kāi)源模型FLUX Kontext,那強(qiáng)了可不是一星半點(diǎn)。
如下圖所示,顯然,Kontext完全沒(méi)有搞懂什么「第一張圖」、「第二張圖」,以及還要調(diào)整姿勢(shì)什么的,于是干脆復(fù)制了一遍圖2完事。
閉源模型這邊,GPT-4o(下圖左)的動(dòng)作模仿比較到位,但面部的一致性不太好。
而Nano Banana(下圖右)就有點(diǎn)抽象了,生生造出了個(gè)「三體人」:)
除了身體上的動(dòng)作,DreamOmni2在面部微表情,以及發(fā)型這塊編輯,也是又準(zhǔn)又穩(wěn)。
Prompt:
Make the person in the first image have the same expression as the person in the second image.
讓圖1里的人,做出和圖2相同的表情。
嘴巴張開(kāi)的大小、眼睛瞇成的縫,簡(jiǎn)直一模一樣,可以說(shuō)是非常燦爛了。
這種效果如果像要靠語(yǔ)言去形容,恐怕是很難做到的。
Prompt:
Make the person in the first image have the same hairstyle as the person in the second image.
給圖1里的人換上和圖2中一樣的發(fā)型
不管是背景的沙發(fā),還是人物的動(dòng)作、衣服,都一點(diǎn)沒(méi)變;只有頭發(fā)從黑色短發(fā)變成了長(zhǎng)長(zhǎng)的金色卷發(fā)。
注意看脖子,因頭發(fā)遮擋而帶來(lái)的陰影,也一并呈現(xiàn)了出來(lái)。
值得一提的是,DreamOmni2的多圖編輯能力非常強(qiáng)。
比如,讓圖1的鸚鵡戴上圖2的帽子,模仿圖3中的氛圍與色調(diào)。
可以看到,從鸚鵡的羽毛、帽子顏色,到整個(gè)背景的氛圍都很好的復(fù)刻了上圖中的火箭圖片。
再上點(diǎn)難度:一下子輸入4張圖,然后讓模型把前3張圖組合起來(lái),并改成圖4的風(fēng)格。
不管是女生衣服上的條紋、男生臉上的絡(luò)腮胡,還是小狗的品種,都完美地遷移了過(guò)去。
同時(shí),畫(huà)中的筆觸和色彩運(yùn)用,也得到了比較忠實(shí)的呈現(xiàn)。
國(guó)外的網(wǎng)友們?cè)隗w驗(yàn)之后,紛紛表示驚艷。
甚至還有人出了一期教程,直言「別再用Nano Banana了,DreamOmni2 ComfyUI才是最強(qiáng)的免費(fèi)工作流!」
更多實(shí)測(cè)可見(jiàn):
· Huggingface Editing Demo:
https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
·Huggingface Generation Demo:
https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
·Video Demo:
https://www.youtube.com/watch?v=8xpoiRK57uU
實(shí)驗(yàn)驗(yàn)證
當(dāng)AI學(xué)會(huì)了「照樣子改」
為了真實(shí)展現(xiàn)DreamOmni2性能,研究團(tuán)隊(duì)專門(mén)打造了一個(gè)全新的DreamOmni2基準(zhǔn)測(cè)試集,包括205個(gè)多模態(tài)指令式編輯測(cè)試用例和114個(gè)指令式生成測(cè)試用例。
考察的重點(diǎn)便是多模態(tài)指令生成以及「抽象屬性」和「具體物體」的混合編輯。
DreamOmni2基準(zhǔn)測(cè)試中多模態(tài)指令生成及編輯示例
在多模態(tài)指令編輯測(cè)試中,相比于業(yè)界頂流GPT-4o和Nano Banana,DreamOmni2顯示出了更精確的編輯結(jié)果和更好的一致性。
除了編輯指令的執(zhí)行率之外,GPT-4o和Nano Banana在編輯時(shí)還會(huì)存在一些小問(wèn)題,例如,經(jīng)常引入意料之外的改動(dòng)或不一致。比如,你讓它換個(gè)姿勢(shì),它連衣服都給你換了。
在縱橫比方面,GPT-4o只支持三種輸出,而Nano Banana的則難以控制。
更有趣的是,GPT-4o處理過(guò)的圖片還會(huì)「蜜汁發(fā)黃」。
相比之下,這些問(wèn)題在DreamOmni2上都是不存在的。
多模態(tài)指令編輯的視覺(jué)比較
在定量分析的表格里,也反映出了這些問(wèn)題。
DreamOmni2在「具體物體」和「抽象屬性」上的得分都是最高的,一些方面超過(guò)了GPT-4o和Nano Banana。
在多模態(tài)指令生成方面,DreamOmni2表現(xiàn)同樣驚艷。
實(shí)測(cè)結(jié)果表明,此前的開(kāi)源模型在生成抽象屬性方面十分困難。
例如下圖第四行,將照片中的狗抽象成右邊的素描風(fēng)格,幾個(gè)開(kāi)源模型幾乎是「無(wú)動(dòng)于衷」。
相比之下,DreamOmni2不僅顯著領(lǐng)先開(kāi)源模型,而且還達(dá)到了與GPT-4o和Nano Banana相當(dāng)甚至更好的水平。
多模態(tài)指令生成可視化對(duì)比
定量評(píng)估中,DreamOmni2也在人工評(píng)估和AI模型評(píng)估中均優(yōu)于商業(yè)模型Nano Banana,取得了與GPT-4o相當(dāng)?shù)慕Y(jié)果。
在生成準(zhǔn)確性和對(duì)象一致性方面也要優(yōu)于一眾開(kāi)源模型,即使在這些開(kāi)源模型的專業(yè)領(lǐng)域內(nèi)也是如此。
數(shù)據(jù)構(gòu)建
從零開(kāi)始,融合視覺(jué)靈感
要實(shí)現(xiàn)如此強(qiáng)大的功能,最大的挑戰(zhàn)在于訓(xùn)練數(shù)據(jù)。
顯然,這個(gè)世界上并不存在海量的「(源圖像+參考圖像+指令)-> 目標(biāo)圖像」這樣的現(xiàn)成數(shù)據(jù)對(duì)。
為了解決這一問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了一套的三階段數(shù)據(jù)構(gòu)建范式,為DreamOmni2「量身定制」了高質(zhì)量的教材。
第一階段:創(chuàng)造高質(zhì)量的概念對(duì)
團(tuán)隊(duì)利用基礎(chǔ)模型的文生圖能力,提出了一種新穎的特征混合方案。
它可以在生成圖像的過(guò)程中,交換兩個(gè)生成分支之間的注意力特征,從而創(chuàng)造出包含相同具體物體或相同抽象屬性的高質(zhì)量圖像對(duì)。
相比于過(guò)去將兩張圖拼接在一起的方法,這種方案生成的圖像分辨率更高,質(zhì)量更好,且完全避免了邊緣內(nèi)容混淆的問(wèn)題。
第二階段:生成多模態(tài)「編輯」數(shù)據(jù)
利用第一階段的數(shù)據(jù),團(tuán)隊(duì)首先訓(xùn)練了一個(gè)「提取模型」。這個(gè)模型能從一張圖像中精準(zhǔn)「提取」出某個(gè)物體或某種抽象屬性,并根據(jù)指令生成一張新的參考圖。
隨后,他們利用一個(gè)基于指令的編輯模型,對(duì)目標(biāo)圖像中提取出的物體或?qū)傩赃M(jìn)行修改,從而創(chuàng)造出「源圖像」。
這樣一來(lái),一個(gè)完整的編輯訓(xùn)練數(shù)據(jù)對(duì)就誕生了:(源圖像 + 編輯指令 + 參考圖像)-> 目標(biāo)圖像。
第三階段:創(chuàng)建多模態(tài)「生成」教材
在第二階段的基礎(chǔ)上,團(tuán)隊(duì)再次使用「提取模型」,從源圖像中提取出更多物體或?qū)傩?,生成更多的參考圖像。
這樣,就構(gòu)成了用于多模態(tài)生成的訓(xùn)練數(shù)據(jù):(多張參考圖像 + 生成指令)-> 目標(biāo)圖像。
通過(guò)這個(gè)三階段流水線,團(tuán)隊(duì)成功構(gòu)建了一個(gè)多樣化、高質(zhì)量的綜合數(shù)據(jù)集,涵蓋了對(duì)具體物體和抽象屬性(如局部和全局屬性)的生成和編輯,并且支持多個(gè)參考圖像輸入。
多模態(tài)指令編輯和生成訓(xùn)練數(shù)據(jù)的分布和樣本
框架革新
讓模型真正理解多圖像輸入
有了數(shù)據(jù),還需要一個(gè)能「消化」這些數(shù)據(jù)的模型框架。
然而,當(dāng)前SOTA的統(tǒng)一生成和編輯模型(如FLUX Kontext),并不支持多圖像輸入。
為此,團(tuán)隊(duì)對(duì)框架進(jìn)行了兩項(xiàng)關(guān)鍵創(chuàng)新,以及相應(yīng)的訓(xùn)練機(jī)制:
1. 索引編碼與位置編碼移位
為了讓模型能夠準(zhǔn)確區(qū)分多個(gè)參考圖像并理解指令中對(duì)它們的引用(例如,圖像1、圖像2),引入了索引編碼(Index Encoding)和位置編碼偏移方案(Position Encoding Shift Scheme)。
其中,索引編碼可以幫助模型識(shí)別輸入圖像的索引,而位置編碼則會(huì)根據(jù)先前輸入的大小進(jìn)行偏移,從而防止像素混淆和生成結(jié)果中出現(xiàn)復(fù)制粘貼的偽影。
這兩者結(jié)合,讓模型能夠清晰、準(zhǔn)確地處理多圖像輸入。
2. 視覺(jué)語(yǔ)言模型(VLM)與生成模型的聯(lián)合訓(xùn)練
現(xiàn)實(shí)世界中,用戶的指令往往是不規(guī)范、甚至邏輯混亂的;而模型訓(xùn)練時(shí)用的指令卻是結(jié)構(gòu)化的。
為了彌合這一鴻溝,團(tuán)隊(duì)創(chuàng)新性地提出了一種聯(lián)合訓(xùn)練方案,顯著提升了模型理解用戶意圖的能力,增強(qiáng)了在真實(shí)應(yīng)用場(chǎng)景中的性能。
具體來(lái)說(shuō),他們讓一個(gè)強(qiáng)大的VLM(Qwen2.5-VL)先來(lái)理解用戶的復(fù)雜指令,并將其「翻譯」成模型能理解的結(jié)構(gòu)化格式,最后再交由生成/編輯模型去執(zhí)行。
3. LoRA微調(diào)
在訓(xùn)練策略上,團(tuán)隊(duì)采用了LoRA微調(diào)方法。這樣做的好處是,可以在不影響模型原有強(qiáng)大能力的基礎(chǔ)上,使其多模態(tài)能力(多圖輸入和編輯/生成)能夠在檢測(cè)到參考圖像時(shí)無(wú)縫激活,同時(shí)保留了基礎(chǔ)模型的原始指令編輯能力。
AI創(chuàng)作的下一個(gè)前沿
DreamOmni2的出現(xiàn),代表了AI創(chuàng)作工具發(fā)展的一個(gè)重要方向:從單一的語(yǔ)言模態(tài),走向真正的多模態(tài)、多概念融合。
研究團(tuán)隊(duì)則通過(guò)提出兩項(xiàng)全新的、高度實(shí)用的任務(wù),并為此構(gòu)建了完整的數(shù)據(jù)流水線和創(chuàng)新的模型框架,成功地推動(dòng)了生成式AI的技術(shù)邊界。
對(duì)于設(shè)計(jì)師、藝術(shù)家和每一個(gè)熱愛(ài)創(chuàng)作的普通人來(lái)說(shuō),一個(gè)更加智能、更加全能的創(chuàng)作時(shí)代,正加速到來(lái)。
https://arxiv.org/html/2510.06679v1
https://pbihao.github.io/projects/DreamOmni2/index.html
https://github.com/dvlab-research/DreamOmni2
https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
https://www.youtube.com/watch?v=8xpoiRK57uU
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.