機器之心原創(chuàng)
編輯:杜偉
「Photoshop is dead」,已經(jīng)成為最近 AI 創(chuàng)作者圈中討論最熱的話題之一。
隨著圖像編輯與生成模型進入到了又一個集中爆發(fā)期,這個專業(yè)創(chuàng)意軟件長久以來的王座地位受到了前所未有的沖擊。
尤其是引領這波多模態(tài)生圖技術升級潮流的谷歌 Nano Banana 以及字節(jié) Seedream4.0、阿里 Qwen-Image-Edit-2509,它們涌現(xiàn)出了更多新的能力與玩法,比如 OOTD 穿搭、文字渲染、生成電影分鏡。在無需掌握深度修圖技能的前提下,這些模型使得創(chuàng)作者開始更多地關注「如何讓生圖結果更可控、更有創(chuàng)意、更具產(chǎn)品化價值。」
從技術路線來看,以 Nano Banana 為代表的模型通過多模態(tài)指令,將語言理解、視覺識別與生成控制等不同的能力融合在一起,實現(xiàn)更自然的創(chuàng)作體驗。不過,隨著使用場景的不斷拓展,這類指令驅動的編輯與生成在實際操作中也逐漸暴露出了一些不容忽視的局限。
比如編輯任務中通常依賴的語言指令有時會描述不清,需要結合參考圖像以及額外的文本說明;生成任務對于具體物體表現(xiàn)良好,但處理起抽象概念(發(fā)型、妝容、紋理、打光、風格等)來往往力不從心。這些問題需要更優(yōu)的技術解決方案。
兩周前,港科大講座教授、馮諾依曼研究院院長賈佳亞團隊開源了他們的最新成果 DreamOmni2,專門針對當前多模態(tài)指令編輯與生成兩大方向的短板進行了系統(tǒng)性優(yōu)化與升級。該系統(tǒng)基于 FLUX-Kontext 訓練,保留原有的指令編輯與文生圖能力,并拓展出多參考圖的生成編輯能力,給予了創(chuàng)作者更高的靈活性與可玩性。
根據(jù)團隊的說法,不論是具體物體還是抽象概念的編輯與生成,DreamOmni2 都可以取得顯著優(yōu)于當前 SOTA 開源模型的表現(xiàn),在一些方面甚至比 Nano Banana 效果都要好。我們來一睹效果:
基于指令的多模態(tài)編輯:讓第一張圖像(源圖像)中女子的帽子擁有與第二張圖像(參考圖像)中毛衣相同的配色方案。
基于指令的圖像生成:圖 1 被掛在臥室的墻上,圖 3 中的杯子變成與圖 2 中盤子相同的材質,并被放置在桌子上。
DreamOmni2 引起了海外創(chuàng)作者的關注與熱議。有人給予了高度評價,認為它將顛覆人們對圖像生成與編輯的認知;還有人給它冠上了「King Bomb」的稱號,并特別稱贊了其抽象概念理解能力。Youtube 還出現(xiàn)了大量的介紹以及使用經(jīng)驗分享視頻。
開源兩周以來,DreamOmni2 收獲了開源社區(qū)的大量認可,在 GitHub 上已經(jīng)積累了 1.6k 的 Star 量。
代碼地址:https://github.com/dvlab-research/DreamOmni2
如果說 Nano Banana 開啟了多模態(tài) AI 圖像編輯生成的新紀元,那么 DreamOmni2 有助于整個行業(yè)將這種改圖與生圖的能力推向深水區(qū),為創(chuàng)作者提供了一個語義理解更全面、創(chuàng)意延展性更強的智能引擎。
接下來,機器之心進行了一手實測,一起來看看效果如何。
一手實測,看看強在哪里?
我們首先測試了 DreamOmni2 的基于指令的多模態(tài)編輯能力
體驗地址:https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
在這一任務中,我們給模型輸入了兩張圖片和一條提示,提示詞為「將圖 1 中熊貓的背景替換為圖 2,生成證件照(Replace the background of the panda in picture 1 with picture 2 to generate an ID photo)」。
只見 DreamOmni2 思考了很短的時間,一張熊貓證件照就 P 好了。生成的圖片背景符合要求,連毛發(fā)細節(jié)都被保留得恰到好處。以前修一張證件照,得花上好幾分鐘精調細節(jié);現(xiàn)在只需一句話,DreamOmni2 就能自動完成,而且效果絲毫不輸專業(yè)修圖。
看起來,這類換背景的任務已經(jīng)難不倒 DreamOmni2 了。既然如此,我們上難度,嘗試讓模型將一張照片的風格轉換為另一種風格。這類任務對模型的理解力與生成控制力要求更高:它不僅需要識別畫面內(nèi)容,還要掌握風格的語義特征,如色彩氛圍、筆觸質感等。
同樣地,我們輸入兩張圖片,外加一句提示「使第一張圖片與第二張圖片具有相同的圖片風格(Make the first image have the same image style as the second image)」。
DreamOmni2 的表現(xiàn)同樣令人驚喜,它不僅精準地還原了參考圖的色調與氛圍,還將那種風格感無縫融入原圖。
既然 DreamOmni2 的效果如此能打,不禁讓人好奇,它與當前主流的生圖模型(比如 GPT-4o 和 Nano Banana)相比,究竟誰更勝一籌?要知道,DreamOmni2 可是開源的,這一點本身就讓它在多模態(tài)生圖領域顯得格外特別。
輸入如下兩張圖,提示為「將第一幅圖中的夾克替換為第二幅圖中的衣服(Replace the jacket in the first image with the clothes in the second image)」。
DreamOmni2 準確識別出了主體與衣服的層級關系,不僅成功替換了衣服,還自然地保留了人物臉部特征與姿態(tài),只有衣領略有出入。
我們再來看看 GPT-4o 的結果,輸入同樣的圖片和提示。GPT-4o 很容易看出是 AI 合成的,尤其是人物的臉部,看起來很不自然,像是被后期磨皮過度。不僅如此,原本插兜的動作也被改動了,人物整體比例顯得很不協(xié)調。
隨后,我們又測試了谷歌 Nano Banana,人物的姿態(tài)與五官保持完好,衣物替換后的整體視覺效果自然協(xié)調,但衣物顏色和形態(tài)發(fā)生了變化,logo 也消失了。
對比下來,我們發(fā)現(xiàn) GPT-4o 表現(xiàn)最差,而 DreamOmni2 和 Nano Banana 整體效果明顯更勝一籌。
接著,我們又測試了 DreamOmni2基于指令的多模態(tài)生成能力
測試地址:https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
輸入如下圖片,然后要求 DreamOmni2「將第一張圖片中的徽標印在第二張圖片中的物體上并放置在桌子上(The logo from the first image isprinted on the object from the second image and placed in the desk)」。
DreamOmni2 準確理解了語義,不僅正確提取出第一張圖片中的徽標元素,還將其自然地貼合到第二張圖片中的物體表面,光影效果非常好。此外,模型自動識別了「桌面」這一場景語境,甚至桌面上出現(xiàn)了杯子倒影。
我們又測試了一個更具挑戰(zhàn)性的任務,根據(jù)手繪草圖,讓模型生成一張姿態(tài)相同的圖片。這類任務考驗的不只是模型的圖像生成能力,更是對動作識別、空間理解與語義映射的綜合考驗。
提示:Anime image 1 adopts the pose of image 2
DreamOmni2 在這一測試中依然表現(xiàn)不錯,它能夠準確捕捉草圖中的姿態(tài),將線條信息轉化為自然的人物動作。
最后,我們同樣對 DreamOmni2 與 GPT-4o、Nano Banana 的生成效果進行對比。輸入兩張圖片,要求是「將圖 2 的項鏈戴在圖 1 中的貓的脖子上」。
DreamOmni2 生成的結果如下:
下圖左為 GPT-4o 結果,右為 Nano Banana 結果:
三者比較下來,GPT-4o 的生成結果依然帶有較強的 AI 痕跡;DreamOmni2 和 Nano Banana 各有其優(yōu)勢,比如 DreamOmni2 色彩氛圍表現(xiàn)力更強,Nano Banana 畫面呈現(xiàn)更柔和。
這樣的表現(xiàn)直接驗證了賈佳亞團隊的實驗結果:DreamOmni2 在基于指令的多模態(tài)編輯與生成任務中均實現(xiàn)了新的 SOTA。
基于指令的多模態(tài)編輯定量與定性結果。
基于指令的多模態(tài)生成的定量與定性結果。
數(shù)據(jù)、框架與訓練三位一體,
打通多模態(tài)生成全鏈路
從前文多場景實測來看,DreamOmni2 在多模態(tài)指令編輯與生成任務中展現(xiàn)出了更強的適應性、可控性與可玩性。實現(xiàn)這樣的躍升,意味著賈佳亞團隊要在數(shù)據(jù)構建、框架設計與訓練策略上做出一些不同于行業(yè)其他玩家的東西來。
事實上,賈佳亞團隊確實做到了這一點,祭出了三階段式數(shù)據(jù)構建范式、多參考圖索引編碼優(yōu)化以及 VLM 與生成模型聯(lián)合訓練等在內(nèi)的一整套技術創(chuàng)新方案。
由于多模態(tài)指令編輯與生成算是比較新的 AI 任務,其主要挑戰(zhàn)就在于缺乏足夠的訓練數(shù)據(jù)。對于編輯,早期(如 Omniedit)的數(shù)據(jù)構建流程往往通過生成包含指令、源圖像與目標圖像的三元組來實現(xiàn),而無法生成以參考圖像為編輯條件的數(shù)據(jù);對于生成,現(xiàn)有(如 UNO)的數(shù)據(jù)構建流程依賴分割檢測模型來生成參考圖像,難以合成涉及抽象屬性或被遮擋物體的參考數(shù)據(jù)。
DreamOmni2獨創(chuàng)了三階段式數(shù)據(jù)構建范式,力圖突破以往工作的數(shù)據(jù)桎梏。
第一階段采用特征混合方案,通過雙分支結構同時生成源圖像與目標圖像。并且利用基礎模型的 T2I(文本到圖像)能力,創(chuàng)建包含具體物體與抽象屬性的高質量數(shù)據(jù)對。與 UNO 采用的 diptych 數(shù)據(jù)生成方法相比,特征混合方案表現(xiàn)出了三大優(yōu)勢:不降圖像分辨率、不會出現(xiàn)因分割線偏移而導致的內(nèi)容混疊、數(shù)據(jù)質量與準確性更高。
第二階段聚焦于構建基于指令的多模態(tài)編輯數(shù)據(jù)。首先利用 T2I 模型生成的圖像和真實圖像來創(chuàng)建目標圖像;隨后利用第一階段訓練得到的特征提取模型來模擬目標圖像中的物體或屬性,并基于指令生成參考圖像;接著使用基于指令的編輯模型修改目標圖像中提取的物體或屬性,從而創(chuàng)建源圖像;最終形成了從參考圖像、源圖像到目標圖像的訓練對。
到了第三階段,則要構建基于指令的多模態(tài)生成數(shù)據(jù)。首先利用第二階段中訓練的特征提取模型,從源圖像中提取物體,創(chuàng)建新的參考圖像;隨后將這些參考圖像與第二階段已有的參考圖像結合起來,最終形成由多張參考圖像、指令和目標圖像組成的訓練數(shù)據(jù)集。
這一范式打通了從具體物體到抽象概念、從編輯到生成的全流程數(shù)據(jù)構建鏈路,通過特征混合、真實數(shù)據(jù)與模型自生數(shù)據(jù)的結合,彌補了以往多模態(tài)訓練中抽象概念稀缺以及缺乏參考圖像條件的結構性缺陷,降低了數(shù)據(jù)獲取成本。
如此一來,賈佳亞團隊從數(shù)據(jù)層面保證了模型的語義理解與跨模態(tài)對齊能力,也為行業(yè)帶來了一套更高效的數(shù)據(jù)閉環(huán)標準。
DreamOmni2 的框架設計要適應多參考圖輸入的需求。由于基礎模型 FLUX Kontext 無法實現(xiàn)這一點,因此需要進行針對性修改。
在多模態(tài)指令任務中,為方便起見,通常會將參考圖像標記為「image 1」、「image 2」等。但是,僅依靠位置編碼無法準確區(qū)分不同參考圖像的索引。
為了解決這個問題,賈佳亞團隊選擇將索引編碼添加到位置通道。索引編碼雖有助于區(qū)分參考圖像,但位置編碼仍然需要根據(jù)先前輸入的參考圖像的大小進行偏移。因此這個偏移又被添加到了位置編碼中,使得復制粘貼現(xiàn)象和參考圖像之間的像素混淆現(xiàn)象得到有效緩解。
最后是進一步的訓練優(yōu)化。當前編輯和生成模型的訓練指令通常結構化良好,具有固定格式。然而,現(xiàn)實世界中的用戶指令往往不規(guī)則或邏輯上不一致,這會造成一種鴻溝,影響到模型的理解并降低性能。
針對這一點,賈佳亞團隊提出了VLM 和生成模型聯(lián)合訓練的機制,讓 VLM 理解復雜的用戶指令,并將其輸出為訓練中使用的結構化格式,幫助編輯和生成模型更好地理解用戶意圖。
與此同時,賈佳亞團隊使用 LoRA 方法分別訓練了編輯與生成模塊,使模型按照標準化指令格式執(zhí)行多模態(tài)指令編輯與生成任務。當系統(tǒng)檢測到參考圖像輸入時,LoRA 模塊會自動激活,從而在統(tǒng)一模型中無縫融合編輯與生成功能。
更多技術細節(jié)請訪問原論文。
論文地址:https://arxiv.org/pdf/2510.06679v1
作為一次底層架構的技術升級,DreamOmni2 以系統(tǒng)化的思路貫通了數(shù)據(jù)、框架與訓練三個關鍵環(huán)節(jié),構建起多模態(tài)生成的統(tǒng)一體系。
結語
去年 12 月,賈佳亞團隊發(fā)布 DreamOmni,邁出了探索圖像生成與編輯任務大一統(tǒng)的第一步。如今 DreamOmni2 的開源,則是這一方向的深化與延展。
最開始,基于指令的編輯還只能處理簡單的添加、刪除與替換任務,而現(xiàn)在已經(jīng)能夠理解復雜的語義指令,并利用參考圖像實現(xiàn)風格遷移、結構重組、抽象屬性編輯等高級任務。
基于指令的生成也不再局限于單一物體的場景構建,而能更靈活地處理多物體與抽象概念的協(xié)同組合,實現(xiàn)更高層次的語義協(xié)調與創(chuàng)意控制,拓寬了 AI 視覺創(chuàng)作的表現(xiàn)空間。
對于整個行業(yè)而言,DreamOmni2 的系統(tǒng)性創(chuàng)新,讓模型的多模態(tài)理解、編輯與生成能力做到自然銜接與切換,為下一代 AI 視覺創(chuàng)作工具的智能進化提供了參考。
此外,DreamOmni2 是賈佳亞團隊過去兩年深耕多模態(tài)領域的一個縮影與延續(xù)。團隊在圖像、視頻與語音等多個方向發(fā)力,僅在去年就陸續(xù)推出多模態(tài)視覺語言模型 Mini-Gemini、AI 圖像與視頻生成控制工具ControlNeXt 以及DreamOmni等多項代表性研究;在語音方向則推出了富有表現(xiàn)力、長時程的語音生成模型MGM-Omni
通過這些工作,賈佳亞團隊已逐步構建起覆蓋感知、理解與生成全鏈路的多模態(tài)技術棧。加之很多模型選擇向社區(qū)開放,進一步增強了其自身多模態(tài)技術的影響力。
隨著以 Nano Banana、DreamOmni2 以及 Sora 2 為代表的視覺生成模型持續(xù)引爆社區(qū),AI 創(chuàng)作范式正在發(fā)生翻天覆地的變化,創(chuàng)作者可以進行更加深入的人模共創(chuàng)。連同 DreamOmni2 在內(nèi),賈佳亞團隊的一系列開源工作將成為推動全球多模態(tài)創(chuàng)作生態(tài)演進的重要力量。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.