夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Seedream4.0大戰(zhàn)NanoBanana、GPT-4o?EdiVal-Agent 終結(jié)編輯評(píng)測(cè)

0
分享至



在 AIGC 的下一個(gè)階段,圖像編輯(Image Editing)正逐漸取代一次性生成,成為檢驗(yàn)多模態(tài)模型理解、生成與推理能力的關(guān)鍵場(chǎng)景。我們?cè)撊绾慰茖W(xué)、公正地評(píng)測(cè)這些圖像編輯模型?

為了解決這一難題,來(lái)自得克薩斯大學(xué)奧斯汀分校、UCLA、微軟等機(jī)構(gòu)的研究者們共同提出了EdiVal-Agent,一個(gè)以對(duì)象為中心自動(dòng)化、細(xì)粒度多輪編輯(Multi-Turn Editing)評(píng)估框架。

EdiVal-Agent的名字巧妙地融合了“Editing”(編輯)和“Evaluation”(評(píng)估),并以“Agent”(智能體)的形式呈現(xiàn),寓意它是一個(gè)能夠自主執(zhí)行復(fù)雜評(píng)估任務(wù)智能系統(tǒng)。它不僅能自動(dòng)化生成多樣化的編輯指令,還能從指令遵循,內(nèi)容一致性,視覺質(zhì)量多維度對(duì)編輯結(jié)果進(jìn)行精細(xì)評(píng)估,其評(píng)估結(jié)果與人類判斷的一致性顯著優(yōu)于現(xiàn)有方法。



  • 論文題目:
  • EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing
  • 論文鏈接:
  • https://arxiv.org/abs/2509.13399
  • 項(xiàng)目主頁(yè):
  • https://tianyucodings.github.io/EdiVAL-page/

評(píng)測(cè):如何定義“好”的編輯?

當(dāng)前主流評(píng)測(cè)分為兩類:

1、基于參考圖像(Reference-based):依賴成對(duì)的參考圖像,覆蓋面有限,還容易繼承舊模型的偏差。

2、基于大模型打分(VLM-based):用視覺語(yǔ)言模型(VLM)通過(guò)提示語(yǔ)打分,看似方便卻問(wèn)題重重:空間理解差,常誤判物體位置關(guān)系;細(xì)節(jié)不敏感,難察覺局部微小修改;審美失準(zhǔn),對(duì)生成瑕疵(artifacts)缺乏感知。結(jié)果是,VLM 單評(píng)雖“方便”,卻難以精確可靠地衡量編輯質(zhì)量。

EdiVal-Agent :圖像編輯界的“評(píng)測(cè)裁判”

EdiVal-Agent是一個(gè)面向?qū)ο?/strong>的自動(dòng)評(píng)測(cè)智能體。它能像人類一樣,識(shí)別圖像中的每個(gè)對(duì)象,理解編輯語(yǔ)義,并在多輪編輯動(dòng)態(tài)追蹤變化。

在講工作流之前,我們先來(lái)看一組直觀的測(cè)試結(jié)果。

Base Image:兩匹馬

  • Turn 1:添加文字 “HORSES
  • Turn 2:棕色的馬換成一只鹿
  • Turn 3:白馬的毛色改成棕色



聽起來(lái)很簡(jiǎn)單,對(duì)吧?但當(dāng)我們讓各家頂尖模型來(lái)完成這三步時(shí),結(jié)果卻大不相同。

GPT-Image-1(OpenAI) 指令執(zhí)行得不錯(cuò),但背景和細(xì)節(jié)越來(lái)越不一致。

Qwen-Image-Edit(阿里)視覺質(zhì)量和一致性上雙雙失手,第三輪后出現(xiàn)明顯“過(guò)曝感”。

FLUX.1-Kontext-dev(Black Forest Labs) 基本能保留背景,但理解指令有偏差,比如第三輪“白馬的毛色改成棕色”執(zhí)行失敗。

Nano Banana(Google Gemini 2.5 Flash) 表現(xiàn)最平衡——穩(wěn)、準(zhǔn)、無(wú)明顯短板。

在剛才的對(duì)比中,我們看到不同模型在多輪編輯下表現(xiàn)差異明顯。那 EdiVal-Agent 是如何實(shí)現(xiàn)自動(dòng)評(píng)測(cè)、做到“既懂圖又懂語(yǔ)義”的呢?答案來(lái)自它精心設(shè)計(jì)的三步工作流。



1、圖像分解(Decomposition)

第一步,EdiVal-Agent 會(huì)讓大模型(如 GPT-4o)先“看懂”一張圖片。它會(huì)自動(dòng)識(shí)別出圖中所有可見對(duì)象,并為每個(gè)對(duì)象生成結(jié)構(gòu)化的描述——包括顏色(color)、材質(zhì)(material)、物體上是否存在文字(text)、數(shù)量(count) 和前景屬性 (foreground)。

這些對(duì)象被匯總成一個(gè)對(duì)象池(Object Pool),并通過(guò)物體檢測(cè)器進(jìn)行驗(yàn)證過(guò)濾,為后續(xù)指令生成和評(píng)測(cè)打下基礎(chǔ)。

2、指令生成(Instruction Generation)

第二步,EdiVal-Agent 根據(jù)場(chǎng)景自動(dòng)生成多輪編輯指令。 它擁有覆蓋9 種編輯類型、6 個(gè)語(yǔ)義類別的指令體系,包括:

添加(add)、刪除(remove)、替換(replace)、 改顏色(color alter)、改材質(zhì)(material alter)、改文字(text change)、移動(dòng)位置(position change)、改數(shù)量(count change)、換背景(background change)。

EdiVal-Agent 會(huì)動(dòng)態(tài)維護(hù)三個(gè)對(duì)象池:

  • All Objects Pool(所有出現(xiàn)過(guò)的對(duì)象)
  • Available Objects Pool(當(dāng)前可編輯的對(duì)象)
  • Unchanged Objects Pool(尚未被修改的對(duì)象)

在每一輪編輯中,智能體都會(huì):

  • 隨機(jī)選取指令類型;
  • 挑選合適對(duì)象;
  • 生成自然語(yǔ)言編輯指令;
  • 更新對(duì)象池狀態(tài)。

默認(rèn)設(shè)置為三輪(Turn 1 – Turn 3),也可以擴(kuò)展到更長(zhǎng)鏈條,實(shí)現(xiàn)更多輪可組合編輯。

3、 自動(dòng)評(píng)測(cè)(Evaluation)

最后一步,EdiVal-Agent 從三個(gè)維度評(píng)估模型表現(xiàn):

  • EdiVal-IF(Instruction Following)判斷模型是否準(zhǔn)確執(zhí)行指令——例如“把白馬換成鹿”是否真的完成。 對(duì)于符號(hào)任務(wù)(如位置或數(shù)量變化),使用 Grounding-DINO 等開放詞匯檢測(cè)器進(jìn)行幾何驗(yàn)證; 對(duì)于語(yǔ)義任務(wù)(如顏色或背景變化),則結(jié)合物體檢測(cè)器和VLM進(jìn)行語(yǔ)義核對(duì)。
  • EdiVal-CC(Content Consistency)測(cè)量未被編輯的部分是否保持一致。 它計(jì)算背景區(qū)域(排除 All Objects Pool 中的所有物體)與未修改對(duì)象(屬于 Unchanged Objects Pool 的物體)之間的語(yǔ)義相似度,以確保模型不會(huì)“誤傷”無(wú)關(guān)區(qū)域。比如,下圖中GPT-Image-1編輯后的STOP 標(biāo)志發(fā)生了明顯變化,而Nano Banana則更真實(shí)地保持了內(nèi)容一致性
  • EdiVal-VQ(Visual Quality)使用 Human Preference Score v3 評(píng)估整體視覺質(zhì)量,量化生成結(jié)果的美觀度自然度

最終綜合指標(biāo)EdiVal-O通過(guò)幾何平均融合EdiVal-IFEdiVal-CC,平衡“是否聽話”與“是否穩(wěn)定”。



為什么不把 EdiVal-VQ 納入總體分?jǐn)?shù)?

在評(píng)估中,我們發(fā)現(xiàn)“視覺質(zhì)量(EdiVal-VQ)”雖然重要,但并不適合直接計(jì)入綜合得分。以指令“將背景換成圖書館”為例:

  • GPT-Image-1會(huì)傾向于“美化”圖像,讓整體更光亮、更清晰,從而提升審美得分
  • FLUX.1-Kontext-max則選擇“保真”策略,盡量保持原始風(fēng)格,只替換必要區(qū)域。



這說(shuō)明不同模型在面對(duì)同一任務(wù)時(shí),有的更追求視覺美感(beautification),有的更注重和保真(preservation)。由于在圖像編輯中,是否應(yīng)追求“美化”仍存在爭(zhēng)議,因此我們未將 EdiVal-VQ 納入最終評(píng)測(cè)指標(biāo)。

EdiVal-Agent 的人類一致性驗(yàn)證

EdiVal-Agent評(píng)測(cè)結(jié)果能否“想法與人一致”?

我們?cè)O(shè)計(jì)了一項(xiàng)人類一致性實(shí)驗(yàn)(Human Agreement Study),來(lái)檢驗(yàn) EdiVal-Agent 的評(píng)測(cè)結(jié)果,是否真正符合人類判斷。結(jié)果如下:



EdiVal-Agent 的指標(biāo)EdiVal-IF與人類判斷的平均一致率高達(dá)81.3%。相比之下,傳統(tǒng)評(píng)測(cè)方法的表現(xiàn)明顯更低:

  • VLM-only(Qwen-2.5-VL):75.2%
  • CLIP-dir(CLIP-directional similarity):68.9%

換句話說(shuō),EdiVal-Agent 不僅能“算得對(duì)”,更能“想得像人”。此外,人工之間的一致率為85.5%,這意味著——EdiVal-Agent 的表現(xiàn)已接近人類評(píng)測(cè)的上限。

為什么 EdiVal-IF 與人類判斷更為一致?

符號(hào)任務(wù)更精準(zhǔn)。對(duì)于“添加 / 刪除 / 替換 / 移動(dòng) / 改數(shù)量”等符號(hào)(symbolic)任務(wù),EdiVal-IF使用Grounding-DINO精確檢測(cè)目標(biāo)是否真的出現(xiàn)、移動(dòng)或消失,幾乎沒有歧義。相比之下,VLM模型則容易受到幻覺(Hallucination)空間推理(Spatial Reasoning)的限制。

語(yǔ)義任務(wù)更智能。 對(duì)于“改顏色 / 改材質(zhì) / 改文字 / 換背景”等語(yǔ)義(semantic)任務(wù),EdiVal-IFVLM(Qwen-2.5-VL)對(duì)象檢測(cè)(Object Detection)相結(jié)合,先定位,再推理,讓模型真正做到“對(duì)著圖回答問(wèn)題”。

結(jié)果表明,這種檢測(cè) + 推理融合的方式,比單純讓大模型“看圖說(shuō)話”更加穩(wěn)定、可靠。

誰(shuí)才是最強(qiáng)圖像編輯模型?

在本文提出的多輪圖像編輯EdiVal-Bench上,EdiVal-Agent系統(tǒng)對(duì)比了13 個(gè)代表性模型,涵蓋閉源與開源、in-context和context-free,F(xiàn)low Matching與Diffusion等不同范式。結(jié)果如下:



其中EdiVal-IF衡量的是模型指令遵循的能力,EdiVal-CC衡量的是模型內(nèi)容一致性的能力。EdiVal-O是兩者的幾何平均值,為最終評(píng)分??梢钥吹剑?/p>

  • Seedream 4.0 在指令遵循能力上遙遙領(lǐng)先,并且在最終評(píng)分上全面超越國(guó)際閉源模型,排名第一;
  • Nano Banana在速度(Latency)與質(zhì)量上達(dá)成完美平衡,在內(nèi)容一致性上尤為出色,排名第二;
  • GPT-Image-1指令遵循能力上出色,因追求美觀(見上文)而犧牲一致性,位列第三;
  • Qwen-Image-Edit出現(xiàn)典型“曝光偏差(exposure bias)”:在編輯次數(shù)變多時(shí)越改越偏,其在開源模型中排名第一,總排名第六。

評(píng)測(cè)結(jié)果也解釋了為什么ChatGPT-4o在吉卜力風(fēng)格遷移指令遵循美化效果出圈,而Nano Banana在OOTD這些背景/物體一致性要求比較高的任務(wù)上出圈。

更多實(shí)驗(yàn)結(jié)果與詳細(xì)分析(比如關(guān)于in-context和complex editing),歡迎閱讀原文。

關(guān)于作者

論文作者成員來(lái)自UT-Austin, UCLA,Microsft GenAI 以及Lambda Inc,兩位共同一作分別是陳天鈺,張雅思。

陳天鈺,得克薩斯大學(xué)奧斯汀分校(UT-Austin)統(tǒng)計(jì)系博士生(三年級(jí)),導(dǎo)師為周名遠(yuǎn)教授。碩士畢業(yè)于芝加哥大學(xué),本科畢業(yè)于復(fù)旦大學(xué)統(tǒng)計(jì)系。研究方向涵蓋生成模型、強(qiáng)化學(xué)習(xí)、因果推斷與表示學(xué)習(xí)等,目前與Microsoft GenAI開展長(zhǎng)期合作研究。

張雅思,加州大學(xué)洛杉磯分校(UCLA)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)系博士生(四年級(jí)),師從吳英年教授與 Oscar Leong 教授。研究方向聚焦生成式人工智能、多模態(tài)學(xué)習(xí)、大模型后訓(xùn)練與計(jì)算機(jī)視覺,曾在Amazon AWS AI LabsGoogle Research從事相關(guān)研究工作。

值得一提的是,兩位共一本科均畢業(yè)于復(fù)旦大學(xué)。



陳天鈺



張雅思

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
11個(gè)月,中國(guó)貿(mào)易順差首超1萬(wàn)億美元!連美媒都感嘆:前所未有!

11個(gè)月,中國(guó)貿(mào)易順差首超1萬(wàn)億美元!連美媒都感嘆:前所未有!

王爺說(shuō)圖表
2025-12-09 21:26:09
畢節(jié)一護(hù)士長(zhǎng)被查,引發(fā)軒然大波!網(wǎng)友:產(chǎn)品采購(gòu),需護(hù)士長(zhǎng)同意

畢節(jié)一護(hù)士長(zhǎng)被查,引發(fā)軒然大波!網(wǎng)友:產(chǎn)品采購(gòu),需護(hù)士長(zhǎng)同意

火山詩(shī)話
2025-12-10 09:53:41
汕頭火災(zāi)遇難者上升到12人,更多細(xì)節(jié)曝光

汕頭火災(zāi)遇難者上升到12人,更多細(xì)節(jié)曝光

靠山屯閑話
2025-12-10 14:09:09
加入CPTPP僅僅7年,越南人均GDP即將翻倍

加入CPTPP僅僅7年,越南人均GDP即將翻倍

山間聽雨
2025-12-09 21:18:55
不堪丈夫家暴及生理期強(qiáng)行同房,“換婚”女子投毒殺夫被判無(wú)期徒刑 二審駁回上訴

不堪丈夫家暴及生理期強(qiáng)行同房,“換婚”女子投毒殺夫被判無(wú)期徒刑 二審駁回上訴

紅星新聞
2025-12-10 13:38:33
英特爾公司副總裁宋繼強(qiáng):異構(gòu)AI基礎(chǔ)設(shè)施是未來(lái)發(fā)展趨勢(shì)

英特爾公司副總裁宋繼強(qiáng):異構(gòu)AI基礎(chǔ)設(shè)施是未來(lái)發(fā)展趨勢(shì)

英才商業(yè)
2025-12-10 08:58:45
世界第一王楚欽首輪3-4爆冷出局18歲松島輝空成日本C位

世界第一王楚欽首輪3-4爆冷出局18歲松島輝空成日本C位

說(shuō)故事的阿襲
2025-12-10 12:23:31
社評(píng):正確理解中國(guó)的順差很重要

社評(píng):正確理解中國(guó)的順差很重要

環(huán)球網(wǎng)資訊
2025-12-10 01:08:40
朝鮮對(duì)三名未成年人處以極刑!

朝鮮對(duì)三名未成年人處以極刑!

扶蘇聊歷史
2025-12-10 09:57:20
上海繼續(xù)全國(guó)山姆“第一城”,第7家店將入駐浦東唐鎮(zhèn)

上海繼續(xù)全國(guó)山姆“第一城”,第7家店將入駐浦東唐鎮(zhèn)

上觀新聞
2025-12-09 22:27:04
重磅:烏克蘭摧毀俄羅斯切博克薩雷導(dǎo)彈工廠!打掉S300

重磅:烏克蘭摧毀俄羅斯切博克薩雷導(dǎo)彈工廠!打掉S300

項(xiàng)鵬飛
2025-12-09 17:40:34
中國(guó)絕美風(fēng)景外網(wǎng)爆紅卻被錯(cuò)標(biāo)成是日本,我外交官發(fā)文:這是中國(guó)江西望仙谷,親自來(lái)看看真正的中國(guó)吧

中國(guó)絕美風(fēng)景外網(wǎng)爆紅卻被錯(cuò)標(biāo)成是日本,我外交官發(fā)文:這是中國(guó)江西望仙谷,親自來(lái)看看真正的中國(guó)吧

揚(yáng)子晚報(bào)
2025-12-10 09:14:51
汕頭一自建房夜晚起火8人遇難:一樓為五金店,樓上住有多人,窗戶有防盜網(wǎng)

汕頭一自建房夜晚起火8人遇難:一樓為五金店,樓上住有多人,窗戶有防盜網(wǎng)

極目新聞
2025-12-10 11:32:09
中國(guó)留德女博士與女兒疑遭外籍丈夫殺害 死者弟弟:事發(fā)前無(wú)異常,姐姐曾計(jì)劃與丈夫回國(guó)定居

中國(guó)留德女博士與女兒疑遭外籍丈夫殺害 死者弟弟:事發(fā)前無(wú)異常,姐姐曾計(jì)劃與丈夫回國(guó)定居

紅星新聞
2025-12-09 23:16:11
租別墅造假存單雇演員扮父母,湖北小伙被騙婚案一審宣判:被告人犯詐騙罪獲刑四年半

租別墅造假存單雇演員扮父母,湖北小伙被騙婚案一審宣判:被告人犯詐騙罪獲刑四年半

瀟湘晨報(bào)
2025-12-10 12:26:22
震驚了!中山佳能有20年員工曬出630800元補(bǔ)償金,感動(dòng)到淚流滿面

震驚了!中山佳能有20年員工曬出630800元補(bǔ)償金,感動(dòng)到淚流滿面

火山詩(shī)話
2025-12-10 10:56:09
損失1000萬(wàn)!知名電競(jìng)主播被綁架后報(bào)警,遭綁匪報(bào)復(fù):裸照被曝光

損失1000萬(wàn)!知名電競(jìng)主播被綁架后報(bào)警,遭綁匪報(bào)復(fù):裸照被曝光

念洲
2025-12-10 08:03:45
不止今年,以后的錢會(huì)越來(lái)越難掙

不止今年,以后的錢會(huì)越來(lái)越難掙

經(jīng)濟(jì)學(xué)教授V
2025-12-09 18:37:02
為何中國(guó)急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

為何中國(guó)急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

西虹市閑話
2025-12-09 14:22:19
“新冠疫苗之父”落馬,榮譽(yù)清零!打過(guò)三針的網(wǎng)友慌了

“新冠疫苗之父”落馬,榮譽(yù)清零!打過(guò)三針的網(wǎng)友慌了

胡嚴(yán)亂語(yǔ)
2025-12-07 15:51:07
2025-12-10 14:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11886文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

8周生死時(shí)速,全員保日活!

頭條要聞

日軍偷襲珍珠港84年后 日美在紀(jì)念儀式大談"同盟關(guān)系"

頭條要聞

日軍偷襲珍珠港84年后 日美在紀(jì)念儀式大談"同盟關(guān)系"

體育要聞

試訓(xùn)20支球隊(duì),落選,成為NBA新秀助攻王

娛樂(lè)要聞

孫儷扛住死亡鏡頭 網(wǎng)友:嬛嬛回來(lái)了

財(cái)經(jīng)要聞

白銀史上首次站上60美元

汽車要聞

零百2.5s 純電保時(shí)捷Cayenne Turbo新車圖解

態(tài)度原創(chuàng)

房產(chǎn)
親子
教育
藝術(shù)
公開課

房產(chǎn)要聞

猛料!雅居樂(lè)清水灣超級(jí)地塊,中止拍賣!

親子要聞

胚胎質(zhì)量差是因?yàn)槭裁矗?/h3>

教育要聞

綿陽(yáng)深化中考改革:科目與總分雙調(diào)整 2027年總分降至700分

藝術(shù)要聞

40張海邊撒野照片,真是太有創(chuàng)意了!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 日韩精人妻无码一区二区三区| 不卡av中文字幕手机看| 夫妻精品在线一区| 97一期涩涩97片久久久久久久 | 熟妇人妻无码中文字幕| 亚洲熟女偷拍| 人人超碰人摸人爱| 久久婷婷一区二区| 高潮呻吟国产在线播放| 大屁股熟女白浆一区二区小说| 无敌琪琪在线观看高清版| 日本一区二区在线播放| 日产精品久久久久久久性色| 国产日本欧美在线视频一区| 2021国产精品视频网站| 九九九成人影院| 中文字幕有码在线第十页| 久久久国产99久久国产久一| 乱色精品无码一区二区国产盗| 一区在线免费| 免费 爽 视频| 欧美牲交videossexeso欧美| 91人人妻人人爱。人人操| 久久综合干| 国产gv在线| 精品av国产一区二区三区| 热久久精品免费视频| 久久人妻久久| 亚洲精品偷拍无码不卡av| 中国68XXXXXXXXX18| 国产精品国产免费无码专区不卡| а√天堂资源国产精品| 狠狠色噜噜狠狠狠狠色综合久av| 国产拍在线| 少妇人妻好深紧精品无码| 国产1990久久久久| 中国熟妇XX| 日本中文一二区有码在线| 久久99国产精品尤物| 青草影院内射中出高潮| 亚洲国产88AV色图|