智源開源EditScore：為圖像編輯解鎖在線強(qiáng)化學(xué)習(xí)的無限可能

2025-10-22 16:42:47　來源: 機(jī)器之心Pro

北京舉報

分享至

隨著多模態(tài)大模型的不斷演進(jìn)，指令引導(dǎo)的圖像編輯（Instruction-guided Image Editing）技術(shù)取得了顯著進(jìn)展。然而，現(xiàn)有模型在遵循復(fù)雜、精細(xì)的文本指令方面仍面臨巨大挑戰(zhàn)，往往需要用戶進(jìn)行多次嘗試和手動篩選，難以實(shí)現(xiàn)穩(wěn)定、高質(zhì)量的「一步到位」式編輯。

強(qiáng)化學(xué)習(xí)（RL）為模型實(shí)現(xiàn)自我演進(jìn)、提升指令遵循能力提供了一條極具潛力的路徑。但其在圖像編輯領(lǐng)域的應(yīng)用，長期以來受限于一個核心瓶頸：缺乏一個能夠精確評估編輯質(zhì)量并提供高保真度反饋的獎勵模型（Reward Model）。沒有可靠的「獎勵信號」，模型便無法有效判斷自身生成結(jié)果的優(yōu)劣，從而難以實(shí)現(xiàn)高效的自我優(yōu)化。

為攻克這一難題，北京智源人工智能研究院 VectorSpace Lab 團(tuán)隊近日發(fā)布了全新的高保真獎勵模型系列——EditScore。該工作直面上述挑戰(zhàn)，旨在為指令引導(dǎo)的圖像編輯任務(wù)提供精確、可靠的獎勵信號，從而為強(qiáng)化學(xué)習(xí)在 AIGC 領(lǐng)域的深入應(yīng)用鋪平道路，真正解鎖其強(qiáng)大潛力。

EditScore 是智源在成功推出統(tǒng)一圖像生成模型 OmniGen 系列之后，對更通用、更可控的生成式 AI 的又一重要探索。為了促進(jìn)未來在獎勵建模、策略優(yōu)化和??智能驅(qū)動的模型改進(jìn)等領(lǐng)域的研究，EditScore 模型系列和 EditReward-Bench 數(shù)據(jù)集現(xiàn)已全?開源。同時，經(jīng)過強(qiáng)化學(xué)習(xí)微調(diào)的 OmniGen2-EditScore7B 模型也已同步開放。

團(tuán)隊表示，后續(xù)將陸續(xù)發(fā)布應(yīng)?于 OmniGen2 的強(qiáng)化學(xué)習(xí)訓(xùn)練代碼，以及針對 OmniGen2、Flux-dev-Kontext 和 Qwen-Image-Edit 的 Best-of-N 推理腳本，歡迎社區(qū)持續(xù)關(guān)注。

論?鏈接: https://arxiv.org/abs/2509.23909
EditScore GitHub: https://github.com/VectorSpaceLab/EditScore
EditScore 模型權(quán)重：https://huggingface.co/collections/EditScore/editscore-68d8e27ee676981221db3cfe
EditReward-Bench 評測基準(zhǔn)：https://huggingface.co/datasets/EditScore/EditReward-Bench
RL 微調(diào)后的編輯模型 (OmniGen2-EditScore7B): https://huggingface.co/OmniGen2/OmniGen2-EditScore7B

從評估到賦能：EditScore 的系統(tǒng)化解決方案

為了克服圖像編輯領(lǐng)域缺乏高質(zhì)量獎勵信號的障礙，EditScore 團(tuán)隊提出了一套系統(tǒng)的兩步解決方案。

第?步：建?嚴(yán)謹(jǐn)?shù)脑u估標(biāo)準(zhǔn)

?欲善其事，必先利其器。為了能夠直接、可靠地評估圖像編輯獎勵模型的質(zhì)量，團(tuán)隊?先構(gòu)建并開源了EditReward-Bench，這是業(yè)界?個專?為評估圖像編輯獎勵模型?設(shè)計的公開基準(zhǔn)，涵蓋了 13 個不同的?任務(wù)和 11 個當(dāng)前最先進(jìn)的編輯模型（包括閉源模型），并包含了專家級的??標(biāo)注，為衡量獎勵信號的質(zhì)量建?了??標(biāo)準(zhǔn)。

第?步：開發(fā)強(qiáng)?的多功能?具

在 EditReward-Bench 的指引下，團(tuán)隊精?策劃數(shù)據(jù)并進(jìn)?訓(xùn)練，最終成功開發(fā)出 EditScore 系列模型（分為 7B、32B、72B 三個尺?）。這?系列模型是專為指令圖像編輯任務(wù)設(shè)計的?保真獎勵模型，旨在提供?通?視覺語?模型（VLM）更精確的反饋信號。

EditReward-Bench 上的基準(zhǔn)測試結(jié)果，顯示了 EditScore 相較于其他模型的優(yōu)越性

核心亮點(diǎn)：

頂尖性能：EditScore 在 EditReward-Bench 上的表現(xiàn)媲美甚?超越了頂級的閉源視覺語?模型。通過?種有效的?集成策略（self-ensembling），其最?規(guī)模的模型甚?在準(zhǔn)確性上超過了 GPT-5。
可靠的評估標(biāo)準(zhǔn)：團(tuán)隊推出的 EditReward-Bench 是?個專??于評估圖像編輯領(lǐng)域獎勵模型的公開基準(zhǔn)。
簡潔易?：開發(fā)者只需??代碼，即可輕松地為圖像編輯結(jié)果獲得?個準(zhǔn)確的質(zhì)量評分。
應(yīng)??泛：EditScore 不僅可以作為?流的重排序器（reranker）來優(yōu)化編輯輸出，還可以作為?保真獎勵信號，賦能穩(wěn)定?效的 RL 微調(diào)。

實(shí)踐出真知：EditScore 的兩?應(yīng)?場景

EditScore 的實(shí)?價值在兩個關(guān)鍵應(yīng)?中得到了充分驗(yàn)證：

作為最先進(jìn)的重排序器：通過「優(yōu)中選優(yōu)」（Best-of-N）的?式，EditScore 能夠即時提升多種主流編輯模型的輸出質(zhì)量。
作為強(qiáng)化學(xué)習(xí)的?保真獎勵：當(dāng)通?視覺語?模型在強(qiáng)化學(xué)習(xí)訓(xùn)練中束??策時，EditScore 能夠提供穩(wěn)定且?質(zhì)量的獎勵信號，成功解鎖了在線強(qiáng)化學(xué)習(xí)在圖像編輯領(lǐng)域的應(yīng)?，并帶來了顯著的性能提升。團(tuán)隊的實(shí)驗(yàn)表明，將 EditScore-7B 應(yīng)?于 OmniGen2 模型的 Flow-GRPO 微調(diào)后，OmniGen2 在 GEdit 基準(zhǔn)上的得分從 6.28 提升? 6.83。

EditScore 作為圖像編輯的卓越獎勵信號，能夠精確區(qū)分編輯質(zhì)量的好壞。

將 EditScore 作為強(qiáng)化學(xué)習(xí)獎勵模型應(yīng)用于 OmniGen2 的視覺結(jié)果對比

探索與發(fā)現(xiàn)：模型背后的深刻洞?

在研究過程中，團(tuán)隊還獲得了?些有趣的洞?：

?分 ≠ 好教練？獎勵模型的打分準(zhǔn)確性并?決定強(qiáng)化學(xué)習(xí)訓(xùn)練效果的唯?因素。?個優(yōu)秀的「AI 教練」不僅需要打分精準(zhǔn)，其輸出分?jǐn)?shù)的分布形態(tài)也?關(guān)重要。例如，獎勵模型打分的?差就可能會影響強(qiáng)化學(xué)習(xí)的效果。

GPT-4.1 系列獎勵模型憑借更優(yōu)的輸出分布特性，能夠更有效地指導(dǎo)強(qiáng)化學(xué)習(xí)優(yōu)化

巧妙的「集成」策略：對于?成式獎勵模型，通過多次推理取均值的?集成擴(kuò)展策略（Self-Ensemble Scaling），在提升性能??的效果可能優(yōu)于單純地擴(kuò)?模型參數(shù)量。這意味著，?個精?設(shè)計的 7B 模型，通過此策略可能在特定任務(wù)上達(dá)到甚?超越更?模型的性能。

EditScore 持續(xù)的從參數(shù)拓展和測試時計算拓展（Self-ensemble）中獲得性能增益

結(jié)語

智能的成長離不開自我評估與持續(xù)進(jìn)化。EditScore 讓模型具備了「自我審視」與「自我進(jìn)化」的能力，為提升 AIGC 的可控性與可靠性打開了新的可能。

智源研究團(tuán)隊表示，將持續(xù)深入獎勵建模研究，「我們很高興將EditScore、EditReward-Bench 、OmniGen2-EditScore7B以及所有的研究發(fā)現(xiàn)開源，希望能為業(yè)界帶來新的啟發(fā)，期待與社區(qū)共同探索，讓 AIGC 模型變得更智能、更可控、更可靠，在更多領(lǐng)域釋放創(chuàng)造的力量」。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.