夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ImageNet分?jǐn)?shù)越高,生成反而越糊?iREPA給出解釋

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】學(xué)霸的謊言被揭穿!一篇來自Adobe Research的論文發(fā)現(xiàn),高語義理解并不會提升生成質(zhì)量,反而可能破壞空間結(jié)構(gòu)。用iREPA簡單修改,削弱全局干擾,生成質(zhì)量立即飆升 。

我們經(jīng)常會疑惑:為什么視覺模型越高級,生成效果反而越差?

最近,Adobe Research發(fā)了一篇論文,專門解釋了這個(gè)看起來有點(diǎn)反常、但反復(fù)出現(xiàn)的現(xiàn)象。


論文地址:https://arxiv.org/pdf/2512.10794

按直覺,模型要先知道「這是什么」,才能把它畫出來。

ImageNet上的分類準(zhǔn)確率越高,說明模型的語義理解越強(qiáng),生成的內(nèi)容越穩(wěn)定、越靠譜。

但這篇論文給出的結(jié)果,完全相反:

一些在識別任務(wù)中表現(xiàn)平平、甚至看起來「很不聰明」的視覺編碼器,反而能生成出結(jié)構(gòu)更清晰、質(zhì)量更高的圖像。

全局語義能力越強(qiáng),生成反而越容易出問題。

很可能我們從一開始,就誤會了生成模型真正擅長的是什么。


為什么視覺模型越「聰明」,生成的反而越差?

先看一個(gè)已經(jīng)被反復(fù)驗(yàn)證的事實(shí):一個(gè)模型在ImageNet上的線性探測準(zhǔn)確率越高,并不意味著它更適合用來做生成。

最直觀的例子是SAM2。這是一個(gè)在識別任務(wù)里不出彩的模型,驗(yàn)證準(zhǔn)確率只有24.1%,遠(yuǎn)低于主流視覺大模型。

但當(dāng)這些編碼器被用于REPA時(shí),SAM2的生成質(zhì)量反而優(yōu)于一批準(zhǔn)確率高出約60%的模型。


SAM2的ImageNet驗(yàn)證準(zhǔn)確率僅為24.1%,但在REPA框架下的生成gFID明顯優(yōu)于多種準(zhǔn)確率超過70%的視覺編碼器。

這還不是某一個(gè)模型的偶然表現(xiàn)。

論文進(jìn)一步比較了同一編碼器家族中不同規(guī)模的模型,結(jié)果發(fā)現(xiàn):模型越大、分類準(zhǔn)確率越高,生成質(zhì)量反而可能相似或更差。


隨著模型規(guī)模和分類準(zhǔn)確率提升,生成gFID反而整體變差,表明這一現(xiàn)象并非由個(gè)別模型導(dǎo)致。

顯然,「高語義能力=好生成」這條默認(rèn)路徑,在大量實(shí)驗(yàn)中并不成立 。

更關(guān)鍵的是,這種現(xiàn)象并不是噪聲。

在跨模型、跨設(shè)置的系統(tǒng)性分析中,全局語義指標(biāo)與生成質(zhì)量之間的相關(guān)性始終非常弱。


分類能力與生成質(zhì)量幾乎無關(guān),空間結(jié)構(gòu)卻高度相關(guān)。左:線性探測準(zhǔn)確率與生成 gFID 的相關(guān)性極弱(Pearson r=-0.26)。中:空間結(jié)構(gòu)指標(biāo)(LDS)與生成質(zhì)量呈現(xiàn)出顯著強(qiáng)相關(guān)(Pearson r=-0.85)。右:基于空間結(jié)構(gòu)改進(jìn)的iREPA,在多種編碼器上穩(wěn)定優(yōu)于REPA。

論文進(jìn)一步對多種視覺編碼器做了相關(guān)性分析,結(jié)果非常明確:

線性探測準(zhǔn)確率與生成質(zhì)量之間幾乎不存在相關(guān)性。

相比之下,反映patch空間結(jié)構(gòu)的指標(biāo),與生成質(zhì)量呈現(xiàn)出極強(qiáng)的正相關(guān)關(guān)系。

如果不是「懂得多」,那生成模型到底依賴的是什么?

反復(fù)確認(rèn)會壓扁空間結(jié)構(gòu)

在理解了「高語義≠好生成」之后,真正的問題變成了:

為什么模型越是反復(fù)確認(rèn),生成反而越容易出問題?

關(guān)鍵就是,全局語義會在生成過程中壓扁空間結(jié)構(gòu)。

在生成任務(wù)中,模型并不是一次性輸出圖像,而是在訓(xùn)練和采樣過程中,不斷對局部patch之間的關(guān)系做判斷。

論文將這種能力概括為「空間結(jié)構(gòu)」:即相鄰patch之間應(yīng)保持更高相似性,而遠(yuǎn)處patch不應(yīng)被全局語義過早拉近。

但當(dāng)模型過度追求全局語義一致性,比如通過CLS token ,或?qū)λ衟atch做全局平均來強(qiáng)化「這是什么」,這些局部差異就會被系統(tǒng)性地削弱。

這種做法會導(dǎo)致一個(gè)直接后果:前景物體的patch,與本應(yīng)無關(guān)的背景patch之間,出現(xiàn)異常高的相似性。

空間對比度下降,邊界變得模糊,生成結(jié)果因此糊成一片。


PE-G和WebSSL-1B在ImageNet上具有更高的分類準(zhǔn)確率,但它們的空間自相似性顯示,前景與背景被過度拉近,邊界模糊。相比之下,空間結(jié)構(gòu)更清晰的SpatialPE-B,生成質(zhì)量顯著更好。

研究員向模型中逐步加入全局語義信息,觀察分類能力和生成質(zhì)量的變化。

結(jié)果如下圖所示:


增強(qiáng)全局語義信息會損害生成質(zhì)量

隨著全局信息權(quán)重α從0增加到0.5,模型的線性探測準(zhǔn)確率持續(xù)上升。

但生成質(zhì)量卻顯著下降,F(xiàn)ID明顯惡化。

也就是說,「更懂這是什么」確實(shí)在發(fā)生;但與此同時(shí),模型也失去生成所依賴的空間結(jié)構(gòu)。

這并不是優(yōu)化不充分的副作用,而是因?yàn)槿终Z義在生成階段扮演了一個(gè)「過強(qiáng)約束」的角色。

它讓模型更快達(dá)成結(jié)論,卻也更早放棄了對局部結(jié)構(gòu)的精細(xì)刻畫。

既然語義會干擾生成,iREPA選擇退后一步

如果說前面的實(shí)驗(yàn)回答了「問題出在哪」,那 iREPA 回答的就是另一個(gè)問題:

既然全局語義會干擾生成,那該怎么對齊表示,才不會把結(jié)構(gòu)壓扁?

iREPA給出了答案。它對原本的REPA訓(xùn)練流程做了兩處非常簡單的修改,總共不到四行代碼 。

第一處,是投影方式的改變。

在標(biāo)準(zhǔn)REPA中,patch表征通常會經(jīng)過MLP投影層進(jìn)行對齊。

但論文指出,MLP在這一過程中容易混合不同位置的信息,無意中削弱了空間對比度 。

因此,iREPA用一個(gè)3×3的卷積層(padding=1)替換了MLP投影。

卷積的歸納偏置能保留局部鄰域關(guān)系:相鄰patch的相互影響被保留,遠(yuǎn)處區(qū)域則不會被過早混在一起 。

第二處修改,直接針對全局語義。

iREPA在對齊過程中引入了一個(gè)空間歸一化層,移除了patch特征中的全局均值分量 ,讓模型專注于局部之間的差異與邊界。


iREPA如何通過兩處修改,恢復(fù)生成所需的空間結(jié)構(gòu)。 (a) 使用卷積投影替代MLP,可更好地保留局部空間關(guān)系。 (b) 空間歸一化層通過移除全局分量,提高patch之間的空間對比度。 (c) 經(jīng)過這兩步修改后,iREPA生成的diffusion特征呈現(xiàn)出更清晰的空間結(jié)構(gòu)。

正是這兩點(diǎn)改動(dòng),讓iREPA在機(jī)制上與前一節(jié)的問題形成了嚴(yán)格對應(yīng):

全局語義太強(qiáng)會抹平結(jié)構(gòu),那就在對齊階段削弱全局分量、強(qiáng)化空間關(guān)系 。

結(jié)果也在意料之中。

無論是在ImageNet規(guī)模的生成任務(wù),還是更高分辨率的設(shè)置,亦或是文本到圖像的多模態(tài)生成任務(wù)中,iREPA都表現(xiàn)出更快的收斂速度和更好的最終生成質(zhì)量。

更重要的是,這種提升并不依賴于某一個(gè)特定編碼器。

在不同模型規(guī)模、不同視覺骨干網(wǎng)絡(luò)、不同訓(xùn)練設(shè)置下,iREPA都能穩(wěn)定改進(jìn)。

這不僅是一個(gè)技巧,而是順著生成任務(wù)本身對結(jié)構(gòu)的需求,把表示對齊這件事做得更克制、更精細(xì)。

很多時(shí)候,我們討論生成模型時(shí),會下意識沿用一個(gè)標(biāo)準(zhǔn)。

但這篇論文提醒了我們,生成并不是理解的自然下游。

對生成來說,最重要的并不是「這是什么」,而是「哪些地方該靠近,哪些地方該分開」。

當(dāng)我們一味強(qiáng)化全局語義,反復(fù)催促模型給出答案,其實(shí)是在替它提前下結(jié)論。

iREPA并沒有試圖讓模型變得更聰明。它做的更像是退后一步,把空間還給空間,把結(jié)構(gòu)還給結(jié)構(gòu)。

結(jié)果不是理解能力的飛躍,而是生成質(zhì)量的回歸。

參考資料:

https://x.com/1jaskiratsingh/status/2000701128431034736?s=20

https://end2end-diffusion.github.io/irepa/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為何大興機(jī)場兒化音指示牌全網(wǎng)爆紅?現(xiàn)場曝光引熱議

為何大興機(jī)場兒化音指示牌全網(wǎng)爆紅?現(xiàn)場曝光引熱議

阿萊美食匯
2025-12-22 00:56:09
大補(bǔ)的魚,不是帶魚和鯽魚,而是這3種魚,常吃補(bǔ)腦又強(qiáng)免疫!

大補(bǔ)的魚,不是帶魚和鯽魚,而是這3種魚,常吃補(bǔ)腦又強(qiáng)免疫!

花小廚
2025-11-04 11:43:52
我?guī)Я藳]人要的實(shí)習(xí)生三個(gè)月,她走那天,遞給我一張名片

我?guī)Я藳]人要的實(shí)習(xí)生三個(gè)月,她走那天,遞給我一張名片

故事那點(diǎn)事
2025-12-13 13:10:08
陜西女老師事件持續(xù)發(fā)酵,知情人揭露:抽煙穿吊帶,還有多位男友

陜西女老師事件持續(xù)發(fā)酵,知情人揭露:抽煙穿吊帶,還有多位男友

妍妍教育日記
2025-12-22 20:29:42
笑了!馬斯克轉(zhuǎn)發(fā)王力宏視頻后,幾小時(shí)1900萬播放量,結(jié)果卻慘了

笑了!馬斯克轉(zhuǎn)發(fā)王力宏視頻后,幾小時(shí)1900萬播放量,結(jié)果卻慘了

消失的電波
2025-12-21 12:12:22
晚年的蔣介石有過和平回歸的想法,毛主席給出承諾,屆時(shí)可由蔣經(jīng)國出任臺灣省的行政負(fù)責(zé)人

晚年的蔣介石有過和平回歸的想法,毛主席給出承諾,屆時(shí)可由蔣經(jīng)國出任臺灣省的行政負(fù)責(zé)人

史海殘?jiān)?/span>
2025-12-22 11:00:14
CBA瘋狂一夜!前總冠軍51分慘敗,最新排名亂了:2隊(duì)全勝+3隊(duì)全敗

CBA瘋狂一夜!前總冠軍51分慘敗,最新排名亂了:2隊(duì)全勝+3隊(duì)全敗

侃球熊弟
2025-12-22 23:24:25
福建福州一轎車逆行致多人被撞受傷,警方:排除惡性案件,事故原因正在調(diào)查中

福建福州一轎車逆行致多人被撞受傷,警方:排除惡性案件,事故原因正在調(diào)查中

三湘都市報(bào)
2025-12-22 15:25:02
中國稀土磁鐵公司,繞開國內(nèi)管制,向西方繼續(xù)出口產(chǎn)品

中國稀土磁鐵公司,繞開國內(nèi)管制,向西方繼續(xù)出口產(chǎn)品

南權(quán)先生
2025-12-13 16:48:30
中國農(nóng)歷有多厲害?王蒙:世界上沒有任何歷法同時(shí)知道太陽和月亮

中國農(nóng)歷有多厲害?王蒙:世界上沒有任何歷法同時(shí)知道太陽和月亮

芳芳?xì)v史燴
2025-12-08 19:17:49
母女采蘑菇遭男子持刀搶劫,重1.79公斤、價(jià)值143元的白花臉蘑菇被搶走!法院:判刑3年

母女采蘑菇遭男子持刀搶劫,重1.79公斤、價(jià)值143元的白花臉蘑菇被搶走!法院:判刑3年

揚(yáng)子晚報(bào)
2025-12-22 12:09:30
中國拒絕美國要求,繼續(xù)買委內(nèi)瑞拉石油:美軍突襲,搶走中國石油

中國拒絕美國要求,繼續(xù)買委內(nèi)瑞拉石油:美軍突襲,搶走中國石油

離離言幾許
2025-12-22 10:06:55
美媒公布世界火箭炮排名,中國獨(dú)占前三,PHL-191遠(yuǎn)火問鼎冠軍

美媒公布世界火箭炮排名,中國獨(dú)占前三,PHL-191遠(yuǎn)火問鼎冠軍

樂天閑聊
2025-12-19 14:01:53
東風(fēng)、華為全新品牌“奕境”首臺樣車下線 2026年北京車展亮相

東風(fēng)、華為全新品牌“奕境”首臺樣車下線 2026年北京車展亮相

中國經(jīng)營報(bào)
2025-12-22 22:59:33
這就是命?戎馬一生孫興慜僅1冠,24歲“新一哥”卻已有11冠在握

這就是命?戎馬一生孫興慜僅1冠,24歲“新一哥”卻已有11冠在握

里芃芃體育
2025-12-22 03:00:03
雷軍高調(diào)宣布,小米YU7獲“五星健康車”認(rèn)證,遙遙領(lǐng)先

雷軍高調(diào)宣布,小米YU7獲“五星健康車”認(rèn)證,遙遙領(lǐng)先

胡嚴(yán)亂語
2025-12-20 16:16:55
剛剛!日本,救市了!

剛剛!日本,救市了!

中國基金報(bào)
2025-12-22 22:55:05
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

展望云霄
2025-11-29 13:56:58
盧偉冰公布小米17 Ultra真機(jī):首次直屏直邊、8.29mm史上最薄

盧偉冰公布小米17 Ultra真機(jī):首次直屏直邊、8.29mm史上最薄

快科技
2025-12-23 00:24:10
被謝賢養(yǎng)了12年,用青春換來兩千萬的coco,已經(jīng)走上了另一條道路

被謝賢養(yǎng)了12年,用青春換來兩千萬的coco,已經(jīng)走上了另一條道路

墨印齋
2025-12-04 19:46:02
2025-12-23 01:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14161文章數(shù) 66395關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

北約秘書長:向?yàn)蹩颂m駐軍細(xì)節(jié)正在加緊制定中

頭條要聞

北約秘書長:向?yàn)蹩颂m駐軍細(xì)節(jié)正在加緊制定中

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財(cái)經(jīng)要聞

央行信用新政:為失信者提供"糾錯(cuò)"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

時(shí)尚
教育
旅游
藝術(shù)
手機(jī)

珍珠配美人,最老派也最高級的時(shí)髦

教育要聞

高二英語成績120分左右,看英文原版小說是大坑,和提分南轅北轍

旅游要聞

一箭穿古今 四川內(nèi)江美食街“變身”步行街重燃市井煙火

藝術(shù)要聞

萬年松樹開花,震驚你的雙眼!

手機(jī)要聞

三星Galaxy S26或2月發(fā),明年還有闊折疊

無障礙瀏覽 進(jìn)入關(guān)懷版 久久综合视频网站| 无码不卡中文| 一级毛片在线播放| 亚洲乱码在线卡一卡二卡新区豆瓣| AV熟女一区二区三区| 性欧美大战久久久久久久久| 狠狠cao欧美XXXx| 伊人成色综合人夜夜久久| 99久久精品久久久久久久| 精品成人佐山爱一区二区| 国产日产韩国精品视频,| 果冻传媒AV毛片无码| 亚洲欧洲女优在线| 麻豆精品久久久久久中文字幕无码| 人成午夜高潮免费手机视频| 色狠狠一区二区三区| 精品刮子伦一区二区三区电影| 视频一区视频二区视频三| 国产95在线 | 亚洲| 四虎国产精品永久在线网址| 欧美黄色操逼网站| 69XX老熟女| 97无码精品人妻一区二区| 爽爽爽爽爽爽的免费视频| 亚洲av免费成人精品区| 97在线观看在线观看| 亚洲精品麻豆| 天天躁日日躁狠狠躁av| 无码人妻丝袜在线视频| 香港少妇xxxxxxx猛烈| 久久久亚洲大象成人二三四线路片 | 欧美成人免费看片一区| 。亚洲精品一二三四五六区| 自慰在线观看| 日本久久免费| 国产色无码精品视频国产| 国产精品影院农村妇女| 九九视频在线观看视频6 | 无码人妻少妇精品无码专区漫画| 亚洲欧美自拍一区| 欧美成人VA免费大片视频|