夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RAE終極形態(tài)?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

0
分享至



本文作者來自北京大學(xué)和阿里通義萬相實(shí)驗(yàn)室。其中論文第一作者是湯昊,北京大學(xué) 2022 級博士生,發(fā)表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要關(guān)注統(tǒng)一的多模態(tài)理解和生成。指導(dǎo)教授是王立威老師,北京大學(xué)智能學(xué)院教授,曾獲 NeurIPS 2024 和 ICLR 2023 最佳論文獎。

統(tǒng)一多模態(tài)模型要求視覺表征必須兼顧語義(理解)和細(xì)節(jié)(生成 / 編輯)。早期 VAE 因語義不足而理解受限。近期基于 CLIP 的統(tǒng)一編碼器,面臨理解與重建的權(quán)衡:直接量化 CLIP 特征會損害理解性能;而為凍結(jié)的 CLIP 訓(xùn)練解碼器,又因特征細(xì)節(jié)缺失而無法精確重建。例如,RAE 使用凍結(jié)的 DINOv2 重建,PSNR 僅 19.23。



為解決這一核心矛盾,UniLIP 提出創(chuàng)新的 CLIP 微調(diào)框架,通過兩階段重建訓(xùn)練與自蒸餾損失,在不損失模型原有理解性能的同時,實(shí)現(xiàn)了卓越的圖像重建能力。UniLIP 可直接替換 MLLM(如 InternVL)中的原有 CLIP 模塊(如 InternViT),并保持甚至略微提升其理解性能

不同于 RAE 僅在 ImageNet 上進(jìn)行了實(shí)驗(yàn),UniLIP 進(jìn)行了大規(guī)模的生成和編輯訓(xùn)練。UniLIP 僅用1B 和 3B 參數(shù)的模型,便在GenEval (0.90)、WISE (0.63) 和 ImgEdit (3.94)等多個基準(zhǔn)上取得了 SOTA 性能,媲美甚至超越了更大規(guī)模的模型。



  • 論文鏈接:https://www.arxiv.org/pdf/2507.23278
  • 開源代碼:https://github.com/nnnth/UniLIP
  • 開源模型:https://huggingface.co/kanashi6/UniLIP-3B

方法細(xì)節(jié)



CLIP 無損適應(yīng)圖像重建

為解決 CLIP 特征因細(xì)節(jié)缺失導(dǎo)致的重建模糊問題,UniLIP 提出了一種創(chuàng)新的兩階段訓(xùn)練方案,旨在增強(qiáng)其像素級重建能力,同時不損害其卓越的語義理解力。該方案基于一個包含 CLIP、像素解碼器及投影層的自編碼器架構(gòu)。

第一階段:解碼器對齊。 此階段凍結(jié) CLIP,僅訓(xùn)練像素解碼器和投影層,使其學(xué)習(xí)從固定的 CLIP 特征中重建圖像。訓(xùn)練目標(biāo)為:



第二階段:自蒸餾微調(diào)。 由于原始 CLIP 特征缺乏像素細(xì)節(jié),第一階段的重建質(zhì)量受限。因此,此階段將共同訓(xùn)練 CLIP,并通過自蒸餾方法約束其特征,防止其偏離原始分布,從而在注入細(xì)節(jié)的同時保留語義。訓(xùn)練目標(biāo)為:





通過此方案,UniLIP 克服了語義理解與像素重建的內(nèi)在權(quán)衡,其理解能力甚至在部分基準(zhǔn)上得到增強(qiáng)(見下表)。對于生成與編輯任務(wù),UnLIP 特征帶來了三大優(yōu)勢:

(1)高保真壓縮:實(shí)現(xiàn) 32 倍圖像壓縮,并能通過輕量級解碼器高質(zhì)量恢復(fù)。

(2)強(qiáng)文本對齊:繼承 CLIP 的對齊能力,確保對文本指令的精準(zhǔn)響應(yīng)。

(3)完備特征表示:同時編碼高級語義與像素細(xì)節(jié),為高保真編輯提供完整信息。



用于圖像生成和編輯的雙條件架構(gòu)



UniLIP 借鑒了 MetaQuery 范式,但突破了其在圖像編輯任務(wù)中的信息瓶頸。傳統(tǒng)方法僅用固定數(shù)量的查詢嵌入(Query Embeddings)連接 MLLM 與擴(kuò)散模型,這在傳遞參考圖像豐富的像素級細(xì)節(jié)時力不從心,常導(dǎo)致編輯結(jié)果細(xì)節(jié)退化或內(nèi)容不一致。

為此,UniLIP 提出了一種雙條件架構(gòu)。該架構(gòu)在查詢嵌入之外,額外引入 MLLM 的多模態(tài)隱藏狀態(tài)作為第二個條件,共同引導(dǎo) DiT 的交叉注意力模塊。這有效地補(bǔ)充了缺失的像素級信息。這種設(shè)計(jì)成功地將復(fù)雜任務(wù)解耦:MLLM 專注于高級推理和意圖理解,DiT 則基于這套無損傳遞的、兼具高級語義與底層細(xì)節(jié)的豐富線索,進(jìn)行高保真度的圖像合成。最終,UniLIP 在圖像生成與編輯任務(wù)上均實(shí)現(xiàn)了卓越性能。

實(shí)驗(yàn)結(jié)果

模型架構(gòu)

UniLIP 包括 1B 和 3B 兩個模型變體,它們分別由 InternVL3 (1B/2B) 與 SANA (0.6B/1.6B) 集成而來。在架構(gòu)上,UniLIP 直接采用 InternVL3 的 InternViT 作為 CLIP 編碼器,并結(jié)合 DC-AE 的像素解碼器。連接器則設(shè)計(jì)為 6 層,結(jié)構(gòu)與 LLM 保持一致,并使用了 256 個可學(xué)習(xí)查詢。

訓(xùn)練數(shù)據(jù)

UniLIP 的生成數(shù)據(jù)來自 BLIP3-o,包括 38M 的預(yù)訓(xùn)練數(shù)據(jù)和 60k 的指令微調(diào)數(shù)據(jù)。UniLIP 的編輯預(yù)訓(xùn)練數(shù)據(jù)來自 GPT-Image-Edit-1.5M,指令微調(diào)數(shù)據(jù)來自包含 46K 編輯數(shù)據(jù)的 ShareGPT-4o-Image。

圖像重建



在 256x256 分辨率下,UniLIP 不僅超越了此前的量化方法,其更高的下采樣率也帶來了生成效率優(yōu)勢。在 448x448 分辨率下,與使用擴(kuò)散解碼器的 Emu2 相比,UniLIP 由于打開 CLIP 進(jìn)行重建訓(xùn)練取得顯著優(yōu)勢。

多模態(tài)理解



UniLIP 可以直接替換 InternVL 的視覺編碼器在理解基準(zhǔn)上進(jìn)行測試。得益于重建訓(xùn)練對原始能力的有效保持,UniLIP 實(shí)現(xiàn)了同規(guī)模最好的理解性能,并且超越了 Tar (7B) 和 VILA-U (7B) 等采用量化 CLIP 特征的更大模型。

圖像生成



在 GenEval (0.90) 和 WISE (0.63) 圖像生成基準(zhǔn)上,UniLIP 憑借卓越的文圖對齊能力,不僅超越了同規(guī)模模型,還達(dá)到了與 BAGEL 等更大模型相當(dāng)?shù)乃健?/p>

圖像編輯



在 ImgEdit-Bench 圖像編輯基準(zhǔn)上,UniLIP 以 3.94 的高分超越了 OmniGen2 等先進(jìn)模型。其強(qiáng)大性能歸功于 UniLIP 特征的豐富細(xì)節(jié)與精準(zhǔn)語義對齊能力。UniLIP 創(chuàng)新的雙條件架構(gòu)充分利用了這些特征,確保了編輯的精確性和非編輯區(qū)的一致性。

可視化結(jié)果



在生成任務(wù)中,UniLIP 可以生成美觀且嚴(yán)格遵循用戶提示的圖像;而在編輯任務(wù)中,UniLIP 可以在準(zhǔn)確修改圖像的同時保持周圍區(qū)域的一致性。

結(jié)論

通過精心設(shè)計(jì)的兩階段訓(xùn)練與自蒸餾約束,UniLIP 有效解決了語義理解與像素細(xì)節(jié)保留的矛盾。此外,其創(chuàng)新的雙條件架構(gòu)無縫連接了 MLLM 與擴(kuò)散模型,確保了生成和編輯任務(wù)中的高保真度與一致性。UniLIP 在多個基準(zhǔn)上展示的卓越性能,為下一代統(tǒng)一多模態(tài)模型提供了新的范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
出賣1000多名同志,卻活到74歲的蔡孝乾,為何至今沒有被清算?

出賣1000多名同志,卻活到74歲的蔡孝乾,為何至今沒有被清算?

報(bào)君知史
2025-10-20 11:19:06
高三生被惡意撞傷身亡,肇事者是鄰居

高三生被惡意撞傷身亡,肇事者是鄰居

中國新聞周刊
2025-11-03 20:38:11
斯諾克賽程:決出8強(qiáng),4場冠軍對決,2虎PK,丁俊暉趙心童會師?

斯諾克賽程:決出8強(qiáng),4場冠軍對決,2虎PK,丁俊暉趙心童會師?

劉姚堯的文字城堡
2025-11-05 08:07:16
來得真快,安世第二波報(bào)復(fù)開始,荷蘭已切斷供應(yīng),中方以1挑27國

來得真快,安世第二波報(bào)復(fù)開始,荷蘭已切斷供應(yīng),中方以1挑27國

南宮一二
2025-11-05 10:46:48
中央公布重要文件,2026年養(yǎng)老金有望調(diào)整,如何調(diào)整哪些人能多漲

中央公布重要文件,2026年養(yǎng)老金有望調(diào)整,如何調(diào)整哪些人能多漲

社保小達(dá)人
2025-11-05 11:40:03
(周運(yùn))吉特一周星座運(yùn)勢11.3-11.9

(周運(yùn))吉特一周星座運(yùn)勢11.3-11.9

星譯社
2025-11-05 12:24:27
貍花貓用飲水機(jī)給自己兌涼水喝,主人:這個直飲機(jī)甚至有童鎖,它看我們用就學(xué)會了

貍花貓用飲水機(jī)給自己兌涼水喝,主人:這個直飲機(jī)甚至有童鎖,它看我們用就學(xué)會了

觀威海
2025-11-04 08:54:06
蔡磊已確診晚期!拒見老婆孩子,3名阿姨伺候,用針管喝水都勉強(qiáng)

蔡磊已確診晚期!拒見老婆孩子,3名阿姨伺候,用針管喝水都勉強(qiáng)

來科點(diǎn)譜
2025-11-01 09:26:41
東體預(yù)測申花首發(fā):阿蘇埃和米內(nèi)羅搭檔鋒線,鮑亞雄繼續(xù)出戰(zhàn)

東體預(yù)測申花首發(fā):阿蘇埃和米內(nèi)羅搭檔鋒線,鮑亞雄繼續(xù)出戰(zhàn)

懂球帝
2025-11-05 13:31:04
日本穆斯林人數(shù)十年翻倍,日本女性嫁穆斯林而改宗

日本穆斯林人數(shù)十年翻倍,日本女性嫁穆斯林而改宗

桂系007
2025-09-02 10:12:24
太詫異了!小霖霖居然幫張?zhí)m懟黑粉,這孩子才八歲,情商智商真高

太詫異了!小霖霖居然幫張?zhí)m懟黑粉,這孩子才八歲,情商智商真高

樂悠悠娛樂
2025-11-05 09:58:03
特里:曼聯(lián)居然沒有競爭就簽下了 拉門斯,其他球隊(duì)在打瞌睡

特里:曼聯(lián)居然沒有競爭就簽下了 拉門斯,其他球隊(duì)在打瞌睡

懂球帝
2025-11-04 20:53:05
2節(jié)打卡下班!勇士戰(zhàn)太陽,庫里還沒發(fā)力,波斯特+穆迪6記3分打花

2節(jié)打卡下班!勇士戰(zhàn)太陽,庫里還沒發(fā)力,波斯特+穆迪6記3分打花

安???/span>
2025-11-05 11:58:25
廣東一校花身高172cm,仙姿玉色,花容月貌,美得讓人移不開眼

廣東一?;ㄉ砀?72cm,仙姿玉色,花容月貌,美得讓人移不開眼

TVB的四小花
2025-11-05 07:53:36
中國科學(xué)院研究生吳文琪確診癌癥,專業(yè)成績第二保送,常熬夜學(xué)習(xí)

中國科學(xué)院研究生吳文琪確診癌癥,專業(yè)成績第二保送,常熬夜學(xué)習(xí)

180視角
2025-11-04 12:28:20
北青:王鈺棟等人打完全運(yùn)會第一時間去U22,可能缺席踢越南

北青:王鈺棟等人打完全運(yùn)會第一時間去U22,可能缺席踢越南

懂球帝
2025-11-05 12:57:41
《澎湖海戰(zhàn)》的假設(shè):若臺灣被荷蘭殖民者占據(jù),康熙會收復(fù)臺灣嗎

《澎湖海戰(zhàn)》的假設(shè):若臺灣被荷蘭殖民者占據(jù),康熙會收復(fù)臺灣嗎

七彩論世
2025-11-05 06:14:12
勇士118-107終結(jié)2連敗,誰是本場取勝最大功臣,數(shù)據(jù)一目了然

勇士118-107終結(jié)2連敗,誰是本場取勝最大功臣,數(shù)據(jù)一目了然

體壇小李
2025-11-05 13:48:36
吳石女兒吳學(xué)成,不愧是將門虎女,三重逆襲半世守魂苦難熬成榮耀

吳石女兒吳學(xué)成,不愧是將門虎女,三重逆襲半世守魂苦難熬成榮耀

阿釗是個小小評論員
2025-11-03 02:33:45
現(xiàn)貨黃金突破3970美元/盎司,日內(nèi)漲超1%

現(xiàn)貨黃金突破3970美元/盎司,日內(nèi)漲超1%

每日經(jīng)濟(jì)新聞
2025-11-05 12:53:07
2025-11-05 14:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11651文章數(shù) 142497關(guān)注度
往期回顧 全部

科技要聞

馬斯克萬億美元薪酬投票在即,大股東反對

頭條要聞

牛彈琴:美國上演極致"流氓外交" 讓西方媒體目瞪口呆

頭條要聞

牛彈琴:美國上演極致"流氓外交" 讓西方媒體目瞪口呆

體育要聞

開拓者的11號簽,變成了灰熊未來核心?

娛樂要聞

王家衛(wèi)事件再次升級,可憐了這些明星

財(cái)經(jīng)要聞

中方官宣!對美關(guān)稅,調(diào)整!

汽車要聞

首家"A+H"豪華新能源車企 賽力斯登陸港交所主板

態(tài)度原創(chuàng)

游戲
健康
教育
藝術(shù)
時尚

登錄送限定5星!《星穹鐵道》超燃大決戰(zhàn)今日開啟

超聲探頭會加重受傷情況嗎?

教育要聞

中考語文命題病歷:第14例|2025年北京卷默寫——診斷:刁難學(xué)生

藝術(shù)要聞

56億!381米!南寧第二高樓!網(wǎng)友:這朵“蓮花”確實(shí)霸氣!

2025羽絨服8大流行趨勢,溫暖時髦過冬天!

無障礙瀏覽 進(jìn)入關(guān)懷版 伊人AV导航| 天天综合网,日日夜夜| 久久久久久蜜臀| 欧美熟女视频| 久久精品国产亚洲AV麻| 成人无码在线视频网站| 日韩欧美中文亚洲高清在线| 亚洲av人无码激艳猛片服务器| 国产激情在观看| 蜜乳av一区二区| 亚欧洲乱码视频一二三区| 亚洲AV无码一区二区三区毛片| 日本福利一区二区精品| 农村一级AV| 福利一区二区视频在线| 色欲影综合在线观看| 一卡二卡三卡视频| 成人区AV片| 免费看性视频xnxxcom| 亚洲av无码之国产精品| 998AV视频在线| 亚洲熟妇精品一区二区三区| 久久精品国产字幕高潮| 高潮潮喷视频| 久久精品亚洲精品无码| 午夜福利久久网址| 99re这里只有| 日韩人妻无码久久精品a免费| 奇米色噜噜狠狠狠狠888| 精品国产一区二区三区av性色| 女人被狂c高潮视频| 久久人人97超碰国产亚洲人| 奇米影视7777中文字幕| 999国产精品永久免费视频精品久久 | 在线高清免费不卡全码| 亚洲宅男天堂| 色婷婷综合久久久中文字幕 | 精品深夜av无码一区二区老年| av天堂网 7| AV最新天堂资源在线| www.日韩精品|