本論文作者團(tuán)隊(duì)來自騰訊混元X組,共同一作為耿子鋼和王逸冰,項(xiàng)目Lead為張小松,通訊作者為騰訊混元團(tuán)隊(duì)杰出科學(xué)家胡瀚,Swin Transformer作者。
在圖像生成領(lǐng)域,自回歸(Autoregressive, AR)模型與擴(kuò)散(Diffusion)模型之間的技術(shù)路線之爭始終未曾停歇。大語言模型(LLM)憑借其基于「預(yù)測下一個(gè)詞元」的優(yōu)雅范式,已在文本生成領(lǐng)域奠定了不可撼動(dòng)的地位。然而,當(dāng)這一范式被應(yīng)用于視覺領(lǐng)域時(shí),卻暴露出諸多瓶頸:生成圖像細(xì)節(jié)失真、語義理解偏差,尤其在復(fù)雜文本渲染任務(wù)中表現(xiàn)尤為乏力。目前,統(tǒng)一視覺理解和生成的主流研究工作在圖像生成部分往往采用擴(kuò)散模型來建模,使得視覺理解和生成任務(wù)依然只是松散的耦合在一起。
近日,騰訊混元團(tuán)隊(duì)的最新研究成果X-Omni 模型通過強(qiáng)化學(xué)習(xí)大幅提升了自回歸圖像生成方法的生成質(zhì)量,這一模型能生成具有較高美學(xué)品質(zhì)的圖像,同時(shí)展現(xiàn)出強(qiáng)大的遵循指令和渲染長文本圖像的能力。該模型已開源:
- 論文鏈接:https://arxiv.org/pdf/2507.22058
- GitHub鏈接:https://github.com/X-Omni-Team/X-Omni
- 項(xiàng)目主頁:https://x-omni-team.github.io
- Hugging Face 模型:https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982
- Hugging Face Space:https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7
圖 1 對(duì)比主流閉源和開源模型的文字渲染效果
強(qiáng)化學(xué)習(xí)大幅提升
圖像生成質(zhì)量和指令遵循能力
基于離散自回歸方法監(jiān)督微調(diào)后圖像生成的質(zhì)量相對(duì)較低,表現(xiàn)為文本生成錯(cuò)誤、身體特征失真以及無法遵循復(fù)雜指令。引入強(qiáng)化學(xué)習(xí)后,生成圖像的審美質(zhì)量逐漸提高,遵循指令的能力和渲染長文本的能力穩(wěn)步提升。如圖 2 所示,經(jīng)過 200 步強(qiáng)化學(xué)習(xí),X-Omni 模型展示了圖像生成的高質(zhì)量視覺效果、強(qiáng)大的遵循復(fù)雜指令的能力,以及準(zhǔn)確渲染中英文長文本的能力。
圖 2 經(jīng)過 200 步強(qiáng)化學(xué)習(xí),圖像生成質(zhì)量和指令跟隨能力逐步提高
方法
整體架構(gòu)
如圖 3 所示,該框架是一個(gè)基于離散 token 的自回歸模型,其中 tokenizer 采用 SigLIP2-VQ 方法構(gòu)建,在離散 token 上運(yùn)行一個(gè)擴(kuò)散解碼器生成最終的圖像。這一設(shè)計(jì)使得圖像理解和生成統(tǒng)一在離散自回歸框架中,從而實(shí)現(xiàn)優(yōu)雅的聯(lián)合圖像理解與生成。
圖3 X-Omni 整體網(wǎng)絡(luò)架構(gòu)
GRPO 強(qiáng)化學(xué)習(xí)方法
進(jìn)行聯(lián)合圖像理解和生成的預(yù)訓(xùn)練和監(jiān)督微調(diào)后,本文繼續(xù)采用強(qiáng)化學(xué)習(xí)方法來提升圖像生成能力。強(qiáng)化學(xué)習(xí)過程的整體流程如圖 2 (a) 所示,由于采用離散自回歸的方法,可以應(yīng)用語言模型中較為成熟的 GRPO 方法來進(jìn)行強(qiáng)化學(xué)習(xí):
獎(jiǎng)勵(lì)系統(tǒng)
我們構(gòu)建了一個(gè)綜合性的獎(jiǎng)勵(lì)模型系統(tǒng),其包含多個(gè)專門的模型,從人類美學(xué)偏好、文本 - 圖像語義對(duì)齊以及文本渲染準(zhǔn)確性等維度來評(píng)估圖像生成質(zhì)量。最終獎(jiǎng)勵(lì)分?jǐn)?shù)通過各個(gè)獎(jiǎng)勵(lì)信號(hào)的加權(quán)融合得出。
- 人類偏好分?jǐn)?shù):采用 HPSv2 模型評(píng)估人類美學(xué)偏好。該模型在多種圖像分布上均表現(xiàn)出優(yōu)異的泛化能力,能夠可靠地預(yù)測人類對(duì)生成圖像的偏好排序。
- Unified Reward 分?jǐn)?shù):引入 Unified Reward 對(duì)圖像進(jìn)行整體質(zhì)量評(píng)估。該獎(jiǎng)勵(lì)函數(shù)將多維度質(zhì)量指標(biāo)聚合為一個(gè)統(tǒng)一的分?jǐn)?shù),為強(qiáng)化學(xué)習(xí)提供整體反饋。
- 文本 - 圖像語義對(duì)齊分?jǐn)?shù):為確保輸入提示和生成圖像間的語義一致性,我們利用 Qwen2.5-VL-32B 來計(jì)算對(duì)齊獎(jiǎng)勵(lì)。借助該模型強(qiáng)大的圖像理解能力,我們?cè)u(píng)估生成圖像是否準(zhǔn)確反映了提示描述的內(nèi)容。對(duì)齊分?jǐn)?shù)量化了文本描述和視覺內(nèi)容之間的對(duì)應(yīng)關(guān)系,鼓勵(lì)生成與上下文相關(guān)的圖像,同時(shí)最大限度地減少語義幻覺。
- OCR 準(zhǔn)確性分?jǐn)?shù):文本渲染準(zhǔn)確性是文本到圖像生成中的一個(gè)關(guān)鍵挑戰(zhàn)。對(duì)于需要在圖像中生成文本的提示,我們聯(lián)合 GOT-OCR 2.0 與 PaddleOCR 對(duì)生成圖像進(jìn)行雙重 OCR 解析,計(jì)算文本渲染的準(zhǔn)確性分?jǐn)?shù)。該獎(jiǎng)勵(lì)信號(hào)為增強(qiáng)文本渲染能力提供了關(guān)鍵指導(dǎo),使我們的模型能夠可靠地生成清晰準(zhǔn)確的文本。
實(shí)驗(yàn)結(jié)果
文本渲染能力評(píng)估:
表 1 在 OneIG-Bench 和 LongText-Bench 上與現(xiàn)有模型的比較
指令跟隨能力評(píng)估:
表2 在 DPG-Bench 上與現(xiàn)有模型的比較
表 3 在 GenEval 上與現(xiàn)有模型的比較
有意思的發(fā)現(xiàn)
不再需要分類器無關(guān)引導(dǎo)(CFG):傳統(tǒng) AR 圖像模型嚴(yán)重依賴 CFG 來提升生成質(zhì)量,這不僅增加了推理開銷,也反映了模型自身生成分布的偏差。X-Omni 在推理時(shí),其自回歸部分無需 CFG 即可生成高質(zhì)量圖像,這力證了其視覺與語言生成機(jī)制的高度統(tǒng)一與內(nèi)在一致性。
圖 4 主流 AR 模型對(duì) CFG 的依賴比較
RL 在圖像生成中的獨(dú)特優(yōu)勢(shì):研究表明,在圖像生成領(lǐng)域,強(qiáng)化學(xué)習(xí)的優(yōu)化效果顯著超越了監(jiān)督微調(diào)(SFT)配合「N 選 1(Best-of-N)」的采樣策略。這揭示了 RL 在處理高維、空間依賴復(fù)雜的圖像數(shù)據(jù)時(shí),能夠提供更全面、更高效的優(yōu)化信號(hào)。
更多例子
圖 5 更多生成圖像可視化舉例
一個(gè)更統(tǒng)一、更強(qiáng)大、更優(yōu)雅的全模態(tài)未來,正由離散自回歸圖像生成方法的復(fù)興開啟。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.