網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊發(fā)布X-Omni：強(qiáng)化學(xué)習(xí)讓離散自回歸生成方法重?zé)ㄉ鷻C(jī)

2025-08-11 16:09:45　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本論文作者團(tuán)隊(duì)來自騰訊混元X組，共同一作為耿子鋼和王逸冰，項(xiàng)目Lead為張小松，通訊作者為騰訊混元團(tuán)隊(duì)杰出科學(xué)家胡瀚，Swin Transformer作者。

在圖像生成領(lǐng)域，自回歸（Autoregressive, AR）模型與擴(kuò)散（Diffusion）模型之間的技術(shù)路線之爭始終未曾停歇。大語言模型（LLM）憑借其基于「預(yù)測下一個(gè)詞元」的優(yōu)雅范式，已在文本生成領(lǐng)域奠定了不可撼動(dòng)的地位。然而，當(dāng)這一范式被應(yīng)用于視覺領(lǐng)域時(shí)，卻暴露出諸多瓶頸：生成圖像細(xì)節(jié)失真、語義理解偏差，尤其在復(fù)雜文本渲染任務(wù)中表現(xiàn)尤為乏力。目前，統(tǒng)一視覺理解和生成的主流研究工作在圖像生成部分往往采用擴(kuò)散模型來建模，使得視覺理解和生成任務(wù)依然只是松散的耦合在一起。

近日，騰訊混元團(tuán)隊(duì)的最新研究成果X-Omni 模型通過強(qiáng)化學(xué)習(xí)大幅提升了自回歸圖像生成方法的生成質(zhì)量，這一模型能生成具有較高美學(xué)品質(zhì)的圖像，同時(shí)展現(xiàn)出強(qiáng)大的遵循指令和渲染長文本圖像的能力。該模型已開源：

論文鏈接：https://arxiv.org/pdf/2507.22058
GitHub鏈接：https://github.com/X-Omni-Team/X-Omni
項(xiàng)目主頁：https://x-omni-team.github.io
Hugging Face 模型：https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982
Hugging Face Space：https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7

圖 1 對(duì)比主流閉源和開源模型的文字渲染效果

強(qiáng)化學(xué)習(xí)大幅提升

圖像生成質(zhì)量和指令遵循能力

基于離散自回歸方法監(jiān)督微調(diào)后圖像生成的質(zhì)量相對(duì)較低，表現(xiàn)為文本生成錯(cuò)誤、身體特征失真以及無法遵循復(fù)雜指令。引入強(qiáng)化學(xué)習(xí)后，生成圖像的審美質(zhì)量逐漸提高，遵循指令的能力和渲染長文本的能力穩(wěn)步提升。如圖 2 所示，經(jīng)過 200 步強(qiáng)化學(xué)習(xí)，X-Omni 模型展示了圖像生成的高質(zhì)量視覺效果、強(qiáng)大的遵循復(fù)雜指令的能力，以及準(zhǔn)確渲染中英文長文本的能力。

圖 2 經(jīng)過 200 步強(qiáng)化學(xué)習(xí)，圖像生成質(zhì)量和指令跟隨能力逐步提高

方法

整體架構(gòu)

如圖 3 所示，該框架是一個(gè)基于離散 token 的自回歸模型，其中 tokenizer 采用 SigLIP2-VQ 方法構(gòu)建，在離散 token 上運(yùn)行一個(gè)擴(kuò)散解碼器生成最終的圖像。這一設(shè)計(jì)使得圖像理解和生成統(tǒng)一在離散自回歸框架中，從而實(shí)現(xiàn)優(yōu)雅的聯(lián)合圖像理解與生成。

圖3 X-Omni 整體網(wǎng)絡(luò)架構(gòu)

GRPO 強(qiáng)化學(xué)習(xí)方法

進(jìn)行聯(lián)合圖像理解和生成的預(yù)訓(xùn)練和監(jiān)督微調(diào)后，本文繼續(xù)采用強(qiáng)化學(xué)習(xí)方法來提升圖像生成能力。強(qiáng)化學(xué)習(xí)過程的整體流程如圖 2 (a) 所示，由于采用離散自回歸的方法，可以應(yīng)用語言模型中較為成熟的 GRPO 方法來進(jìn)行強(qiáng)化學(xué)習(xí)：

獎(jiǎng)勵(lì)系統(tǒng)

我們構(gòu)建了一個(gè)綜合性的獎(jiǎng)勵(lì)模型系統(tǒng)，其包含多個(gè)專門的模型，從人類美學(xué)偏好、文本 - 圖像語義對(duì)齊以及文本渲染準(zhǔn)確性等維度來評(píng)估圖像生成質(zhì)量。最終獎(jiǎng)勵(lì)分?jǐn)?shù)通過各個(gè)獎(jiǎng)勵(lì)信號(hào)的加權(quán)融合得出。

人類偏好分?jǐn)?shù)：采用 HPSv2 模型評(píng)估人類美學(xué)偏好。該模型在多種圖像分布上均表現(xiàn)出優(yōu)異的泛化能力，能夠可靠地預(yù)測人類對(duì)生成圖像的偏好排序。
Unified Reward 分?jǐn)?shù)：引入 Unified Reward 對(duì)圖像進(jìn)行整體質(zhì)量評(píng)估。該獎(jiǎng)勵(lì)函數(shù)將多維度質(zhì)量指標(biāo)聚合為一個(gè)統(tǒng)一的分?jǐn)?shù)，為強(qiáng)化學(xué)習(xí)提供整體反饋。
文本 - 圖像語義對(duì)齊分?jǐn)?shù)：為確保輸入提示和生成圖像間的語義一致性，我們利用 Qwen2.5-VL-32B 來計(jì)算對(duì)齊獎(jiǎng)勵(lì)。借助該模型強(qiáng)大的圖像理解能力，我們?cè)u(píng)估生成圖像是否準(zhǔn)確反映了提示描述的內(nèi)容。對(duì)齊分?jǐn)?shù)量化了文本描述和視覺內(nèi)容之間的對(duì)應(yīng)關(guān)系，鼓勵(lì)生成與上下文相關(guān)的圖像，同時(shí)最大限度地減少語義幻覺。
OCR 準(zhǔn)確性分?jǐn)?shù)：文本渲染準(zhǔn)確性是文本到圖像生成中的一個(gè)關(guān)鍵挑戰(zhàn)。對(duì)于需要在圖像中生成文本的提示，我們聯(lián)合 GOT-OCR 2.0 與 PaddleOCR 對(duì)生成圖像進(jìn)行雙重 OCR 解析，計(jì)算文本渲染的準(zhǔn)確性分?jǐn)?shù)。該獎(jiǎng)勵(lì)信號(hào)為增強(qiáng)文本渲染能力提供了關(guān)鍵指導(dǎo)，使我們的模型能夠可靠地生成清晰準(zhǔn)確的文本。

實(shí)驗(yàn)結(jié)果

文本渲染能力評(píng)估：

表 1 在 OneIG-Bench 和 LongText-Bench 上與現(xiàn)有模型的比較

指令跟隨能力評(píng)估：

表2 在 DPG-Bench 上與現(xiàn)有模型的比較

表 3 在 GenEval 上與現(xiàn)有模型的比較

有意思的發(fā)現(xiàn)

不再需要分類器無關(guān)引導(dǎo)（CFG）：傳統(tǒng) AR 圖像模型嚴(yán)重依賴 CFG 來提升生成質(zhì)量，這不僅增加了推理開銷，也反映了模型自身生成分布的偏差。X-Omni 在推理時(shí)，其自回歸部分無需 CFG 即可生成高質(zhì)量圖像，這力證了其視覺與語言生成機(jī)制的高度統(tǒng)一與內(nèi)在一致性。

圖 4 主流 AR 模型對(duì) CFG 的依賴比較

RL 在圖像生成中的獨(dú)特優(yōu)勢(shì)：研究表明，在圖像生成領(lǐng)域，強(qiáng)化學(xué)習(xí)的優(yōu)化效果顯著超越了監(jiān)督微調(diào)（SFT）配合「N 選 1（Best-of-N）」的采樣策略。這揭示了 RL 在處理高維、空間依賴復(fù)雜的圖像數(shù)據(jù)時(shí)，能夠提供更全面、更高效的優(yōu)化信號(hào)。

更多例子

圖 5 更多生成圖像可視化舉例

一個(gè)更統(tǒng)一、更強(qiáng)大、更優(yōu)雅的全模態(tài)未來，正由離散自回歸圖像生成方法的復(fù)興開啟。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.