夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊發(fā)布X-Omni:強(qiáng)化學(xué)習(xí)讓離散自回歸生成方法重?zé)ㄉ鷻C(jī)

0
分享至



本論文作者團(tuán)隊(duì)來自騰訊混元X組,共同一作為耿子鋼和王逸冰,項(xiàng)目Lead為張小松,通訊作者為騰訊混元團(tuán)隊(duì)杰出科學(xué)家胡瀚,Swin Transformer作者。

在圖像生成領(lǐng)域,自回歸(Autoregressive, AR)模型與擴(kuò)散(Diffusion)模型之間的技術(shù)路線之爭始終未曾停歇。大語言模型(LLM)憑借其基于「預(yù)測下一個(gè)詞元」的優(yōu)雅范式,已在文本生成領(lǐng)域奠定了不可撼動(dòng)的地位。然而,當(dāng)這一范式被應(yīng)用于視覺領(lǐng)域時(shí),卻暴露出諸多瓶頸:生成圖像細(xì)節(jié)失真、語義理解偏差,尤其在復(fù)雜文本渲染任務(wù)中表現(xiàn)尤為乏力。目前,統(tǒng)一視覺理解和生成的主流研究工作在圖像生成部分往往采用擴(kuò)散模型來建模,使得視覺理解和生成任務(wù)依然只是松散的耦合在一起。

近日,騰訊混元團(tuán)隊(duì)的最新研究成果X-Omni 模型通過強(qiáng)化學(xué)習(xí)大幅提升了自回歸圖像生成方法的生成質(zhì)量,這一模型能生成具有較高美學(xué)品質(zhì)的圖像,同時(shí)展現(xiàn)出強(qiáng)大的遵循指令和渲染長文本圖像的能力。該模型已開源:



  • 論文鏈接:https://arxiv.org/pdf/2507.22058
  • GitHub鏈接:https://github.com/X-Omni-Team/X-Omni
  • 項(xiàng)目主頁:https://x-omni-team.github.io
  • Hugging Face 模型:https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982
  • Hugging Face Space:https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7



圖 1 對(duì)比主流閉源和開源模型的文字渲染效果

強(qiáng)化學(xué)習(xí)大幅提升

圖像生成質(zhì)量和指令遵循能力

基于離散自回歸方法監(jiān)督微調(diào)后圖像生成的質(zhì)量相對(duì)較低,表現(xiàn)為文本生成錯(cuò)誤、身體特征失真以及無法遵循復(fù)雜指令。引入強(qiáng)化學(xué)習(xí)后,生成圖像的審美質(zhì)量逐漸提高,遵循指令的能力和渲染長文本的能力穩(wěn)步提升。如圖 2 所示,經(jīng)過 200 步強(qiáng)化學(xué)習(xí),X-Omni 模型展示了圖像生成的高質(zhì)量視覺效果、強(qiáng)大的遵循復(fù)雜指令的能力,以及準(zhǔn)確渲染中英文長文本的能力。



圖 2 經(jīng)過 200 步強(qiáng)化學(xué)習(xí),圖像生成質(zhì)量和指令跟隨能力逐步提高

方法

整體架構(gòu)

如圖 3 所示,該框架是一個(gè)基于離散 token 的自回歸模型,其中 tokenizer 采用 SigLIP2-VQ 方法構(gòu)建,在離散 token 上運(yùn)行一個(gè)擴(kuò)散解碼器生成最終的圖像。這一設(shè)計(jì)使得圖像理解和生成統(tǒng)一在離散自回歸框架中,從而實(shí)現(xiàn)優(yōu)雅的聯(lián)合圖像理解與生成。



圖3 X-Omni 整體網(wǎng)絡(luò)架構(gòu)

GRPO 強(qiáng)化學(xué)習(xí)方法

進(jìn)行聯(lián)合圖像理解和生成的預(yù)訓(xùn)練和監(jiān)督微調(diào)后,本文繼續(xù)采用強(qiáng)化學(xué)習(xí)方法來提升圖像生成能力。強(qiáng)化學(xué)習(xí)過程的整體流程如圖 2 (a) 所示,由于采用離散自回歸的方法,可以應(yīng)用語言模型中較為成熟的 GRPO 方法來進(jìn)行強(qiáng)化學(xué)習(xí):



獎(jiǎng)勵(lì)系統(tǒng)

我們構(gòu)建了一個(gè)綜合性的獎(jiǎng)勵(lì)模型系統(tǒng),其包含多個(gè)專門的模型,從人類美學(xué)偏好、文本 - 圖像語義對(duì)齊以及文本渲染準(zhǔn)確性等維度來評(píng)估圖像生成質(zhì)量。最終獎(jiǎng)勵(lì)分?jǐn)?shù)通過各個(gè)獎(jiǎng)勵(lì)信號(hào)的加權(quán)融合得出。

  • 人類偏好分?jǐn)?shù):采用 HPSv2 模型評(píng)估人類美學(xué)偏好。該模型在多種圖像分布上均表現(xiàn)出優(yōu)異的泛化能力,能夠可靠地預(yù)測人類對(duì)生成圖像的偏好排序。
  • Unified Reward 分?jǐn)?shù):引入 Unified Reward 對(duì)圖像進(jìn)行整體質(zhì)量評(píng)估。該獎(jiǎng)勵(lì)函數(shù)將多維度質(zhì)量指標(biāo)聚合為一個(gè)統(tǒng)一的分?jǐn)?shù),為強(qiáng)化學(xué)習(xí)提供整體反饋。
  • 文本 - 圖像語義對(duì)齊分?jǐn)?shù):為確保輸入提示和生成圖像間的語義一致性,我們利用 Qwen2.5-VL-32B 來計(jì)算對(duì)齊獎(jiǎng)勵(lì)。借助該模型強(qiáng)大的圖像理解能力,我們?cè)u(píng)估生成圖像是否準(zhǔn)確反映了提示描述的內(nèi)容。對(duì)齊分?jǐn)?shù)量化了文本描述和視覺內(nèi)容之間的對(duì)應(yīng)關(guān)系,鼓勵(lì)生成與上下文相關(guān)的圖像,同時(shí)最大限度地減少語義幻覺。
  • OCR 準(zhǔn)確性分?jǐn)?shù):文本渲染準(zhǔn)確性是文本到圖像生成中的一個(gè)關(guān)鍵挑戰(zhàn)。對(duì)于需要在圖像中生成文本的提示,我們聯(lián)合 GOT-OCR 2.0 與 PaddleOCR 對(duì)生成圖像進(jìn)行雙重 OCR 解析,計(jì)算文本渲染的準(zhǔn)確性分?jǐn)?shù)。該獎(jiǎng)勵(lì)信號(hào)為增強(qiáng)文本渲染能力提供了關(guān)鍵指導(dǎo),使我們的模型能夠可靠地生成清晰準(zhǔn)確的文本。

實(shí)驗(yàn)結(jié)果

文本渲染能力評(píng)估:



表 1 在 OneIG-Bench 和 LongText-Bench 上與現(xiàn)有模型的比較

指令跟隨能力評(píng)估:



表2 在 DPG-Bench 上與現(xiàn)有模型的比較



表 3 在 GenEval 上與現(xiàn)有模型的比較

有意思的發(fā)現(xiàn)

不再需要分類器無關(guān)引導(dǎo)(CFG):傳統(tǒng) AR 圖像模型嚴(yán)重依賴 CFG 來提升生成質(zhì)量,這不僅增加了推理開銷,也反映了模型自身生成分布的偏差。X-Omni 在推理時(shí),其自回歸部分無需 CFG 即可生成高質(zhì)量圖像,這力證了其視覺與語言生成機(jī)制的高度統(tǒng)一與內(nèi)在一致性。



圖 4 主流 AR 模型對(duì) CFG 的依賴比較

RL 在圖像生成中的獨(dú)特優(yōu)勢(shì):研究表明,在圖像生成領(lǐng)域,強(qiáng)化學(xué)習(xí)的優(yōu)化效果顯著超越了監(jiān)督微調(diào)(SFT)配合「N 選 1(Best-of-N)」的采樣策略。這揭示了 RL 在處理高維、空間依賴復(fù)雜的圖像數(shù)據(jù)時(shí),能夠提供更全面、更高效的優(yōu)化信號(hào)。

更多例子





圖 5 更多生成圖像可視化舉例

一個(gè)更統(tǒng)一、更強(qiáng)大、更優(yōu)雅的全模態(tài)未來,正由離散自回歸圖像生成方法的復(fù)興開啟。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
男子因雞蛋被侄兒吃掉抱怨致妻子崩潰摔碗,女方直播說會(huì)離婚,男方發(fā)文致歉:不是劇本,同意離婚,財(cái)產(chǎn)留給女方

男子因雞蛋被侄兒吃掉抱怨致妻子崩潰摔碗,女方直播說會(huì)離婚,男方發(fā)文致歉:不是劇本,同意離婚,財(cái)產(chǎn)留給女方

極目新聞
2025-08-11 21:08:24
全球封神!蘋果新機(jī)公布:9月15日,即將上市!

全球封神!蘋果新機(jī)公布:9月15日,即將上市!

科技堡壘
2025-08-10 12:02:17
房東們,慘了

房東們,慘了

越女事務(wù)所
2025-08-11 22:03:29
廣東一家三口江西景區(qū)吃早餐,結(jié)賬時(shí)連確認(rèn)三遍仍不敢信。

廣東一家三口江西景區(qū)吃早餐,結(jié)賬時(shí)連確認(rèn)三遍仍不敢信。

奔著月亮盼你
2025-08-11 13:49:02
阿里淘寶閃購騎手新工裝曝光:印滿阿里系品牌logo,成“行走的廣告牌”!外形酷似賽車服,兼具動(dòng)感和功能性

阿里淘寶閃購騎手新工裝曝光:印滿阿里系品牌logo,成“行走的廣告牌”!外形酷似賽車服,兼具動(dòng)感和功能性

和訊網(wǎng)
2025-08-12 09:13:46
南航飛機(jī)群毆后續(xù):警方回應(yīng):女子稱絕不和解,央視等官媒發(fā)聲

南航飛機(jī)群毆后續(xù):警方回應(yīng):女子稱絕不和解,央視等官媒發(fā)聲

攬星河的筆記
2025-08-11 13:26:38
深圳一半導(dǎo)體廠關(guān)閉,950人失業(yè)!通知提及,可獲高標(biāo)準(zhǔn)經(jīng)濟(jì)補(bǔ)償

深圳一半導(dǎo)體廠關(guān)閉,950人失業(yè)!通知提及,可獲高標(biāo)準(zhǔn)經(jīng)濟(jì)補(bǔ)償

火山詩話
2025-08-12 06:51:53
菲律賓船只撞擊中國船只,中方052D驅(qū)逐艦首次開火

菲律賓船只撞擊中國船只,中方052D驅(qū)逐艦首次開火

小彭的燦爛筆記1
2025-08-11 21:36:29
大瓜!董璇打舌釘引爆熱搜!表面是賢妻良母,私底下竟然玩得那么花

大瓜!董璇打舌釘引爆熱搜!表面是賢妻良母,私底下竟然玩得那么花

扒星人
2025-08-11 20:08:08
網(wǎng)傳北京海淀婦產(chǎn)醫(yī)院發(fā)不出獎(jiǎng)金!新生兒銳減,去年已有醫(yī)生嘆“救救產(chǎn)科”

網(wǎng)傳北京海淀婦產(chǎn)醫(yī)院發(fā)不出獎(jiǎng)金!新生兒銳減,去年已有醫(yī)生嘆“救救產(chǎn)科”

互聯(lián)網(wǎng)大觀
2025-08-12 11:36:18
被張本智和炮轟1天后,王皓平靜與他握手,隨后冷臉看他脫衣慶祝

被張本智和炮轟1天后,王皓平靜與他握手,隨后冷臉看他脫衣慶祝

風(fēng)過鄉(xiāng)
2025-08-11 20:02:22
特斯拉官宣續(xù)航830公里的Model 3車型開賣

特斯拉官宣續(xù)航830公里的Model 3車型開賣

界面新聞
2025-08-12 08:25:28
英偉達(dá)說H20沒后門,玉淵潭天把芯片拆到晶體管級(jí),發(fā)現(xiàn)可疑信號(hào)

英偉達(dá)說H20沒后門,玉淵潭天把芯片拆到晶體管級(jí),發(fā)現(xiàn)可疑信號(hào)

阿傖說事
2025-08-12 10:07:54
沈陽警方:19歲男子駕車撞人被刑拘

沈陽警方:19歲男子駕車撞人被刑拘

界面新聞
2025-08-12 07:34:59
新進(jìn)展!失聯(lián)男童聽到可樂奧利奧有反應(yīng),救援隊(duì):最擔(dān)心餓暈摔昏

新進(jìn)展!失聯(lián)男童聽到可樂奧利奧有反應(yīng),救援隊(duì):最擔(dān)心餓暈摔昏

巷子里的歷史
2025-08-11 18:08:38
阿里“掃地僧”多隆已離職!

阿里“掃地僧”多隆已離職!

互聯(lián)網(wǎng)坊間八卦
2025-08-11 14:59:29
整合、優(yōu)化和提速,百年長安迎來關(guān)鍵一躍

整合、優(yōu)化和提速,百年長安迎來關(guān)鍵一躍

autocarweekly
2025-08-09 14:48:28
中國28歲留學(xué)生嫖娼16歲日本女高中生,至少10次,被抓狡辯學(xué)日語

中國28歲留學(xué)生嫖娼16歲日本女高中生,至少10次,被抓狡辯學(xué)日語

180視角
2025-08-11 14:00:34
都散了吧!澳官方回應(yīng)楊蘭蘭3億保釋金是謠言,身份不方便透露!

都散了吧!澳官方回應(yīng)楊蘭蘭3億保釋金是謠言,身份不方便透露!

翻開歷史和現(xiàn)實(shí)
2025-08-12 08:47:08
抗日將領(lǐng)李默庵故居2913萬拍賣落槌,平臺(tái):買家對(duì)房屋更改、運(yùn)營須經(jīng)批準(zhǔn)

抗日將領(lǐng)李默庵故居2913萬拍賣落槌,平臺(tái):買家對(duì)房屋更改、運(yùn)營須經(jīng)批準(zhǔn)

封面新聞
2025-08-11 16:22:08
2025-08-12 12:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11066文章數(shù) 142415關(guān)注度
往期回顧 全部

科技要聞

特朗普考慮允許英偉達(dá)向中國出售Blackwell

頭條要聞

男子因雞蛋被侄兒吃掉抱怨致妻崩潰摔碗 女方:會(huì)離婚

頭條要聞

男子因雞蛋被侄兒吃掉抱怨致妻崩潰摔碗 女方:會(huì)離婚

體育要聞

戰(zhàn)勝王楚欽 張本智賽后脫衣瘋狂慶祝

娛樂要聞

文章大G車副駕疑姚笛 舊人重逢引猜測

財(cái)經(jīng)要聞

重磅!中美再次暫停實(shí)施24%的關(guān)稅90天

汽車要聞

從德系精工到中國智慧 一汽奧迪的豪華進(jìn)化論

態(tài)度原創(chuàng)

數(shù)碼
旅游
家居
教育
公開課

數(shù)碼要聞

AMD主板銷量占比超90%!B650最受歡迎:AM5占比70%以上

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

現(xiàn)代溫馨 灰咖營造現(xiàn)代感

教育要聞

因式分解題目(X+1)(X+3)(X+5)(X+7)+15

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 高挑少妇呻吟刺激HD| 少妇偷BBBBB| 久久国产自拍一区二区三区| 苍井空第一次激励高潮| 欧美精三区欧美精三区| 加勒比东京热一本大道AV| 成人一色屋精品免费观看| 午夜理论无码片在线观看免费| 国产放荡av剧情演绎麻豆| 日日碰狠狠添天天爽超碰97| 中文字幕结果国产精品| 咪咪网欧美性爱| 免费无遮挡在线观看网站| 久久天天躁狠狠躁夜夜2019| 日本色免网址导航| 羞羞影院成人午夜爽爽在线| 操肥逼X一区| freeXXX少妇性饥渴难耐 | 亚洲国产精华液2020| 久草网站| 国产乱伦视频污| 欧美打飞机网站| 国自产偷精品不卡在线观看| 欧美亚洲日韩在线一区| 国产区一区二区三区| 99re热只有精品一区| 欧美96在线 | 欧| 亚洲乱码国产乱码精品精9| 欧美性群另类交| gogogo在线高清免费完整版| 亚洲色www成人永久网址| 精产国品一二三产区区别麻豆| 人妻互伦无码| 免费无码成人AV免费看| 成人在线你懂的| 午夜亚洲国产理论片二级港台二级| 丁香啪啪六月天| 久久精品丝袜| 高潮国产色色色色色色视频| 欧美性爱蜜芽| AV永久天堂一区二区三区香港|