夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

圖像分詞器造反了!華為 Selftok:自回歸內(nèi)核完美統(tǒng)一擴散模型

0
分享至




自回歸(AR)范式憑借將語言轉(zhuǎn)化為離散 token 的核心技術(shù),在大語言模型領(lǐng)域大獲成功 —— 從 GPT-3 到 GPT-4o,「next-token prediction」以簡單粗暴的因果建模橫掃語言領(lǐng)域。但當(dāng)我們將目光轉(zhuǎn)向視覺生成,卻發(fā)現(xiàn)這條黃金定律似乎失效了……

現(xiàn)有方案硬生生將圖像網(wǎng)格化為空間 token,強行塞入自回歸架構(gòu)。這像極了 NLP 早期用 CNN 建模語言的彎路 —— 當(dāng)視覺表達被空間局部性束縛,因果鏈被切割得支離破碎,如何能真正擁抱 AR 的本質(zhì)?

華為盤古多模態(tài)生成團隊破局思路:讓圖像學(xué)會「說 AR 的語言」。團隊指出:視覺要想復(fù)刻 LLM 的成功,必須徹底重構(gòu) token 化范式!基于昇騰 AI 基礎(chǔ)軟硬件的 Selftok 技術(shù),通過反向擴散過程將自回歸先驗融入視覺 token,讓像素流轉(zhuǎn)化為嚴格遵循因果律的離散序列。



  • 項目主頁:https://Selftok-team.github.io/report/
  • ArXiv 鏈接:https://arxiv.org/abs/2505.07538
  • Github鏈接: https://github.com/selftok-team/SelftokTokenizer

Selftok 的突破在于:

  • 反向擴散鍛造因果 token—— 通過擴散過程的時序分解,讓視覺表達徹底 AR 化
  • 強化學(xué)習(xí)友好型 token—— 首個嚴格滿足貝爾曼方程 (Bellman Equation) 的視覺離散表征
  • 純 AR 大一統(tǒng)架構(gòu) —— 無需復(fù)雜模塊堆疊,優(yōu)雅地實現(xiàn) LLM 和 diffusion 的融合,單憑 next-token prediction 統(tǒng)一跨模態(tài)生成

實驗結(jié)果實現(xiàn):

  • 視覺重建新突破:Imagenet 上重建指標(biāo)達到離散 token SoTA
  • 跨模態(tài)生成新高度:無需圖文對齊數(shù)據(jù)!僅憑視覺 token 策略梯度,GenEval 生成質(zhì)量超越 GPT-4o
  • 親和昇騰計算架構(gòu):昇騰原生算子融合 + MindSpeed 框架,實現(xiàn)端到端原生開發(fā)

值得一提的是,該系列工作的開篇論文《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》也入選了 CVPR 2025 最佳論文候選(Best Paper Candidate, 14/13008,0.1%)

介紹

當(dāng)前行業(yè)共識認為大語言模型(LLMs)正面臨語言數(shù)據(jù)瓶頸,而圖像、視頻等非語言數(shù)據(jù)仍存在巨大開發(fā)潛力。技術(shù)圈普遍認為,構(gòu)建統(tǒng)一的多模態(tài)架構(gòu)將是釋放 AI 更強涌現(xiàn)能力的關(guān)鍵。要將視覺等非語言模態(tài)整合進類似 LLMs 的離散自回歸模型(discrete AR,dAR),核心挑戰(zhàn)在于將連續(xù)視覺信號轉(zhuǎn)化為離散 Token。華為盤古多模態(tài)生成團隊首創(chuàng)不依賴空間先驗的視覺 Token 方案,通過與語言模態(tài)聯(lián)合訓(xùn)練構(gòu)建視覺 - 語言模型(VLM),在圖像生成、圖像編輯等任務(wù)中展現(xiàn)出卓越能力。其強化學(xué)習(xí)優(yōu)化后的生成性能已超越 AR 范式現(xiàn)有模型,開創(chuàng)了多模態(tài)自回歸訓(xùn)練的新范式。

為何選擇離散化視覺 token?當(dāng)前主流方案采用語言 dAR 與圖像連續(xù)自回歸模型(continuous AR, cAR)的混合架構(gòu),認為連續(xù)表征能最小化圖像壓縮損失。但大量研究表明:離散表征同樣可保持高精度,而連續(xù)表征存在三重致命缺陷:其一,預(yù)測穩(wěn)定性差,cAR 采用均方誤差(MSE)訓(xùn)練的向量回歸器較 dAR 的交叉熵(XE)分類器更易出錯,這迫使多數(shù) cAR 放棄因果預(yù)測范式,轉(zhuǎn)向雙向建模,從根本上違背 decoder-only 架構(gòu)的自回歸設(shè)計哲學(xué);其二,強化學(xué)習(xí)復(fù)雜度激增,連續(xù)狀態(tài) - 動作空間使馬爾可夫決策過程從有限轉(zhuǎn)為無限,策略優(yōu)化難度呈指數(shù)級上升;其三,解耦能力受限,連續(xù)表征在學(xué)習(xí)過程中會帶來模式坍縮 (視覺幻覺),離散可以實現(xiàn)因子更好的解耦。



圖 1

為什么選擇摒棄空間先驗?早期 CV 研究將空間特征 Token 化視為自回歸建模標(biāo)配,但華為 AIGC Selftok 團隊指出:空間 Token 的因果依賴本質(zhì)與 AR 范式存在根本沖突。如下圖所示,碰撞效應(yīng)導(dǎo)致虛假依賴,編碼任一空間 Token 時引入與其他所有 Token 的貝葉斯偽相關(guān),破壞 AR 所需的因果圖結(jié)構(gòu);從而導(dǎo)致強化學(xué)習(xí)失序,非 AR 依賴使 Token 預(yù)測影響歷史狀態(tài),無法滿足貝爾曼方程,導(dǎo)致策略優(yōu)化陷入局部最優(yōu)困境。實驗證明,非空間 Token 的 RL 效果上限顯著低于 AR Token。



基于此,Selftok 團隊提出 Self-consistency Tokenizer:通過擴散模型反向過程的 AR 特性編碼圖像生成軌跡,每個 Token 對應(yīng)擴散步驟的時間戳(如圖 3)。



圖 3

該方案實現(xiàn)三大突破:

1)AR 原生架構(gòu)(自回歸之本):徹底摒棄空間先驗,保持重建精度同時提升圖文模態(tài)兼容性,為 dAR-VLM 預(yù)訓(xùn)練與 RL 微調(diào)奠定基礎(chǔ);

2)擴散范式統(tǒng)一(擴散之法):直接貫通擴散模型與自回歸架構(gòu),無需額外模塊即可完成跨模態(tài)統(tǒng)一。自回歸等價于遞歸,可像歸并排序算法(下左圖)一樣分而治之。同理,將 x_0→x_1(下右圖)的路徑分解成兩部分,x_0→x_t 由擴散模型采樣得到,x_t→x_1 學(xué)習(xí) token;



圖 3.1

3)推理性能躍升(推理之用):Selftok-Token 完美適配策略優(yōu)化,使 dAR-VLM 獲得類 LLM 的 RL 訓(xùn)練能力。實驗證明,無監(jiān)督的 Selftok-Zero 在 GenEval 和 DPG-Bench 榜單分別以 92% 和 85.57 分超越基于 Spatial token 的 AR 范式模型,驗證了 Selftok token 與 AR 范式的組合威力。

方法簡述

Tokenizer:Selftok tokenizer 主要由三部分構(gòu)成:encoder,quantizer 與 decoder。整體的結(jié)構(gòu)如圖 4 所示:



圖 4

Selftok 編碼器采用雙流架構(gòu):圖像分支繼承 SD3 的 VAE 隱空間編碼,文本分支創(chuàng)新性替換為可學(xué)習(xí)連續(xù)向量組以捕捉擴散特征,通過動態(tài)掩碼機制提升計算效率。核心量化器通過 EMA 更新的 codebook 和獨創(chuàng)的 "code 偏移監(jiān)測 - 重激活" 機制,解決傳統(tǒng)訓(xùn)練不均衡問題,實現(xiàn)擴散過程與自回歸建模的統(tǒng)一。解碼器基于 SD3 權(quán)重改進,文本分支采用 codebook embedding 替代傳統(tǒng)輸入,并通過時序感知 token 分配策略(隨 timestep 縮減 token 數(shù)量)強化自回歸特性。為了進一步提升推理效率,渲染器通過引入 "畫布"token 消除 timestep 依賴,在昇騰 910B2 上實現(xiàn)單卡推理速度從 8.2 秒壓縮至 0.31 秒,同時完全保留重建質(zhì)量。生成路徑離散化技術(shù)將連續(xù)擴散轉(zhuǎn)化為 token 驅(qū)動確定性映射,奠定視覺自回歸建模新范式。



圖 6

Selftok 團隊通過可視化對比揭示了 token 表征的本質(zhì)差異:

1)漸進重建(左→右):通過逐步掩碼輸入 token 序列測試重建能力。



VQGAN、FlowMo、VAR 因 token 與圖像塊強綁定,在短序列輸入時呈現(xiàn)塊狀偽影;而 Selftok 即使保留極少量 token 仍保持全局語義連貫。

2)Token 插值(左→右):通過逐步替換左右圖像 token 實現(xiàn)插值。



傳統(tǒng)方法因空間局部性產(chǎn)生斷裂形變,Selftok 則實現(xiàn)平滑語義過渡,驗證了自回歸建模的理論優(yōu)勢。

Pretrain and SFT:在預(yù)訓(xùn)練階段,模型架構(gòu)基于 LLaMA-3-8B 進行擴展,在原有語言詞表的基礎(chǔ)上新增了 32,768 個圖像 token 的詞表。正如前文所述,Selftok dAR-VLM 可以完全復(fù)用現(xiàn)有的 LLM 訓(xùn)練范式與訓(xùn)練框架。具體實現(xiàn)上,該模型基于昇騰 MindSpeed 框架和昇騰 910B NPU 進行訓(xùn)練優(yōu)化,整個流程被設(shè)計為兩個關(guān)鍵階段:

1.多模態(tài)對齊:這個階段引入四種數(shù)據(jù)輸入格式(如圖 8 所示)來幫助模型實現(xiàn)模態(tài)的對齊,分別為 text-to-image, image-to-text, image-only 與 text-only,使得模型從 LLM 轉(zhuǎn)變?yōu)?VLM。



圖 8

2.多任務(wù)對齊:這個階段收集了高質(zhì)量的圖像與文本數(shù)據(jù)對模型在三類任務(wù)(如圖 8 所示)上進行監(jiān)督微調(diào)(sft):text-to-image, image-editing 與 image-understanding,進一步提升模型的能力上限并擴展模型的能力邊界。此外針對 AR token 的特性,Selftok 團隊也設(shè)計了新的推理策略,會根據(jù)當(dāng)前圖像 token 的熵來確定是否進行 logit adjustment。新的推理策略也幫助模型進一步提升了圖像生成的效果。



公式 1

RL:Selftok 團隊首先證明了 AR tokens 能夠推導(dǎo)出貝爾曼方程,進而證明采用策略優(yōu)化的 RL 算法具有最優(yōu)解。在此理論基礎(chǔ)上,選擇使用 GRPO 算法對模型進行優(yōu)化。不同于數(shù)學(xué)問題或代碼生成這類能夠獲得精確 reward 的任務(wù),文生圖任務(wù)難以精確的評估生成效果與指令遵循能力。為了解決這個問題,Selftok 團隊設(shè)計了兩類獎勵函數(shù):基于程序與基于 VQA 任務(wù)?;诔绦虻莫剟詈瘮?shù)能夠有效的評估生成圖像中的物體屬性、空間關(guān)系、數(shù)量等是否與 prompt 相符合,團隊使用目標(biāo)檢測模型來檢測上述內(nèi)容,并提高目標(biāo)檢測的閾值,在提升圖文一致性的同時顯著的提升了圖像內(nèi)容的合理性與美感;基于 VQA 任務(wù)的獎勵函數(shù)面向更加通用的場景,首先 prompt 會被分解為多個問題,隨后使用 Internvl 與 GPT-4o 來回答這些問題,并計算出最終的 reward。

實驗結(jié)果顯示基于程序的獎勵函數(shù)能夠更加有效的提升模型的表現(xiàn),在 GenEval Bench 上 Selftok-Zero 顯著的優(yōu)于包括 GPT-4o 在內(nèi)的其他所有模型。

結(jié)果

Tokenizer 結(jié)果:Selftok tokenizer 在 ImageNet 上的多個重建指標(biāo)都達到了 sota,相比于其他的 tokenizer,Selftok tokenizer 對細節(jié)的重建效果更好,也更加貼近原始圖片,量化結(jié)果如表 1 所示。



表 1

文生圖結(jié)果:華為盤古多模態(tài)生成團隊在 GenEval 與 DPG 兩個 benchmark 上評測文生圖的的表現(xiàn)。其中在 GenEval Benchmark 上,基于 Selftok-sft 模型 RL 后的 sefltok-zero 大幅領(lǐng)先包括 GPT-4o 在內(nèi)的所有模型,達到 92 的分數(shù)。相比與 sft 模型,經(jīng)過 RL 后的模型在多個子任務(wù)上都達到 SOTA,且大幅領(lǐng)先其他模型。如表 2 所示:



表 2

在 DPG Benchmark 上,Selftok-zero 僅次于 HiDream-I1,并在多個子項上達到 sota。相比于 Selftok-sft,Selftok-zero 的表現(xiàn)全面提升,進一步證明了 Selftok token 在 RL 算法上的有效性。結(jié)果如表 3 所示:



表 3

可視化結(jié)果如圖 9 所示:



圖 9

圖像編輯結(jié)果:Selftok 團隊還在 PIE-Bench 上檢測了模型的圖像編輯能力,結(jié)果顯示 Selftok 模型的編輯效果在編輯模型中也處于領(lǐng)先地位,量化指標(biāo)如表 4 所示,編輯過程可視化結(jié)果如圖 10。



表 4



圖 10

在多輪編輯任務(wù)中,Selftok 展示了精確的理解能力與非編輯區(qū)域的保持能力,編輯指令的遵循能力能夠與 GPT-4o,Gemini-2.0 等匹配,如圖 11 所示:



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
王曼昱/蒯曼奪冠后立馬反?。」趤喓嫌叭毯谀?兩人自拍才露笑容

王曼昱/蒯曼奪冠后立馬反省!冠亞合影全程黑臉 兩人自拍才露笑容

顏小白的籃球夢
2025-10-04 14:20:18
直落3局!王楚欽/林詩棟奪中國大滿貫?zāi)须p冠軍,王楚欽加冕雙冠

直落3局!王楚欽/林詩棟奪中國大滿貫?zāi)须p冠軍,王楚欽加冕雙冠

全景體育V
2025-10-04 19:59:03
石榴再立大功!瑞士研究:28天延長生命周期45.4%,2類人不宜多吃

石榴再立大功!瑞士研究:28天延長生命周期45.4%,2類人不宜多吃

番茄健康
2025-10-04 18:29:18
越南高鐵夢再次破碎!日本搞砸4000億高鐵項目,我國拒絕“接盤”

越南高鐵夢再次破碎!日本搞砸4000億高鐵項目,我國拒絕“接盤”

木禾投研
2025-10-04 15:59:08
館長破防的背后,政治算計落空!

館長破防的背后,政治算計落空!

談芯說科技
2025-10-04 17:12:40
陜西新郎跳河后續(xù):網(wǎng)友曝女方臨時加價,新郎系一名教師

陜西新郎跳河后續(xù):網(wǎng)友曝女方臨時加價,新郎系一名教師

娛樂壹點半
2025-10-04 10:47:00
知名商場即將暫停營業(yè)!幾代東西城人的童年…

知名商場即將暫停營業(yè)!幾代東西城人的童年…

家住東西城
2025-10-04 21:31:25
今年國慶,5個罕見的“反?,F(xiàn)象”出現(xiàn),說明大家真的開始變了

今年國慶,5個罕見的“反?,F(xiàn)象”出現(xiàn),說明大家真的開始變了

平說財經(jīng)
2025-10-03 23:16:56
和對象做過最瘋狂的事是啥?網(wǎng)友:年輕人慎看,好像有點污

和對象做過最瘋狂的事是啥?網(wǎng)友:年輕人慎看,好像有點污

解讀熱點事件
2025-09-30 00:15:03
熱能工程專家陳之航逝世,享年98歲

熱能工程專家陳之航逝世,享年98歲

觀察者網(wǎng)
2025-10-04 15:17:04
中國車企主導(dǎo)的俄羅斯汽車市場,崩了!

中國車企主導(dǎo)的俄羅斯汽車市場,崩了!

小鵬財經(jīng)
2025-10-04 11:23:27
親戚欠我28萬10年未還我不催,他兒子考公務(wù)員政審時,我打去電話

親戚欠我28萬10年未還我不催,他兒子考公務(wù)員政審時,我打去電話

蘭姐說故事
2025-10-02 05:15:03
保級大戰(zhàn)白熱化!4隊只差2分,梅州躍居第13,新鵬城魔鬼賽程

保級大戰(zhàn)白熱化!4隊只差2分,梅州躍居第13,新鵬城魔鬼賽程

奧拜爾
2025-10-04 21:07:17
湖北美女毛大媛去世,人很漂亮,年僅32歲,前一天還好好的發(fā)視頻

湖北美女毛大媛去世,人很漂亮,年僅32歲,前一天還好好的發(fā)視頻

鋭娛之樂
2025-10-04 11:37:53
痛惜,年僅31歲!貴州獨山一派出所副所長執(zhí)行任務(wù)期間不幸受傷,搶救無效因公犧牲

痛惜,年僅31歲!貴州獨山一派出所副所長執(zhí)行任務(wù)期間不幸受傷,搶救無效因公犧牲

紅星新聞
2025-10-04 16:21:12
23歲知名網(wǎng)紅在攀巖時失足墜崖,直播間觀眾目睹墜亡瞬間!王一博此前也曾在此攀爬挑戰(zhàn)

23歲知名網(wǎng)紅在攀巖時失足墜崖,直播間觀眾目睹墜亡瞬間!王一博此前也曾在此攀爬挑戰(zhàn)

都市快報橙柿互動
2025-10-04 13:39:21
特朗普要見金正恩,不到24小時,李在明宣布將收回作戰(zhàn)指揮權(quán)

特朗普要見金正恩,不到24小時,李在明宣布將收回作戰(zhàn)指揮權(quán)

現(xiàn)代小青青慕慕
2025-10-04 16:34:22
石平太郎女兒回國無望,簽證連續(xù)三次被中方拒絕,網(wǎng)友:自作自受

石平太郎女兒回國無望,簽證連續(xù)三次被中方拒絕,網(wǎng)友:自作自受

小lu侃侃而談
2025-10-03 01:28:39
陳震車禍:不負責(zé)的富人,就是窮人的瘟神

陳震車禍:不負責(zé)的富人,就是窮人的瘟神

黑糖文字局
2025-10-04 07:57:09
上海大師賽:商竣程2-0爆冷首勝世界前十 首進大師賽32強

上海大師賽:商竣程2-0爆冷首勝世界前十 首進大師賽32強

醉臥浮生
2025-10-04 22:23:47
2025-10-05 05:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11404文章數(shù) 142464關(guān)注度
往期回顧 全部

科技要聞

OpenAI Sora上線第4天拿下蘋果美國App頭名

頭條要聞

高市早苗當(dāng)選是否意味日本極右翼思想崛起 專家分析

頭條要聞

高市早苗當(dāng)選是否意味日本極右翼思想崛起 專家分析

體育要聞

多庫2.0,無解盤帶之外的飛躍

娛樂要聞

他們優(yōu)秀的一生,只“欠”父母

財經(jīng)要聞

不接親不主持不喝酒 年輕人“改造”婚禮

汽車要聞

一汽奧迪贈予四川嚴重交通事故車主終身保養(yǎng)服務(wù)

態(tài)度原創(chuàng)

本地
健康
家居
公開課
軍事航空

本地新聞

讀港校想省錢,社恐輸在起跑線

內(nèi)分泌科專家破解身高八大謠言

家居要聞

潮流地標(biāo) 引領(lǐng)Z世代風(fēng)尚

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:以色列須立即停止轟炸加沙

無障礙瀏覽 進入關(guān)懷版 国产精品妇激情啪国产播放| 国产妞干网妞干网妞干网| 国语自产免费精品视频在| AV天堂少妇| 国产无吗一区二区三区在线欢| 好紧好湿夹太紧了好爽| 久久精品国产成人| 嫖40岁农村妇女舒服中文字幕| 久久久久久91亚洲精品中文字幕| 在线亚洲97se亚洲综合在线| 丁香五精品蜜臀久久久久99网站| 69久久夜色精品国产7777| 脱岳裙子从后面挺进去视频| av在线高清一区| 久久综合网络| 少妇人妻偷人偷人精品| 天美 传媒 在线 仙儿媛| 天天av天天av天天透| 爆乳一丝丝不挂裸体大胸美女写真 | 亚洲AV秘 无码二区在线| 美女张开腿让男人捅| 久久久精品人妻一区二区三区蜜芽 | 在线亚洲人成电影网站色www| 欧美性爱一级视频| 人体欣赏showybeauty| 强奷乱码中文字幕熟女一| 亚洲女人操逼视频| 激情伊人五月天久久综合| 国产国语毛片在线看国产| 人人妻人人玩人人爽| 国内精品久久久久久久久久久| 搡老妇女老熟女一区二区| 日韩中文字幕av| 高潮潮喷奶水飞溅视频无码| 樱桃视频大全免费高清版观看下载 | 日本中文字幕乱伦电影| 一区三区四区产品乱码| 久久伊99综合婷婷久久伊| 毛多性爱直播在线| 日B在线视频| 亚洲无?码A片在线观看麻豆|