Lumina-mGPT 2.0：自回歸模型華麗復(fù)興，媲美頂尖擴(kuò)散模型

2025-08-12 14:20:50　來源: 機器之心Pro

內(nèi)蒙古舉報

分享至

上海人工智能實驗室等團(tuán)隊提出Lumina-mGPT 2.0 —— 一款獨立的、僅使用解碼器的自回歸模型，統(tǒng)一了包括文生圖、圖像對生成、主體驅(qū)動生成、多輪圖像編輯、可控生成和密集預(yù)測在內(nèi)的廣泛任務(wù)。

本文第一作者辛毅為南京大學(xué) & 上海創(chuàng)智學(xué)院博士生，現(xiàn)于上海人工智能實驗室實習(xí)，研究方向為圖像 / 視頻生成、多模態(tài)生成與理解統(tǒng)一等。通訊作者為上海人工智能實驗室青年科學(xué)家 — 高鵬。本文其他作者來自上海人工智能實驗室、香港中文大學(xué)、上海交通大學(xué)、上海創(chuàng)智學(xué)院、浙江工業(yè)大學(xué)等。

論文標(biāo)題：Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
論文鏈接：arxiv.org/pdf/2507.17801
GitHub 地址：Alpha-VLLM/Lumina-mGPT-2.0
關(guān)鍵詞：圖像生成、自回歸模型、基座模型。

核心技術(shù)與突破

完全獨立的訓(xùn)練架構(gòu)

不同于依賴預(yù)訓(xùn)練權(quán)重的傳統(tǒng)方案，Lumina-mGPT 2.0 采用純解碼器 Transformer 架構(gòu)，從參數(shù)初始化開始完全獨立訓(xùn)練。這帶來三大優(yōu)勢：架構(gòu)設(shè)計不受限制（提供了 20 億和 70 億參數(shù)兩個版本）、規(guī)避授權(quán)限制（如Chameleon的版權(quán)問題）、減少預(yù)訓(xùn)練模型帶來的固有偏差。

圖像分詞器方面，通過對比 VQGAN、ViT-VQGAN 等多種方案，最終選擇在 MS-COCO 數(shù)據(jù)集上重建質(zhì)量最優(yōu)的 SBER-MoVQGAN，為高質(zhì)量生成奠定基礎(chǔ)。

統(tǒng)一多任務(wù)處理框架

創(chuàng)新地采用統(tǒng)一的圖像分詞方案，將圖生圖任務(wù)通過上下拼接視為一張圖像，并通過提示描述進(jìn)行控制，實現(xiàn)多任務(wù)訓(xùn)練與文生圖訓(xùn)練的一致性。使得單一模型能夠無縫支持以下任務(wù)：

文生圖
主體驅(qū)動生成
圖像編輯
可控生成（如基于輪廓 / 深度的生成）
密集預(yù)測

這種設(shè)計避免了傳統(tǒng)模型需切換不同框架的繁瑣，通過系統(tǒng)提示詞即可靈活控制任務(wù)類型。

高效的推理策略

為了解決自回歸模型生成速度慢的痛點，團(tuán)隊引入兩種優(yōu)化：

模型量化：將模型權(quán)重量化為 4 位整數(shù)，同時保持激活張量為 bfloat16，通過 PyTorch 2.0 中的原生編譯工具和 torch.compile 的 reduce-overhead 模式實現(xiàn)無需改變模型架構(gòu)的優(yōu)化。
推測式 Jacobi 采樣：通過靜態(tài) KV 緩存和靜態(tài)因果注意掩碼的方案，使 SJD 兼容于靜態(tài)編譯框架，從而實現(xiàn)加速采樣，同時避免動態(tài)調(diào)整緩存。結(jié)合 4 位量化技術(shù)，減少 60% GPU 顯存消耗，同時通過并行解碼加速生成。

實驗顯示，優(yōu)化后模型在保持質(zhì)量的前提下，生成效率顯著提升。

實驗結(jié)果

文生圖實驗結(jié)果

在文本到圖像生成領(lǐng)域，Lumina-mGPT 2.0 在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異，與 SANA 和Janus Pro等擴(kuò)散模型和自回歸模型相當(dāng)甚至超越，特別是在 “兩個物體” 和 “顏色屬性” 測試中表現(xiàn)卓越，以 0.80 的GenEval 分?jǐn)?shù)躋身頂級生成模型之列。

此外，在實際生成效果上，Lumina-mGPT 2.0 在真實感、細(xì)節(jié)和連貫性方面優(yōu)于前代 Lumina-mGPT 和 Janus Pro，更具視覺吸引力和自然美感。

多任務(wù)實驗結(jié)果

在 Graph200K 多任務(wù)基準(zhǔn)中（可控生成、物體驅(qū)動生成），Lumina-mGPT 2.0 表現(xiàn)優(yōu)異，證明了純自回歸模型在單一框架下完成多模態(tài)生成任務(wù)的可能性。

此外，團(tuán)隊與其他的多任務(wù)生成模型進(jìn)行了實際比較，Lumina-mGPT 2.0 在可控生成和主題驅(qū)動生成任務(wù)中表現(xiàn)突出，與 Lumina-mGPT、OneDiffusion和 OmniGen 等模型相比，展示了卓越的生成能力和靈活性。

未來方向

Lumina-mGPT 2.0 在優(yōu)化推理后，仍面臨采樣時間長的問題，與其他基于自回歸的生成模型相似，這影響了用戶體驗，后續(xù)將進(jìn)一步優(yōu)化。當(dāng)前 Lumina-mGPT 2.0 的重點在多模態(tài)生成，但計劃更新擴(kuò)展至多模態(tài)理解，以提高其整體功能和性能，這將使 Lumina-mGPT 2.0 在滿足用戶需求方面更加全面。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.