上海人工智能實驗室等團隊提出Lumina-mGPT 2.0 —— 一款獨立的、僅使用解碼器的自回歸模型,統(tǒng)一了包括文生圖、圖像對生成、主體驅(qū)動生成、多輪圖像編輯、可控生成和密集預測在內(nèi)的廣泛任務。
本文第一作者辛毅為南京大學 & 上海創(chuàng)智學院博士生,現(xiàn)于上海人工智能實驗室實習,研究方向為圖像 / 視頻生成、多模態(tài)生成與理解統(tǒng)一等。通訊作者為上海人工智能實驗室青年科學家 — 高鵬。本文其他作者來自上海人工智能實驗室、香港中文大學、上海交通大學、上海創(chuàng)智學院、浙江工業(yè)大學等。
- 論文標題:Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
- 論文鏈接:arxiv.org/pdf/2507.17801
- GitHub 地址:Alpha-VLLM/Lumina-mGPT-2.0
- 關鍵詞:圖像生成、自回歸模型、基座模型。
核心技術與突破
完全獨立的訓練架構
不同于依賴預訓練權重的傳統(tǒng)方案,Lumina-mGPT 2.0 采用純解碼器 Transformer 架構,從參數(shù)初始化開始完全獨立訓練。這帶來三大優(yōu)勢:架構設計不受限制(提供了 20 億和 70 億參數(shù)兩個版本)、規(guī)避授權限制(如Chameleon的版權問題)、減少預訓練模型帶來的固有偏差。
圖像分詞器方面,通過對比 VQGAN、ViT-VQGAN 等多種方案,最終選擇在 MS-COCO 數(shù)據(jù)集上重建質(zhì)量最優(yōu)的 SBER-MoVQGAN,為高質(zhì)量生成奠定基礎。
統(tǒng)一多任務處理框架
創(chuàng)新地采用統(tǒng)一的圖像分詞方案,將圖生圖任務通過上下拼接視為一張圖像,并通過提示描述進行控制,實現(xiàn)多任務訓練與文生圖訓練的一致性。使得單一模型能夠無縫支持以下任務:
- 文生圖
- 主體驅(qū)動生成
- 圖像編輯
- 可控生成(如基于輪廓 / 深度的生成)
- 密集預測
這種設計避免了傳統(tǒng)模型需切換不同框架的繁瑣,通過系統(tǒng)提示詞即可靈活控制任務類型。
高效的推理策略
為了解決自回歸模型生成速度慢的痛點,團隊引入兩種優(yōu)化:
- 模型量化:將模型權重量化為 4 位整數(shù),同時保持激活張量為 bfloat16,通過 PyTorch 2.0 中的原生編譯工具和 torch.compile 的 reduce-overhead 模式實現(xiàn)無需改變模型架構的優(yōu)化。
- 推測式 Jacobi 采樣:通過靜態(tài) KV 緩存和靜態(tài)因果注意掩碼的方案,使 SJD 兼容于靜態(tài)編譯框架,從而實現(xiàn)加速采樣,同時避免動態(tài)調(diào)整緩存。結合 4 位量化技術,減少 60% GPU 顯存消耗,同時通過并行解碼加速生成。
實驗顯示,優(yōu)化后模型在保持質(zhì)量的前提下,生成效率顯著提升。
實驗結果
文生圖實驗結果
在文本到圖像生成領域,Lumina-mGPT 2.0 在多個基準測試中表現(xiàn)優(yōu)異,與 SANA 和Janus Pro等擴散模型和自回歸模型相當甚至超越,特別是在 “兩個物體” 和 “顏色屬性” 測試中表現(xiàn)卓越,以 0.80 的GenEval 分數(shù)躋身頂級生成模型之列。
此外,在實際生成效果上,Lumina-mGPT 2.0 在真實感、細節(jié)和連貫性方面優(yōu)于前代 Lumina-mGPT 和 Janus Pro,更具視覺吸引力和自然美感。
多任務實驗結果
在 Graph200K 多任務基準中(可控生成、物體驅(qū)動生成),Lumina-mGPT 2.0 表現(xiàn)優(yōu)異,證明了純自回歸模型在單一框架下完成多模態(tài)生成任務的可能性。
此外,團隊與其他的多任務生成模型進行了實際比較,Lumina-mGPT 2.0 在可控生成和主題驅(qū)動生成任務中表現(xiàn)突出,與 Lumina-mGPT、OneDiffusion和 OmniGen 等模型相比,展示了卓越的生成能力和靈活性。
未來方向
Lumina-mGPT 2.0 在優(yōu)化推理后,仍面臨采樣時間長的問題,與其他基于自回歸的生成模型相似,這影響了用戶體驗,后續(xù)將進一步優(yōu)化。當前 Lumina-mGPT 2.0 的重點在多模態(tài)生成, 但計劃更新擴展至多模態(tài)理解,以提高其整體功能和性能,這將使 Lumina-mGPT 2.0 在滿足用戶需求方面更加全面。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.