夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Lumina-mGPT 2.0:自回歸模型華麗復(fù)興,媲美頂尖擴(kuò)散模型

0
分享至



上海人工智能實驗室等團(tuán)隊提出Lumina-mGPT 2.0 —— 一款獨立的、僅使用解碼器的自回歸模型,統(tǒng)一了包括文生圖、圖像對生成、主體驅(qū)動生成、多輪圖像編輯、可控生成和密集預(yù)測在內(nèi)的廣泛任務(wù)。

本文第一作者辛毅為南京大學(xué) & 上海創(chuàng)智學(xué)院博士生,現(xiàn)于上海人工智能實驗室實習(xí),研究方向為圖像 / 視頻生成、多模態(tài)生成與理解統(tǒng)一等。通訊作者為上海人工智能實驗室青年科學(xué)家 — 高鵬。本文其他作者來自上海人工智能實驗室、香港中文大學(xué)、上海交通大學(xué)、上海創(chuàng)智學(xué)院、浙江工業(yè)大學(xué)等。



  • 論文標(biāo)題:Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
  • 論文鏈接:arxiv.org/pdf/2507.17801
  • GitHub 地址:Alpha-VLLM/Lumina-mGPT-2.0
  • 關(guān)鍵詞:圖像生成、自回歸模型、基座模型。

核心技術(shù)與突破

完全獨立的訓(xùn)練架構(gòu)

不同于依賴預(yù)訓(xùn)練權(quán)重的傳統(tǒng)方案,Lumina-mGPT 2.0 采用純解碼器 Transformer 架構(gòu),從參數(shù)初始化開始完全獨立訓(xùn)練。這帶來三大優(yōu)勢:架構(gòu)設(shè)計不受限制(提供了 20 億和 70 億參數(shù)兩個版本)、規(guī)避授權(quán)限制(如Chameleon的版權(quán)問題)、減少預(yù)訓(xùn)練模型帶來的固有偏差。



圖像分詞器方面,通過對比 VQGAN、ViT-VQGAN 等多種方案,最終選擇在 MS-COCO 數(shù)據(jù)集上重建質(zhì)量最優(yōu)的 SBER-MoVQGAN,為高質(zhì)量生成奠定基礎(chǔ)。



統(tǒng)一多任務(wù)處理框架

創(chuàng)新地采用統(tǒng)一的圖像分詞方案,將圖生圖任務(wù)通過上下拼接視為一張圖像,并通過提示描述進(jìn)行控制,實現(xiàn)多任務(wù)訓(xùn)練與文生圖訓(xùn)練的一致性。使得單一模型能夠無縫支持以下任務(wù):

  • 文生圖
  • 主體驅(qū)動生成
  • 圖像編輯
  • 可控生成(如基于輪廓 / 深度的生成)
  • 密集預(yù)測

這種設(shè)計避免了傳統(tǒng)模型需切換不同框架的繁瑣,通過系統(tǒng)提示詞即可靈活控制任務(wù)類型。



高效的推理策略

為了解決自回歸模型生成速度慢的痛點,團(tuán)隊引入兩種優(yōu)化:

  • 模型量化:將模型權(quán)重量化為 4 位整數(shù),同時保持激活張量為 bfloat16,通過 PyTorch 2.0 中的原生編譯工具和 torch.compile 的 reduce-overhead 模式實現(xiàn)無需改變模型架構(gòu)的優(yōu)化。

  • 推測式 Jacobi 采樣:通過靜態(tài) KV 緩存和靜態(tài)因果注意掩碼的方案,使 SJD 兼容于靜態(tài)編譯框架,從而實現(xiàn)加速采樣,同時避免動態(tài)調(diào)整緩存。結(jié)合 4 位量化技術(shù),減少 60% GPU 顯存消耗,同時通過并行解碼加速生成。

實驗顯示,優(yōu)化后模型在保持質(zhì)量的前提下,生成效率顯著提升。



實驗結(jié)果

文生圖實驗結(jié)果

在文本到圖像生成領(lǐng)域,Lumina-mGPT 2.0 在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異,與 SANA 和Janus Pro等擴(kuò)散模型和自回歸模型相當(dāng)甚至超越,特別是在 “兩個物體” 和 “顏色屬性” 測試中表現(xiàn)卓越,以 0.80 的GenEval 分?jǐn)?shù)躋身頂級生成模型之列。



此外,在實際生成效果上,Lumina-mGPT 2.0 在真實感、細(xì)節(jié)和連貫性方面優(yōu)于前代 Lumina-mGPT 和 Janus Pro,更具視覺吸引力和自然美感。



多任務(wù)實驗結(jié)果

在 Graph200K 多任務(wù)基準(zhǔn)中(可控生成、物體驅(qū)動生成),Lumina-mGPT 2.0 表現(xiàn)優(yōu)異,證明了純自回歸模型在單一框架下完成多模態(tài)生成任務(wù)的可能性。



此外,團(tuán)隊與其他的多任務(wù)生成模型進(jìn)行了實際比較,Lumina-mGPT 2.0 在可控生成和主題驅(qū)動生成任務(wù)中表現(xiàn)突出,與 Lumina-mGPT、OneDiffusion和 OmniGen 等模型相比,展示了卓越的生成能力和靈活性。



未來方向

Lumina-mGPT 2.0 在優(yōu)化推理后,仍面臨采樣時間長的問題,與其他基于自回歸的生成模型相似,這影響了用戶體驗,后續(xù)將進(jìn)一步優(yōu)化。當(dāng)前 Lumina-mGPT 2.0 的重點在多模態(tài)生成, 但計劃更新擴(kuò)展至多模態(tài)理解,以提高其整體功能和性能,這將使 Lumina-mGPT 2.0 在滿足用戶需求方面更加全面。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中汽協(xié):11月特斯拉零售7.3萬輛,排新能源第5

中汽協(xié):11月特斯拉零售7.3萬輛,排新能源第5

鞭牛士
2025-12-09 17:18:28
多款明星車型賣不動了

多款明星車型賣不動了

第一財經(jīng)資訊
2025-12-10 22:48:28
全球 TOP10 手機排名:iPhone 17 Pro Max 太恐怖了

全球 TOP10 手機排名:iPhone 17 Pro Max 太恐怖了

劉奔跑
2025-12-09 23:39:02
老婆長得太漂亮丈夫不放心,稍微一打扮就緊張,網(wǎng)友:是得看著點

老婆長得太漂亮丈夫不放心,稍微一打扮就緊張,網(wǎng)友:是得看著點

梅子的小情緒
2025-12-10 14:28:04
五月天經(jīng)紀(jì)人8字回懟朱孝天,替F4出了口惡氣,大S說的果然沒錯

五月天經(jīng)紀(jì)人8字回懟朱孝天,替F4出了口惡氣,大S說的果然沒錯

妙知
2025-12-10 11:49:07
郭德綱被舉報約談,文旅局表示已嚴(yán)肅批評,網(wǎng)友:說到國營痛處了

郭德綱被舉報約談,文旅局表示已嚴(yán)肅批評,網(wǎng)友:說到國營痛處了

社會醬
2025-12-08 17:47:19
房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費,80塊錢就能搞定

房產(chǎn)證上的人去世了,繼承別再花大幾千的公證費,80塊錢就能搞定

室內(nèi)設(shè)計師有料兒
2025-12-07 16:05:28
原來有這么多不體面但掙錢的小生意!原來都是悶聲發(fā)大財??!

原來有這么多不體面但掙錢的小生意!原來都是悶聲發(fā)大財??!

另子維愛讀史
2025-12-06 22:09:07
尼格買提、鄒韻、陳辰等20人獲第三屆中國播音主持金聲獎

尼格買提、鄒韻、陳辰等20人獲第三屆中國播音主持金聲獎

上觀新聞
2025-12-09 14:38:07
人民日報副總編輯公開表達(dá)不滿:我困惑很久,不吐不快!

人民日報副總編輯公開表達(dá)不滿:我困惑很久,不吐不快!

霹靂炮
2025-12-08 22:03:16
女子穿瑜伽褲趕大集,走村里回頭率爆表,網(wǎng)友:這審美欣賞不來!

女子穿瑜伽褲趕大集,走村里回頭率爆表,網(wǎng)友:這審美欣賞不來!

梅子的小情緒
2025-12-09 19:42:53
哪些弦外之音是你多年后才醒悟的?網(wǎng)友:好多都沒聽出來,沒眼力

哪些弦外之音是你多年后才醒悟的?網(wǎng)友:好多都沒聽出來,沒眼力

帶你感受人間冷暖
2025-11-05 00:05:16
匈奴消失兩千年成謎!DNA 結(jié)果炸翻歐洲,我們祖上竟還有這層淵源

匈奴消失兩千年成謎!DNA 結(jié)果炸翻歐洲,我們祖上竟還有這層淵源

貓眼觀史
2025-12-08 19:38:01
昨夜美股大爆發(fā),科技股近乎癲狂,今天A股這個賽道藏不住了?

昨夜美股大爆發(fā),科技股近乎癲狂,今天A股這個賽道藏不住了?

財官
2025-12-11 06:11:17
“我恨不得丟了她”,寶媽公開承認(rèn)厭惡10歲女兒,引數(shù)萬網(wǎng)友共鳴

“我恨不得丟了她”,寶媽公開承認(rèn)厭惡10歲女兒,引數(shù)萬網(wǎng)友共鳴

溫讀史
2025-10-10 10:22:51
福建婚禮上新娘顏值爆表走紅,新郎長相惹爭議:懂事早和董事長?

福建婚禮上新娘顏值爆表走紅,新郎長相惹爭議:懂事早和董事長?

梅子的小情緒
2025-11-29 14:26:05
又一個理財產(chǎn)品爆雷了,涉及資金超120億!

又一個理財產(chǎn)品爆雷了,涉及資金超120億!

胡華成
2025-12-10 16:31:15
憤怒!一貨車司機收費站配合檢查活活摔死,工作人員事后刪除監(jiān)控

憤怒!一貨車司機收費站配合檢查活活摔死,工作人員事后刪除監(jiān)控

火山詩話
2025-12-10 21:59:15
護(hù)士被投訴的理由能有多搞笑?網(wǎng)友:最后一個是要笑死人了

護(hù)士被投訴的理由能有多搞笑?網(wǎng)友:最后一個是要笑死人了

帶你感受人間冷暖
2025-12-09 00:20:05
機會來了,火箭擁有步行者補強答案,步行者或助火箭補齊后場短板

機會來了,火箭擁有步行者補強答案,步行者或助火箭補齊后場短板

拾叁懂球
2025-12-11 01:35:18
2025-12-11 07:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11891文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

防"走私",英偉達(dá)被曝開發(fā)“芯片定位”技術(shù)

頭條要聞

挑起中日對立后 高市早苗求見特朗普

頭條要聞

挑起中日對立后 高市早苗求見特朗普

體育要聞

試訓(xùn)20支球隊,落選,成為NBA新秀助攻王

娛樂要聞

為何網(wǎng)友不再相信張柏芝的“故事”?

財經(jīng)要聞

美聯(lián)儲降息25基點 預(yù)計2026年降息一次

汽車要聞

有動力操控 有智能座艙 6萬多的第五代帝豪掀桌子了

態(tài)度原創(chuàng)

健康
家居
房產(chǎn)
公開課
軍事航空

甲狀腺結(jié)節(jié)到這個程度,該穿刺了!

家居要聞

高端私宅 理想隱居圣地

房產(chǎn)要聞

斷供10年,終迎破局者!三亞核心區(qū),突然殺出新標(biāo)桿!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中俄聯(lián)合空中戰(zhàn)略巡航引日本擔(dān)憂 國防部回應(yīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 日韩一区二区三区不卡片| 亚洲综合色在线观看一区二区 | 久久一区二区黄色视频| 久久国语露脸国产精品电影| 欧美操逼视频网站| 精品一区二区三区免费爱| yw尤物尤物官方网站入口| 污污网站18禁在线永久免费观看 | 国产av熟女一区二区三区| 福利片经典片写真片在线观看| 国产综合21p| 亚洲亚洲人成无码网www| 欧美人与动xxxxz0oz| 亚洲黄色无码| 亚洲精品视频免费观看| 插视频免费在线| 亚洲欧美综合精品成人网| 久久99精品久久久久久婷婷2021| 成在人线av无码免费漫画| 免费看午夜福利专区| 国产精品黄页免费高清在线观看| 人人爽视频在线| 免费网禁国产YOU女网站下载| 国产亚洲日韩在线aaaa| 亚洲AV无码久久精品成人绿帽| 无码不卡免费| 少妇高潮a视频| 欧美激情a成人综合亚洲综合| 欧州黄色视频| 精品免费国偷自产在线视频 | 韩国三级中国三级人妇| 国产无av码在线观看| 在线免费观看国产好屌| 黑人巨大精品欧美久久| 欧美成人理论片乱| WWW97超碰| 成人电影一区二区三区| 一级丰满老熟女毛片| 久热这里有精彩视频免费| 操熟女大屁股| 亚洲午夜福利视频|