機器之心報道
編輯:杜偉、陳陳
一夜之間,文生圖領域的「王座」被國產(chǎn)大模型拿下!
主角是騰訊混元團隊發(fā)布并開源僅一周的原生多模態(tài)生圖模型 —— 混元圖像 3.0(HunyuanImage 3.0)。
在國際權(quán)威 AI 模型評測榜單 LMArena 上,HunyuanImage 3.0 一舉超越了谷歌風頭無兩的 Nano-Banana 以及字節(jié)的 Seedream 4.0,位列文生圖(Text-to-Image)綜合榜單和開源榜單第一。
下圖為 LMArena 文生圖完整(Overall)榜單:
榜單地址:https://lmarena.ai/leaderboard/text-to-image
騰訊的這款模型參數(shù)量為 80B(推理時每個 token 激活 13B),是其迄今為止規(guī)模最大、性能最強的開源文生圖利器。如今,強勢登頂 LMArena 印證了當初其「生成效果完全可媲美業(yè)界頂級閉源旗艦模型」的自信。
發(fā)布一周來,混元圖像 3.0 迅速在創(chuàng)作者圈中走紅。無論是畫面質(zhì)感、細節(jié)還原,還是構(gòu)圖理解與風格一致性,很多網(wǎng)友都表示這款模型的生成效果遠超預期。
在 GitHub 上,混元圖像 3.0 的 star 數(shù)已經(jīng)突破了 1.7k,社區(qū)熱度不斷攀升,吸引了越來越多開發(fā)者的關注與參與。
代碼地址:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
文生圖的新 Goat,其實際表現(xiàn)是否名副其實?接下來的一手實測結(jié)果即將揭曉。
一手體驗
排行榜上的學霸,不一定是日常里的好學生。不少模型分數(shù)高得驚人,可一旦真正上手,往往漏洞百出。如今,混元圖像 3.0 登頂 LMArena 榜單第一,它究竟是實至名歸,還是徒有虛名?別急,我們馬上來實測看看。
模型體驗入口(需要通過電腦端訪問):
https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289
憑借原生多模態(tài)架構(gòu)的優(yōu)勢,混元圖像 3.0 在繼承 Hunyuan-A13B 世界知識的基礎上,具備了原生的世界知識推理能力
因此,當我們輸入提示:「創(chuàng)作一幅九宮格漫畫展示曹沖稱象,每幅畫需要配上簡單的文字描述」時,混元圖像 3.0 不僅能夠理解這是一個歷史典故,還能將故事拆解成連貫的九個場景。更值得注意的是,它生成的每一格畫面都配有簡潔準確的文字說明,形成了完整的故事鏈條,而不是零散的畫面堆砌。這種表現(xiàn)說明它已經(jīng)能夠在圖像生成中融合知識、推理與創(chuàng)作。
解數(shù)學題也不在話下,混元圖像 3.0 能夠迅速識別出這是一個代數(shù)問題,并給出清晰的推理過程,整個解題步驟邏輯嚴謹,排版清晰,最終答案一目了然。
提示語:解方程組 x+y=4 ,2x-y=2,給出詳細求解過程。
而當我們進一步輸入提示「用循環(huán)箭頭的形式解釋破繭成蝶」,混元圖像 3.0 又能切換到創(chuàng)意表達模式:它將自然的蛻變過程拆解成多個階段。
幾個案例測試下來,可以看出,混元圖像 3.0 不僅具備基本常識,還能夠在此基礎上進行推理和表達。既能邏輯縝密地解決問題,又能生動直觀地呈現(xiàn)創(chuàng)意。更重要的是,這些結(jié)果并不是死記硬背式的套用,而是體現(xiàn)了它在理解提示語意圖后,結(jié)合自身知識體系進行再創(chuàng)造的能力。
同時,混元圖像 3.0 還具備精確文字生成、長文本渲染能力,從而大大改善了以往模型常見的文字亂碼或字形扭曲問題。
提示詞:一張印有 “愿陽光灑進你的心田,帶來溫柔力量,祝你早日恢復活力,擁抱健康與喜悅~” 文字的祝福賀卡??ㄆO計風格,特寫構(gòu)圖,溫暖柔和的氛圍,簡潔而精致。背景大面積留白,營造寧靜感。文字旁邊點綴一束鮮花,由玫瑰、百合、向日葵組合,色彩清新,傳遞關懷與希望。
再比如在具有復雜文字要求的海報場景中,混元圖像 3.0 也能輕松應對。中秋將至,我們讓模型生成一張主題海報。
提示詞:一幅精美的中秋節(jié)主題畫作,滿月高懸在夜空中,月光灑在古色古香的中式庭院里。一張圓桌上擺滿了各式各樣的月餅、茶壺。背景有紅色的燈籠和搖曳的竹林。大標題:書法毛筆字體“花好月圓”,副標題“但愿人長久”。畫面細節(jié)豐富,暖黃色色調(diào),海報設計,國風,韻味。
從結(jié)果來看,混元圖像 3.0 精準地抓住了用戶需求,整體觀感既有節(jié)日氛圍,又具備商業(yè)設計的完成度。
接下來,我們再進行一組海報測試。這次的提示語是:「檸檬水海報」。
混元圖像 3.0 生成的畫面色調(diào)明亮,檸檬切片、透明玻璃罐都表現(xiàn)得極為寫實,整體構(gòu)圖簡潔干凈,極具商業(yè)質(zhì)感。字體排版自然融入畫面,呈現(xiàn)出清新又具廣告感的效果,讓人幾乎可以感受到檸檬的清香與冰爽氣息。
混元圖像 3.0 還能駕馭更加復雜的提示:「以白色為背景的九宮格插畫,展示一只真實寫實風格的寵物形象,共九種不同表情和動作。畫面可愛、生動,寵物神態(tài)自然,畫風溫暖寫實。 九宮格內(nèi)容如下: 第一行:① 不高興的動作,文字‘不想上班’;② 高興的動作,文字‘放假啦’;③ 四仰八叉躺著的動作,文字‘已躺平’。 第二行:① 振臂的動作,文字‘奮斗吧’;② 大哭的表情,文字‘啊啊??;③ 豎大拇指的動作,文字‘你真行’。 第三行:① 思考的動作,文字‘思考人生’;② 鼓腮生氣的動作,文字‘不開心’;③ 害羞捂臉的動作,文字‘傷心啦’。 每張表情圖片下方配有黑色萌寵風格字體的文字,整體布局整齊可愛,背景純白,風格統(tǒng)一?!?/p>
接下來我們決定進一步考驗混元圖像 3.0 對傳統(tǒng)藝術的表現(xiàn)力,這次的提示語是「中國傳統(tǒng)剪紙藝術風格,展現(xiàn)細膩精致的民俗非遺紙藝之美。紅色剪紙元素鐫刻出‘國慶節(jié)’字樣,構(gòu)圖典雅大方,富有傳統(tǒng)韻味。畫質(zhì)高清,突出剪紙細節(jié)與層次感,營造節(jié)日氛圍?!?/p>
出乎意料的是,混元圖像 3.0 對傳統(tǒng)元素的把握同樣出色。
與此同時,混元圖像 3.0 還兼具出色的美學表現(xiàn)力。面對復雜的指令,它依然能夠準確理解語義、平衡畫面構(gòu)圖,并在細節(jié)中展現(xiàn)高級的視覺審美。
這次,我們采用英文提示語:
「A photorealistic close-up portrait of an elderly Japanese ceramicist with deep, sun-etched wrinkles and a warm, knowing smile. He is carefully inspecting a freshly glazed tea bowl. The setting is his rustic, sun-drenched workshop. The scene is illuminated by soft, golden hour light streaming through a window, highlighting the fine texture of the clay. Captured with an 85mm portrait lens, resulting in a soft, blurred background (bokeh). The overall mood is serene and masterful. Vertical portrait orientation.」
可以看出混元圖像 3.0 很好的理解了英文提示語,生成的人物以及畫面非常逼真,甚至手部都看不出瑕疵。
再來一個提示語「畫面中心是一個金發(fā)小男孩,穿著綠色衣服,系著黃色圍巾,坐在一條小船里,懷抱著兩朵紅玫瑰。小船漂浮在波浪般的藍色海面上,海浪像是絨毛或藝術質(zhì)感般細膩。背景是一片星空,帶有梵高《星空》的旋轉(zhuǎn)星云與明亮月亮。畫面中點綴著閃爍的光點,營造溫暖、浪漫和童話般的氛圍?!?/p>
混元圖像 3.0 還具有很高的文字渲染能力。例如,當我們輸入提示語:創(chuàng)建一個高分辨率的文字 3D 渲染圖,第一行文字是 "HUNYUAN",第二行文字是 "IMAGE 3.0",每個字母使用不同的材質(zhì)進行渲染,材質(zhì)可以是 sisal、亞麻繩、竹編、草棉花、牛仔布、沙子、木頭、皮革、粘土、大理石、羊毛金屬、火山熔巖、冰塊、火焰、水泥、鉆石等。旁邊陶瓷、一只很矮的 Tencent QQ 企鵝正扶著文字,仿佛這些文字都是它拼的。 將其放置在干凈簡約的淺灰色背景上。
我們還測試了更多示例。
提示語:水彩畫風格,全景視角。畫面中有石橋、河流、人物、樹木與天空,色調(diào)以秋日的金黃與暖橙為主,筆觸細膩而略帶朦朧,呈現(xiàn)出寫意的藝術質(zhì)感。整體氛圍寧靜悠然,展現(xiàn)公園秋日的自然景致與人文活動交織的美感,充滿詩意與生活氣息。
提示語:生成六種材質(zhì)的滿月,其中第二個是真實的滿月。
最后再來一個《十二生肖月餅》,祝大家中秋節(jié)快樂?!敢灾星餅轭},融合傳統(tǒng)文化與節(jié)日意象,月餅不同材質(zhì),比如抹茶、玫瑰,顏色各異。十二生肖各展風姿:鼠小巧玲瓏、牛穩(wěn)穩(wěn)健、虎咆哮、兔可愛,龍飛騰、蛇輕靈,馬馳騁千里,羊溫順,猴機靈古怪,雞鳴瑞氣,狗忠相伴情意長,豬憨可愛慶團圓?!?/p>
從以上一系列測試來看,混元圖像 3.0 的表現(xiàn)可謂全面而穩(wěn)定。它不僅在創(chuàng)意表達上展現(xiàn)出極高的理解力與想象力,也在邏輯推理、文字生成、審美構(gòu)圖等方面實現(xiàn)了顯著突破。
混元圖像 3.0 是怎么煉成的?
榜單成績和一手實測都很「硬」,混元圖像 3.0 肯定在技術層面藏著一些獨到之處。
我們了解到,混元圖像 3.0 以「Hunyuan-A13B」為基礎模型,后者是一個 MoE 大語言模型。首先,為使該模型具備處理視覺輸入以及相應的圖像理解與生成能力,騰訊混元團隊為其配備了預訓練的視覺編碼器和 VAE;其次引入了思維鏈(CoT)的訓練與推理機制,進一步增強模型在圖像理解與生成任務上的表現(xiàn)。加之專門針對圖像生成任務進行了微調(diào)與后訓練,混元圖像 3.0 的「圖像生成模塊」最終成型。
從技術路徑來看,混元圖像 3.0 不僅僅追求生成質(zhì)量的顯著提升,而是逐漸邁向「理解 — 推理 — 生成一體化」的多模態(tài)智能架構(gòu)。
模型設計上,混元圖像 3.0 采用一種混合式的離散 - 連續(xù)建模策略,對文本詞元采用自回歸的下一詞元預測方式進行建模,對圖像詞元采用基于擴散的預測框架進行建模,同時兼顧語言的邏輯結(jié)構(gòu)與圖像的連續(xù)特征空間,做到「文字理解與視覺生成」的高效協(xié)同。
這樣一來,整個模型在一個緊密結(jié)合的框架內(nèi)融合了語言建模、圖像理解和圖像生成三大功能,實現(xiàn)了統(tǒng)一的多模態(tài)建模。
從上圖可以看到,混元圖像 3.0 的整體框架包含了以下幾大關鍵組件:
- 主干網(wǎng)絡(Backbone):基于 Hunyuan-A13B 構(gòu)建,總參數(shù)為 800 億,包含 64 個專家,每個 token 激活 8 個專家 并共享 MLP,使激活參數(shù)量約 130 億。
- 文本分詞器(Text Tokenizer):采用混元分詞器(Hunyuan Tokenizer),在其詞匯表中加入一組專為圖像生成與理解任務設計的特殊 tokens,以增強多模態(tài)處理能力。
- 圖像編碼器 (Image Encoder):在圖像生成中采用內(nèi)部 VAE,將像素映射至 32 維潛空間,下采樣因子為 16。相比需要額外塊化層的 8 倍下采樣方案,這一設計更簡潔高效,生成質(zhì)量更優(yōu)。對于條件圖像輸入,采用了雙編碼器,將 VAE 與視覺編碼器的潛層特征拼接,實現(xiàn)統(tǒng)一的多模態(tài)表示,同時支持圖像理解與生成任務。
- 投影器(Projector):使用雙投影器將圖像特征對齊至 Transformer 潛空間,其中 VAE 特征經(jīng)時間步調(diào)制的殘差塊進行映射,視覺特征經(jīng)兩層 MLP 進行轉(zhuǎn)換,并融合時間步嵌入以增強擴散條件控制。
數(shù)據(jù)構(gòu)建上,團隊首先對一個超百億規(guī)模的原始圖像庫進行篩選,僅保留不足 45% 的初始數(shù)據(jù),最終獲得近 50 億張圖像構(gòu)成的純凈、優(yōu)質(zhì)且多樣化的數(shù)據(jù)集。
接下來是圖像描述生成,主要作用是生成內(nèi)容豐富、可控且基于事實的圖像描述。
該流程由三大核心組件構(gòu)成:(1)結(jié)構(gòu)化圖像描述的層級化方案,(2)多樣化數(shù)據(jù)增強的組合式合成策略,以及(3)實現(xiàn)事實性實體注入的專用智能體。
最后是思考生圖數(shù)據(jù)集構(gòu)建,為此團隊構(gòu)建了兩種特定的訓練數(shù)據(jù):(1)文本到文本(T2T)推理數(shù)據(jù),用來強化模型邏輯推理能力;(2)文本到文本到圖像(T2TI)推理數(shù)據(jù),該數(shù)據(jù)明確地對從抽象概念到視覺呈現(xiàn)的全過程進行建模。
訓練策略上,分為預訓練與后訓練。
具體而言,預訓練分為四個漸進式階段。第一階段:訓練 Transformer 主干網(wǎng)絡,同時保持 ViT 凍結(jié);第二階段:Transformer 主干網(wǎng)絡保持凍結(jié),使用 MMU 數(shù)據(jù)微調(diào) ViT 及其相關的對齊器模塊 (aligner module) ;第三階段:ViT 和 Transformer 使用更高分辨率(大于 512px)的圖像進行聯(lián)合訓練,并且引入了圖文交錯數(shù)據(jù),以增強多模態(tài)建模能力;在最后階段,訓練圖像被進一步限制在一個高分辨率子集上,其中每張圖像的短邊至少為 1024 像素。用于 MMU 任務的圖像也被限制在高分辨率子集上,以提升理解能力。
訓練期間,團隊保留了圖像的寬高比,從而使得混元圖像 3.0 能夠生成多分辨率圖像。預訓練之后,團隊還進行了專門針對文生圖任務的指令微調(diào),以更好地遵循用戶指令。
混元圖像 3.0 能夠生成多分辨率圖像
接著是后訓練,首先是在一個人工標注的數(shù)據(jù)集上進行 SFT(監(jiān)督微調(diào))。隨后利用 DPO(直接偏好優(yōu)化)解決圖像生成中常見的結(jié)構(gòu)缺陷問題。接下來利用在線強化學習框架 MixGRPO 來優(yōu)化風格、構(gòu)圖、光照等要素,從而減輕圖像失真并減少偽影的存在。最后通過 SRPO 和團隊內(nèi)部提出的獎勵分布對齊(ReDA)方法進行優(yōu)化,進一步提升生成圖像的真實感和清晰度。
得益于上述技術的加持,混元圖像 3.0 在文圖一致性與視覺質(zhì)量方面的表現(xiàn),足以超越 Seedream 4.0、Nano Banana、GPT-Image 等頂尖模型。
在此基礎上,騰訊混元團隊也希望將這一成果回饋社區(qū),通過開源混元圖像 3.0 的代碼與權(quán)重,進一步降低高質(zhì)量多模態(tài)研究的門檻,幫助更多研究者和開發(fā)者在這一前沿模型上開展創(chuàng)新實驗與應用探索。
Hugging Face:
https://huggingface.co/tencent/HunyuanImage-3.0
另外,根據(jù)騰訊混元團隊透露,目前混元圖像 3.0 僅開放了文生圖能力,圖生圖、圖像編輯、多輪交互等版本將于后續(xù)發(fā)布,大家可以再等等。
從模型到生態(tài),打贏 AIGC 這場體系戰(zhàn)
近一兩個月來,AIGC 領域又進入到了一個爆發(fā)期,包括國外谷歌的 Nano-Banano 以及國內(nèi)騰訊的混元圖像 3.0、字節(jié)的 Seedream 4.0,都在全球范圍內(nèi)引發(fā)了廣泛關注。
在圖像生成領域同樣受 Scaling Laws 增益放緩影響的當下,這些「爆款模型」的出現(xiàn)一次次刷新了人們對生成式 AI 能力邊界的認知。從特征來看,這波模型更新向著多模態(tài)融合與智能深化的方向演進,從以往的「能生成」發(fā)展到「能理解、能推理、能控制」;從屬性來看,AI 也正從傳統(tǒng)的創(chuàng)意輔助工具邁向具備自主理解與表達能力的智能內(nèi)容創(chuàng)作引擎。
與此同時,在這場演進中,開源也成為核心推動力。尤其是國內(nèi) AI 大廠與初創(chuàng)公司,越來越多地選擇開放模型權(quán)重,借助社區(qū)分享與協(xié)作實現(xiàn)快速更新迭代。作為國內(nèi)大模型領域的領軍者之一,騰訊同步推進多模態(tài)技術創(chuàng)新與開源生態(tài)建設。
一方面,騰訊圍繞混元模型家族深耕多模態(tài)領域,并持續(xù)有領先成果產(chǎn)出,包括此次圖像領域的混元圖像 3.0、3D 領域的混元 3D 3.0、視頻領域的 HunyuanVideo 以及世界模型 HunyunWorld-1.0,由此形成的全棧式 AIGC 體系為騰訊在多模態(tài)智能與內(nèi)容生成領域的長遠布局做足了準備。
當然,騰訊也在積極布局開源。上月初開源的混元翻譯模型 Hunyuan-MT-7B 以及最新的世界模型 HunyuanWorld-Voyager 一度在 Hugging Face 模型趨勢榜單前三中占據(jù)兩席。
加之騰訊覆蓋面極廣的業(yè)務矩陣,包括社交、內(nèi)容生產(chǎn)、廣告推薦、游戲,為技術的落地提供了豐富的場景和數(shù)據(jù)支撐。從模型能力到開源生態(tài)再到多場景落地,完整的 AIGC「鏈條」已經(jīng)形成。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.