網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“雞排哥”的走紅名場(chǎng)面，騰訊混元圖像都整明白了

2025-09-28 18:18:34　來(lái)源: 智東西

北京舉報(bào)

分享至

AI應(yīng)用風(fēng)向標(biāo)（公眾號(hào)：ZhidxcomAI）
作者｜江宇
編輯｜漠影

智東西9月28日?qǐng)?bào)道，騰訊今日正式開(kāi)源其全新一代原生多模態(tài)圖像生成模型“HunyuanImage 3.0”。

該模型參數(shù)規(guī)模達(dá)80B，是當(dāng)前業(yè)界參數(shù)最大、能力最強(qiáng)的開(kāi)源生圖模型之一，具備復(fù)雜語(yǔ)義理解、文字生成與世界知識(shí)推理等能力，其效果對(duì)標(biāo)業(yè)界頭部閉源模型。

作為首個(gè)工業(yè)級(jí)原生多模態(tài)開(kāi)源模型，它能夠基于長(zhǎng)文本指令完成結(jié)構(gòu)明確、語(yǔ)義復(fù)雜的圖像生成，在構(gòu)圖、排版、美學(xué)風(fēng)格等方面也展現(xiàn)出擬人化的判斷力。

模型體驗(yàn)入口（需要通過(guò)電腦端訪問(wèn)）：

https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289

騰訊混元官網(wǎng)：

https://hunyuan.tencent.com/image

Github：

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

Hugging Face：

https://huggingface.co/tencent/HunyuanImage-3.0

一、體驗(yàn)：做出“雞排哥”的金句海報(bào)，配色神似老干媽

最近在社交平臺(tái)上，來(lái)自江西景德鎮(zhèn)的“雞排哥”李俊永突然走紅。這次智東西拿到了HunyuanImage 3.0模型的體驗(yàn)權(quán)限，試著讓它完整復(fù)刻這位“雞排主理人”的一天。

1、四點(diǎn)半前不要排隊(duì)？告示得貼出來(lái)

李俊永有個(gè)規(guī)矩，四點(diǎn)半前不接散客，只賣學(xué)生。我們第一步輸入指令，希望模型生成一個(gè)“還沒(méi)正式開(kāi)攤”的告示：

Prompt：“需要一張貼在簡(jiǎn)陋小吃推車上的告示牌，上方有一個(gè)卡通雞排攤主頭像，黑色頭發(fā)，手里拿著雞排。牌子中間用黃色中文寫(xiě)著：四點(diǎn)半后不接散客、學(xué)生便宜1元、請(qǐng)?zhí)崆按蜷_(kāi)塑料袋”

生成效果：模型成功還原出“簡(jiǎn)陋小吃推車”的現(xiàn)實(shí)質(zhì)感，攤位與海報(bào)的細(xì)節(jié)處理得很自然，海報(bào)的邊邊角角也超具真實(shí)感，關(guān)鍵的是海報(bào)上的中文標(biāo)語(yǔ)清晰完整，沒(méi)有出現(xiàn)亂碼。

比起“能畫(huà)”，這一步主要驗(yàn)證它能不能把“世界知識(shí)+規(guī)定文字”都反映出來(lái)，這組小測(cè)試通過(guò)。

2、學(xué)生放學(xué)排長(zhǎng)隊(duì)，“袋子文學(xué)”上線

四點(diǎn)半一過(guò)，學(xué)生下課，雞排哥正式開(kāi)麥：“請(qǐng)打開(kāi)你的袋子，我需要的是速度。”于是我們給模型出題，模擬高峰期攤位和金句喊麥。

Prompt：“一個(gè)簡(jiǎn)陋小吃推車正值高峰時(shí)段，排滿穿校服的學(xué)生，攤主（黑色頭發(fā)、白色上衣、身型較瘦）動(dòng)作麻利，一邊炸雞排喊話說(shuō)‘請(qǐng)打開(kāi)你的袋子’”

生成效果：這一幕的還原度相當(dāng)高——學(xué)生身上校服沒(méi)錯(cuò)、攤主在操作油鍋、甚至人物張嘴講話的動(dòng)態(tài)都能看出是喊話的語(yǔ)氣，有幾張圖頗有“雞排哥”的神韻。可見(jiàn)，該模型支持復(fù)雜語(yǔ)義下的場(chǎng)景推理。

3、雞排海報(bào)也講人設(shè)？來(lái)點(diǎn)主理人式金句

既然攤主走紅的原因之一是“嘴上有貨”，那我們就搞一張“雞排哥語(yǔ)錄海報(bào)”。

Prompt：“一個(gè)豎版簡(jiǎn)陋小吃推車的海報(bào)，背景是炸雞排特寫(xiě)，中央是雞排主理人頭像（黑色頭發(fā)、白色上衣、身型較瘦），底部大字寫(xiě)著‘吃飽了還想吃？對(duì)自己好點(diǎn)，再好一點(diǎn)點(diǎn)’，整體風(fēng)格紅黃為主，像街頭招貼”

生成效果：模型的文字排版能力很驚艷，字體、布局、配色都高度貼近現(xiàn)實(shí)街頭風(fēng)，還沿用了“老干媽”的海報(bào)風(fēng)格。

4、“雞排世家”營(yíng)業(yè)中

現(xiàn)實(shí)中，雞排攤后來(lái)成了“雞排世家”，老板本人負(fù)責(zé)主炸，“雞排嫂”、“雞排奶”、“雞排舅”都來(lái)幫忙。我們來(lái)還原這場(chǎng)“雞排總動(dòng)員”：

Prompt：“一個(gè)熱鬧的簡(jiǎn)陋小吃推車前，四位家人正在分工合作，攤主（黑色頭發(fā)、白色上衣、身型較瘦）炸雞排，妻子協(xié)助制作雞排，母親負(fù)責(zé)給雞排裹粉，小舅子腌制雞排，有很多客人邊拿著手機(jī)邊等待”

生成效果：模型準(zhǔn)確生成了多角色主體，服裝風(fēng)格統(tǒng)一，動(dòng)作自然。該模型基于語(yǔ)義理解進(jìn)行場(chǎng)景還原和排布的能力，還是很在線的。

5、6元雞排能吃出600元服務(wù)？圖也能整出來(lái)

雞排哥有句名言：“6元雞排吃出了60元的情緒價(jià)值和600元的服務(wù)體驗(yàn)?！蔽覀兙陀盟鲎詈髢砂妗皬V告圖”，一個(gè)重情景，而另一個(gè)重產(chǎn)品。

Prompt 1：“一位顧客坐在長(zhǎng)椅上吃雞排，表情滿足，背景是夜色攤位燈光，畫(huà)面中間用金色手寫(xiě)字寫(xiě)著：‘6元雞排，600元體驗(yàn)’，整體氛圍像品牌廣告大片”

Prompt 2：“雞排廣告，手寫(xiě)廣告語(yǔ)：‘6元雞排，600元體驗(yàn)’，整體氛圍像奢侈品廣告大片，奢華有格調(diào)”

生成效果：這一步體現(xiàn)了HunyuanImage 3.0的“構(gòu)圖、情緒、文字”三項(xiàng)能力：畫(huà)面情緒把握得準(zhǔn)、手寫(xiě)字體無(wú)亂碼、整體構(gòu)圖自然。

6、雞排哥的“梗圖宇宙”，出圖啦！

在完成“語(yǔ)錄海報(bào)”和“品牌廣告”之后，我們進(jìn)一步測(cè)試模型是否能搞定雞排哥在網(wǎng)絡(luò)上流傳的梗圖？

Prompt 1：創(chuàng)作一張職場(chǎng)梗圖表情包，畫(huà)面核心是一位忙碌的雞排攤主（黑色頭發(fā)、白色上衣、身型偏瘦，動(dòng)作麻利，在小吃攤前烹飪），周圍環(huán)繞著標(biāo)注身份的人群：‘同事’‘客戶’‘大領(lǐng)導(dǎo)’‘小領(lǐng)導(dǎo)’‘其他部門(mén)同事’，上方配黃色大字文案：‘當(dāng)距離下班還有2小時(shí)，突然有一大堆工作找上門(mén)，而你只想準(zhǔn)時(shí)下班’，中間標(biāo)注‘我：’指向忙碌的攤主。整體風(fēng)格為現(xiàn)實(shí)場(chǎng)景與文字標(biāo)注結(jié)合的搞笑梗圖，色彩貼近真實(shí)街景，人物動(dòng)作突出忙碌感，文字排版清晰醒目，營(yíng)造職場(chǎng)忙碌又無(wú)奈的情緒。

我們將指令稍加改動(dòng)，就能讓主體變成海綿寶寶，整體畫(huà)風(fēng)也毫無(wú)違和。

同樣，雞排哥上班的“炸場(chǎng)圖”也能搞定。

Prompt 2：創(chuàng)作一張街頭梗圖表情包，畫(huà)面核心是一位騎淺藍(lán)色三輪電動(dòng)車的攤主，頭戴灰色頭盔，身穿白色T恤，車上載著‘回頭客雞柳雞排’的紅色招牌（帶‘智造美味成就經(jīng)典’黃色標(biāo)語(yǔ)和美食圖片）。周圍有舉著手機(jī)拍攝的人群，背景有紅色遮陽(yáng)傘、寫(xiě)著‘衢州鴨頭’的招牌和綠樹(shù)。整體風(fēng)格為寫(xiě)實(shí)街景與市井氛圍結(jié)合的搞笑梗圖，突出攤位的復(fù)古感和人群的圍觀互動(dòng)感，色彩鮮艷充滿煙火氣，營(yíng)造出網(wǎng)紅小吃攤的熱鬧場(chǎng)景。

生成效果：在這一組體驗(yàn)中，模型不僅能準(zhǔn)確生成主體文字，還能在背景和多主體場(chǎng)景中保持長(zhǎng)文本渲染的完整性與一致性。

HunyuanImage 3.0在這個(gè)“雞排哥的復(fù)刻挑戰(zhàn)”里，成功完成了多個(gè)維度的能力驗(yàn)證：

1、對(duì)現(xiàn)實(shí)人物設(shè)定和社會(huì)場(chǎng)景的知識(shí)推理力

2、對(duì)圖中文字生成能力

3、對(duì)復(fù)雜語(yǔ)義的理解能力

4、美學(xué)控制力

下次如果雞排主理人考慮拓展品牌，或許真可以考慮這位“AI美工助理”了。

二、不是拼湊，而是“一個(gè)模型”在理解和生成

HunyuanImage 3.0是業(yè)內(nèi)首個(gè)開(kāi)源的工業(yè)級(jí)原生多模態(tài)圖像模型。與傳統(tǒng)通過(guò)“語(yǔ)言模型+圖像模型”拼接實(shí)現(xiàn)圖文理解不同，它采用統(tǒng)一的架構(gòu)來(lái)處理文字、圖像等多模態(tài)輸入輸出，生成過(guò)程由一個(gè)模型內(nèi)部完成。

這使得模型具備了類人“認(rèn)知式”圖像構(gòu)建能力。以“雞排哥”體驗(yàn)中的例子來(lái)看，用戶無(wú)需分步驟拆解每個(gè)細(xì)節(jié)，模型即可根據(jù)整段語(yǔ)義自動(dòng)推理出“誰(shuí)在做什么、什么時(shí)候做、要傳達(dá)什么”。比如在“攤主喊話學(xué)生打開(kāi)袋子”的畫(huà)面中，模型不僅還原了人物動(dòng)作，還捕捉到“喊話”的嘴型與“高峰時(shí)段”的攤位人流，體現(xiàn)出模型在處理“時(shí)間、身份、行為”三重語(yǔ)義時(shí)的統(tǒng)一理解能力。

這背后依賴的是騰訊團(tuán)隊(duì)自研的Hunyuan-A13B基座模型，聯(lián)合50億圖文對(duì)、視頻幀、圖文交織內(nèi)容與6T語(yǔ)料進(jìn)行混合訓(xùn)練，協(xié)同優(yōu)化語(yǔ)義理解、知識(shí)調(diào)用、視覺(jué)生成等能力。

在實(shí)測(cè)中，HunyuanImage 3.0表現(xiàn)出兩個(gè)重要能力的結(jié)合：一是圖中文字的準(zhǔn)確生成，二是整體畫(huà)面的美學(xué)質(zhì)感。

針對(duì)“雞排哥語(yǔ)錄”與“6元雞排，600元體驗(yàn)”等視覺(jué)海報(bào)類內(nèi)容，模型不僅生成了排版合理、無(wú)亂碼的中文大字，文字與畫(huà)面主題也能高度貼合，都呈現(xiàn)出一定的“設(shè)計(jì)意識(shí)”，而非單純的圖文疊加。

這說(shuō)明HunyuanImage 3.0不僅能“讀懂”文字內(nèi)容，還能“設(shè)計(jì)”如何呈現(xiàn)文字。這類圖文融合能力，使其在廣告、電商、宣傳海報(bào)等垂類應(yīng)用中具備直接可用性。

結(jié)語(yǔ)：AI生圖，不只是“能畫(huà)”那么簡(jiǎn)單

從“還沒(méi)開(kāi)攤的雞排車”到“600元情緒價(jià)值的廣告大片”，HunyuanImage 3.0在一次真實(shí)的雞排哥復(fù)刻挑戰(zhàn)中，展現(xiàn)出對(duì)復(fù)雜語(yǔ)義、社會(huì)場(chǎng)景、視覺(jué)美學(xué)一定的把控力。

對(duì)于需要快速生成商業(yè)海報(bào)、場(chǎng)景圖、情緒表達(dá)圖的用戶而言，HunyuanImage 3.0可以是一個(gè)穩(wěn)得住的創(chuàng)作助手；而對(duì)希望深度定制視覺(jué)風(fēng)格的開(kāi)發(fā)者來(lái)說(shuō)，作為開(kāi)源模型，它也具備進(jìn)一步微調(diào)與衍生開(kāi)發(fā)的空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.