AI應(yīng)用風(fēng)向標(biāo)(公眾號(hào):ZhidxcomAI)
作者|江宇
編輯|漠影
智東西9月28日?qǐng)?bào)道,騰訊今日正式開(kāi)源其全新一代原生多模態(tài)圖像生成模型“HunyuanImage 3.0”。
該模型參數(shù)規(guī)模達(dá)80B,是當(dāng)前業(yè)界參數(shù)最大、能力最強(qiáng)的開(kāi)源生圖模型之一,具備復(fù)雜語(yǔ)義理解、文字生成與世界知識(shí)推理等能力,其效果對(duì)標(biāo)業(yè)界頭部閉源模型。
作為首個(gè)工業(yè)級(jí)原生多模態(tài)開(kāi)源模型,它能夠基于長(zhǎng)文本指令完成結(jié)構(gòu)明確、語(yǔ)義復(fù)雜的圖像生成,在構(gòu)圖、排版、美學(xué)風(fēng)格等方面也展現(xiàn)出擬人化的判斷力。
模型體驗(yàn)入口(需要通過(guò)電腦端訪問(wèn)):
https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289
騰訊混元官網(wǎng):
https://hunyuan.tencent.com/image
Github:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face:
https://huggingface.co/tencent/HunyuanImage-3.0
一、體驗(yàn):做出“雞排哥”的金句海報(bào),配色神似老干媽
最近在社交平臺(tái)上,來(lái)自江西景德鎮(zhèn)的“雞排哥”李俊永突然走紅。這次智東西拿到了HunyuanImage 3.0模型的體驗(yàn)權(quán)限,試著讓它完整復(fù)刻這位“雞排主理人”的一天。
1、四點(diǎn)半前不要排隊(duì)?告示得貼出來(lái)
李俊永有個(gè)規(guī)矩,四點(diǎn)半前不接散客,只賣學(xué)生。我們第一步輸入指令,希望模型生成一個(gè)“還沒(méi)正式開(kāi)攤”的告示:
Prompt:“需要一張貼在簡(jiǎn)陋小吃推車上的告示牌,上方有一個(gè)卡通雞排攤主頭像,黑色頭發(fā),手里拿著雞排。牌子中間用黃色中文寫(xiě)著:四點(diǎn)半后不接散客、學(xué)生便宜1元、請(qǐng)?zhí)崆按蜷_(kāi)塑料袋”
生成效果:模型成功還原出“簡(jiǎn)陋小吃推車”的現(xiàn)實(shí)質(zhì)感,攤位與海報(bào)的細(xì)節(jié)處理得很自然,海報(bào)的邊邊角角也超具真實(shí)感,關(guān)鍵的是海報(bào)上的中文標(biāo)語(yǔ)清晰完整,沒(méi)有出現(xiàn)亂碼。
比起“能畫(huà)”,這一步主要驗(yàn)證它能不能把“世界知識(shí)+規(guī)定文字”都反映出來(lái),這組小測(cè)試通過(guò)。
2、學(xué)生放學(xué)排長(zhǎng)隊(duì),“袋子文學(xué)”上線
四點(diǎn)半一過(guò),學(xué)生下課,雞排哥正式開(kāi)麥:“請(qǐng)打開(kāi)你的袋子,我需要的是速度。”于是我們給模型出題,模擬高峰期攤位和金句喊麥。
Prompt:“一個(gè)簡(jiǎn)陋小吃推車正值高峰時(shí)段,排滿穿校服的學(xué)生,攤主(黑色頭發(fā)、白色上衣、身型較瘦)動(dòng)作麻利,一邊炸雞排喊話說(shuō)‘請(qǐng)打開(kāi)你的袋子’”
生成效果:這一幕的還原度相當(dāng)高——學(xué)生身上校服沒(méi)錯(cuò)、攤主在操作油鍋、甚至人物張嘴講話的動(dòng)態(tài)都能看出是喊話的語(yǔ)氣,有幾張圖頗有“雞排哥”的神韻。可見(jiàn),該模型支持復(fù)雜語(yǔ)義下的場(chǎng)景推理。
3、雞排海報(bào)也講人設(shè)?來(lái)點(diǎn)主理人式金句
既然攤主走紅的原因之一是“嘴上有貨”,那我們就搞一張“雞排哥語(yǔ)錄海報(bào)”。
Prompt:“一個(gè)豎版簡(jiǎn)陋小吃推車的海報(bào),背景是炸雞排特寫(xiě),中央是雞排主理人頭像(黑色頭發(fā)、白色上衣、身型較瘦),底部大字寫(xiě)著‘吃飽了還想吃?對(duì)自己好點(diǎn),再好一點(diǎn)點(diǎn)’,整體風(fēng)格紅黃為主,像街頭招貼”
生成效果:模型的文字排版能力很驚艷,字體、布局、配色都高度貼近現(xiàn)實(shí)街頭風(fēng),還沿用了“老干媽”的海報(bào)風(fēng)格。
4、“雞排世家”營(yíng)業(yè)中
現(xiàn)實(shí)中,雞排攤后來(lái)成了“雞排世家”,老板本人負(fù)責(zé)主炸,“雞排嫂”、“雞排奶”、“雞排舅”都來(lái)幫忙。我們來(lái)還原這場(chǎng)“雞排總動(dòng)員”:
Prompt:“一個(gè)熱鬧的簡(jiǎn)陋小吃推車前,四位家人正在分工合作,攤主(黑色頭發(fā)、白色上衣、身型較瘦)炸雞排,妻子協(xié)助制作雞排,母親負(fù)責(zé)給雞排裹粉,小舅子腌制雞排,有很多客人邊拿著手機(jī)邊等待”
生成效果:模型準(zhǔn)確生成了多角色主體,服裝風(fēng)格統(tǒng)一,動(dòng)作自然。該模型基于語(yǔ)義理解進(jìn)行場(chǎng)景還原和排布的能力,還是很在線的。
5、6元雞排能吃出600元服務(wù)?圖也能整出來(lái)
雞排哥有句名言:“6元雞排吃出了60元的情緒價(jià)值和600元的服務(wù)體驗(yàn)?!蔽覀兙陀盟鲎詈髢砂妗皬V告圖”,一個(gè)重情景,而另一個(gè)重產(chǎn)品。
Prompt 1:“一位顧客坐在長(zhǎng)椅上吃雞排,表情滿足,背景是夜色攤位燈光,畫(huà)面中間用金色手寫(xiě)字寫(xiě)著:‘6元雞排,600元體驗(yàn)’,整體氛圍像品牌廣告大片”
Prompt 2:“雞排廣告,手寫(xiě)廣告語(yǔ):‘6元雞排,600元體驗(yàn)’,整體氛圍像奢侈品廣告大片,奢華有格調(diào)”
生成效果:這一步體現(xiàn)了HunyuanImage 3.0的“構(gòu)圖、情緒、文字”三項(xiàng)能力:畫(huà)面情緒把握得準(zhǔn)、手寫(xiě)字體無(wú)亂碼、整體構(gòu)圖自然。
6、雞排哥的“梗圖宇宙”,出圖啦!
在完成“語(yǔ)錄海報(bào)”和“品牌廣告”之后,我們進(jìn)一步測(cè)試模型是否能搞定雞排哥在網(wǎng)絡(luò)上流傳的梗圖?
Prompt 1:創(chuàng)作一張職場(chǎng)梗圖表情包,畫(huà)面核心是一位忙碌的雞排攤主(黑色頭發(fā)、白色上衣、身型偏瘦,動(dòng)作麻利,在小吃攤前烹飪),周圍環(huán)繞著標(biāo)注身份的人群:‘同事’‘客戶’‘大領(lǐng)導(dǎo)’‘小領(lǐng)導(dǎo)’‘其他部門(mén)同事’,上方配黃色大字文案:‘當(dāng)距離下班還有2小時(shí),突然有一大堆工作找上門(mén),而你只想準(zhǔn)時(shí)下班’,中間標(biāo)注‘我:’指向忙碌的攤主。整體風(fēng)格為現(xiàn)實(shí)場(chǎng)景與文字標(biāo)注結(jié)合的搞笑梗圖,色彩貼近真實(shí)街景,人物動(dòng)作突出忙碌感,文字排版清晰醒目,營(yíng)造職場(chǎng)忙碌又無(wú)奈的情緒。
我們將指令稍加改動(dòng),就能讓主體變成海綿寶寶,整體畫(huà)風(fēng)也毫無(wú)違和。
同樣,雞排哥上班的“炸場(chǎng)圖”也能搞定。
Prompt 2:創(chuàng)作一張街頭梗圖表情包,畫(huà)面核心是一位騎淺藍(lán)色三輪電動(dòng)車的攤主,頭戴灰色頭盔,身穿白色T恤,車上載著‘回頭客 雞柳雞排’的紅色招牌(帶‘智造美味 成就經(jīng)典’黃色標(biāo)語(yǔ)和美食圖片)。周圍有舉著手機(jī)拍攝的人群,背景有紅色遮陽(yáng)傘、寫(xiě)著‘衢州鴨頭’的招牌和綠樹(shù)。整體風(fēng)格為寫(xiě)實(shí)街景與市井氛圍結(jié)合的搞笑梗圖,突出攤位的復(fù)古感和人群的圍觀互動(dòng)感,色彩鮮艷充滿煙火氣,營(yíng)造出網(wǎng)紅小吃攤的熱鬧場(chǎng)景。
生成效果:在這一組體驗(yàn)中,模型不僅能準(zhǔn)確生成主體文字,還能在背景和多主體場(chǎng)景中保持長(zhǎng)文本渲染的完整性與一致性。
HunyuanImage 3.0在這個(gè)“雞排哥的復(fù)刻挑戰(zhàn)”里,成功完成了多個(gè)維度的能力驗(yàn)證:
1、對(duì)現(xiàn)實(shí)人物設(shè)定和社會(huì)場(chǎng)景的知識(shí)推理力
2、對(duì)圖中文字生成能力
3、對(duì)復(fù)雜語(yǔ)義的理解能力
4、美學(xué)控制力
下次如果雞排主理人考慮拓展品牌,或許真可以考慮這位“AI美工助理”了。
二、不是拼湊,而是“一個(gè)模型”在理解和生成
HunyuanImage 3.0是業(yè)內(nèi)首個(gè)開(kāi)源的工業(yè)級(jí)原生多模態(tài)圖像模型。與傳統(tǒng)通過(guò)“語(yǔ)言模型+圖像模型”拼接實(shí)現(xiàn)圖文理解不同,它采用統(tǒng)一的架構(gòu)來(lái)處理文字、圖像等多模態(tài)輸入輸出,生成過(guò)程由一個(gè)模型內(nèi)部完成。
這使得模型具備了類人“認(rèn)知式”圖像構(gòu)建能力。以“雞排哥”體驗(yàn)中的例子來(lái)看,用戶無(wú)需分步驟拆解每個(gè)細(xì)節(jié),模型即可根據(jù)整段語(yǔ)義自動(dòng)推理出“誰(shuí)在做什么、什么時(shí)候做、要傳達(dá)什么”。比如在“攤主喊話學(xué)生打開(kāi)袋子”的畫(huà)面中,模型不僅還原了人物動(dòng)作,還捕捉到“喊話”的嘴型與“高峰時(shí)段”的攤位人流,體現(xiàn)出模型在處理“時(shí)間、身份、行為”三重語(yǔ)義時(shí)的統(tǒng)一理解能力。
這背后依賴的是騰訊團(tuán)隊(duì)自研的Hunyuan-A13B基座模型,聯(lián)合50億圖文對(duì)、視頻幀、圖文交織內(nèi)容與6T語(yǔ)料進(jìn)行混合訓(xùn)練,協(xié)同優(yōu)化語(yǔ)義理解、知識(shí)調(diào)用、視覺(jué)生成等能力。
在實(shí)測(cè)中,HunyuanImage 3.0表現(xiàn)出兩個(gè)重要能力的結(jié)合:一是圖中文字的準(zhǔn)確生成,二是整體畫(huà)面的美學(xué)質(zhì)感。
針對(duì)“雞排哥語(yǔ)錄”與“6元雞排,600元體驗(yàn)”等視覺(jué)海報(bào)類內(nèi)容,模型不僅生成了排版合理、無(wú)亂碼的中文大字,文字與畫(huà)面主題也能高度貼合,都呈現(xiàn)出一定的“設(shè)計(jì)意識(shí)”,而非單純的圖文疊加。
這說(shuō)明HunyuanImage 3.0不僅能“讀懂”文字內(nèi)容,還能“設(shè)計(jì)”如何呈現(xiàn)文字。這類圖文融合能力,使其在廣告、電商、宣傳海報(bào)等垂類應(yīng)用中具備直接可用性。
結(jié)語(yǔ):AI生圖,不只是“能畫(huà)”那么簡(jiǎn)單
從“還沒(méi)開(kāi)攤的雞排車”到“600元情緒價(jià)值的廣告大片”,HunyuanImage 3.0在一次真實(shí)的雞排哥復(fù)刻挑戰(zhàn)中,展現(xiàn)出對(duì)復(fù)雜語(yǔ)義、社會(huì)場(chǎng)景、視覺(jué)美學(xué)一定的把控力。
對(duì)于需要快速生成商業(yè)海報(bào)、場(chǎng)景圖、情緒表達(dá)圖的用戶而言,HunyuanImage 3.0可以是一個(gè)穩(wěn)得住的創(chuàng)作助手;而對(duì)希望深度定制視覺(jué)風(fēng)格的開(kāi)發(fā)者來(lái)說(shuō),作為開(kāi)源模型,它也具備進(jìn)一步微調(diào)與衍生開(kāi)發(fā)的空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.