不圓 一水 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
小某書最新起號(hào)方式,還得看AI(doge)。
這兩天打開一看,幾乎全被各種精致逼真的手辦圖刷屏了:
而且仔細(xì)一扒,甭管是AI圈、二次元圈還是騎行圈等等,感覺大家一下子都在玩。
so,發(fā)生了啥?到底是什么引得大家如此動(dòng)作一致?
時(shí)刻游走在吃瓜第一線的量子位趕緊去瞧了瞧,結(jié)果發(fā)現(xiàn),這不是最近爆火的圖像編輯模型nano-banana嘛。
這個(gè)模型起初在LMArena平臺(tái)匿名出現(xiàn),后來因生圖表現(xiàn)太好突然爆火,繼而引得無數(shù)網(wǎng)友猜測(cè)其歸屬。
直到兩天之前,谷歌才終于站出來認(rèn)領(lǐng)了該模型,并表示其真身為Gemini 2.5 Flash Image。
而隨著nano-banana揭開神秘面紗,國(guó)內(nèi)外網(wǎng)友更是掀起了一波瘋狂試玩的熱潮,其中手辦尤其受到大家的青睞。
所以,如何用nano-banana生成同款手辦?提示詞該怎么寫?
量子位手把手教程這就奉上——
實(shí)測(cè)爆火手辦玩法
不賣關(guān)子,先看看網(wǎng)上爆火的生成“真實(shí)手辦”的提示詞。
Use the nano-banana model to create a 1/7 scale model, in a realistic style and environment. Place the figure on a computer desk, using a circular transparent acrylic base without any text.On the computer screen, display the ZBrush modeling process of the figure.Next to the computer screen, place a TAMIYA-style toy packaging box printedwith the original artwork.
(中譯方便對(duì)照版:使用nano-banana模型制作一個(gè)1/7比例的實(shí)體模型,風(fēng)格和環(huán)境保持寫實(shí)。將模型擺放在電腦桌上,底座為圓形透明亞克力材質(zhì),且不帶任何文字。電腦屏幕上顯示的是該模型在ZBrush中的建模過程。在電腦屏幕旁邊,放置一個(gè)TAMIYA風(fēng)格的玩具包裝盒,包裝盒上印有原始插畫。)
就用這套提示詞和Gemini 2.5 Flash,讓我們?cè)囋囁畘
(PS:支持中文提示詞,但偶爾會(huì)出現(xiàn)錯(cuò)誤,需要多試幾次,建議使用英文。)
以動(dòng)漫角色為參考圖,生成的“手辦”效果確實(shí)不錯(cuò)。
出乎意料的是,只用了上面的提示詞,它居然可以識(shí)別出是艾倫耶格爾(盒子上有他的名字)。
而且即使不是全身像也可以生成,但參考圖以外的部位可能會(huì)有一些奇怪的地方。
可是一想到是銀魂就覺得很合理怎么回事。
用家里的毛孩子作為參考圖,簡(jiǎn)直是讓人大呼“購買鏈接在哪里”的程度……
貓貓和狗狗都非??蓯?。
要是能結(jié)合3D打印做出來就更好了(真的可以)。
雖然網(wǎng)上的案例已經(jīng)很多了,但讓我們?cè)僭囋?strong>真人效果呢。
親測(cè),最好使用全身圖。
只要是全身圖就能成,包括這種搞怪動(dòng)作亂飛的。
非常適合……你知道的,哪怕不是給自己,誰手里沒幾張好朋友的怪照片呢?
美中不足的是生成的“手辦”好像沒有支撐,但再補(bǔ)充一句就行。
- 上面的模型飄起來了,給它加個(gè)支撐。
這些玩法也很火
除了手辦,nano-banana還有一些腦洞大開的玩法也很火。
它可以同時(shí)結(jié)合3張圖片進(jìn)行創(chuàng)作,既然如此,有網(wǎng)友意識(shí)到,為什么不試著控制角色的姿態(tài)呢。
還可以結(jié)合視頻生成模型創(chuàng)作連貫的動(dòng)畫。
不需要太過完整的動(dòng)作示例(雖然使用詳細(xì)示例可能會(huì)更精細(xì)),火柴人小草圖同樣可行。
也有網(wǎng)友選擇打破次元壁,讓二次元人物成為真人出現(xiàn)在漫展場(chǎng)地。
這和真實(shí)的cosplayer有什么差別?
上述玩法我們也“順帶”實(shí)測(cè)了一下,提示詞放在下面了,一起看看效果:
- 讓圖一和圖二的角色擺出圖三的姿勢(shì),一條手臂搭在對(duì)方的肩膀上,另一條手臂比心。
- 讓圖一和圖二的角色以圖三的姿勢(shì)戰(zhàn)斗,一個(gè)人出拳,一個(gè)人用腿踢。
- 生成一張真人扮演這張插畫的照片,背景設(shè)置為Comiket。
是生圖(指沒有修過的原圖)啊,完全是coser生圖?。?/p>
團(tuán)隊(duì)透露背后技術(shù)細(xì)節(jié)
通過以上實(shí)測(cè)不難發(fā)現(xiàn),nano-banana確實(shí)有點(diǎn)東西。
趁熱打鐵,谷歌AI Studio負(fù)責(zé)人Logan Kilpatrick(最右)最近還采訪了這個(gè)項(xiàng)目背后的團(tuán)隊(duì)。
從左到右分別是:研究工程師Kaushik Shivakumar、研究工程師Robert Riachi、小組產(chǎn)品經(jīng)理Nicole Brichtova、研究科學(xué)家Mostafa Dehghani。
略過開頭的產(chǎn)品功能介紹和演示環(huán)節(jié),咱們直接來看看背后的核心技術(shù)原理。
第一,以文本渲染作為核心指標(biāo)來快速衡量模型性能。
對(duì)圖像生成模型來說,一個(gè)無法回避的難題是如何進(jìn)行有效評(píng)估。傳統(tǒng)的評(píng)估方法嚴(yán)重依賴“人類偏好評(píng)估”,不僅非常主觀,而且需要耗費(fèi)大量昂貴人力。
為此團(tuán)隊(duì)提出了一個(gè)新的替代指標(biāo)——文本渲染。按照Robert Riachi的話來說:
- 當(dāng)模型能處理好這種復(fù)雜的文字結(jié)構(gòu)時(shí),它同樣也能學(xué)會(huì)圖像里的其他結(jié)構(gòu)。
Kaushik Shivakumar進(jìn)一步解釋,之所以使用這個(gè)指標(biāo),還是因?yàn)橐恢币詠韼缀跛心P投紵o法很好解決文本渲染的問題。
- 它為模型訓(xùn)練提供了一個(gè)客觀、可量化且不易飽和的衡量標(biāo)準(zhǔn)。相比于很快就會(huì)觸及瓶頸的其他自動(dòng)化圖像質(zhì)量指標(biāo),文本渲染的難度足夠大,能夠持續(xù)為模型的改進(jìn)提供指引。
而且有趣的是,這一做法還帶來了意料之外的好處——一些原本并非針對(duì)文本渲染的改動(dòng),卻意外地提升了該指標(biāo)的表現(xiàn)。
不過需要提醒,這并非意味著完全放棄了人工評(píng)估,只是考慮到訓(xùn)練成本,文本渲染可以作為一種更高效、經(jīng)濟(jì)且可靠的替代方案。
第二,通過原生多模態(tài)與交錯(cuò)式生成,實(shí)現(xiàn)復(fù)雜編輯與情境感知。
團(tuán)隊(duì)提到,該模型的核心優(yōu)勢(shì)在于原生多模態(tài)。原生多模態(tài)意味著圖像的理解和生成能力被深度整合進(jìn)了一個(gè)模型中,而非兩個(gè)系統(tǒng)的簡(jiǎn)單拼接。
之所以要采用原生多模態(tài),主要目標(biāo)是在不同模態(tài)和能力之間實(shí)現(xiàn)“正向遷移”。
就拿之前經(jīng)常提到的數(shù)手指案例來說,明明圖片上是6只手指,但AI可能會(huì)基于文本知識(shí)硬說成5只,而視覺信號(hào)能夠?yàn)槟P蛯W(xué)習(xí)世界知識(shí)提供一條捷徑。
根據(jù)介紹,堪比“一對(duì)姐妹”的圖像理解與生成,其協(xié)同作用在“交錯(cuò)式生成”中得到了最充分的體現(xiàn)。
“交錯(cuò)式生成”被視為該模型實(shí)現(xiàn)復(fù)雜、多輪編輯的關(guān)鍵技術(shù),與傳統(tǒng)模型一次性生成一張圖片不同,交錯(cuò)式生成是一個(gè)連續(xù)的過程——不僅能理解當(dāng)前的文本指令,還能看到并理解對(duì)話歷史中的所有圖片。
Mostafa Dehghani進(jìn)一步指出,它為解決極其復(fù)雜的圖像生成任務(wù)提供了一種全新范式:
- 如果你的提示詞包含了6個(gè)甚至50個(gè)不同的編輯要求,傳統(tǒng)模型很可能在一次生成中無法滿足所有細(xì)節(jié)。但利用交錯(cuò)式生成,模型可以將這個(gè)復(fù)雜任務(wù)分解為多個(gè)步驟,在不同的對(duì)話輪次中逐一完成編輯。
第三,該模型的進(jìn)步離不開對(duì)上一代模型的深入反思和對(duì)用戶反饋的積極響應(yīng)。
根據(jù)透露,團(tuán)隊(duì)會(huì)直接在等社交平臺(tái)上搜集用戶反饋,將用戶報(bào)告的失敗案例系統(tǒng)性整理起來,并將其構(gòu)建成內(nèi)部的評(píng)估基準(zhǔn)。
也就是說,每一個(gè)新版本的模型都必須在這些來自真實(shí)世界挑戰(zhàn)的測(cè)試集上證明自己。
具體而言,這些曾經(jīng)出現(xiàn)的bug包括:
1、像素級(jí)精確編輯:在Imagen 2.0中,用戶在嘗試對(duì)圖像進(jìn)行局部編輯時(shí),模型可能會(huì)在添加新元素的同時(shí)不必要地改變圖像的其他部分。
2、角色一致性:Imagen 2.0已經(jīng)能夠在不改變角色位置的情況下為其添加帽子或改變表情。而新模型則實(shí)現(xiàn)了更高層次的一致性,能夠從不同角度渲染同一個(gè)角色,生成看起來完全是同一個(gè)人的側(cè)面或背面視圖。它還可以將一件家具從原始照片中取出,放置到一個(gè)全新的環(huán)境中。
3、更自然的圖像質(zhì)感:之前的編輯操作有時(shí)會(huì)產(chǎn)生不自然的PS感或疊加感。
Anyway,正是因?yàn)閳F(tuán)隊(duì)積極收集用戶反饋,彌補(bǔ)這些曾經(jīng)的短板,新模型這才有了如今的爆火。
未來,谷歌的目標(biāo)是將所有模態(tài)都整合到Gemini中,以實(shí)現(xiàn)AGI。
One More Thing
順帶一提,谷歌這次還計(jì)劃舉辦Nano Banana Hackathon(黑客馬拉松)活動(dòng)。
持續(xù)時(shí)間為2天,屆時(shí)將提供免費(fèi)API使用額度。
獲獎(jiǎng)?wù)哂袡C(jī)會(huì)贏得獎(jiǎng)品和開發(fā)者積分,以及一些和Gemini有關(guān)的“酷炫玩意兒”。
最后,如果你現(xiàn)在想要試玩Nano Banana模型,可以通過AI Studio或Gemini API體驗(yàn)。
也可以直接在Gemini內(nèi)使用。
AI Studio體驗(yàn)地址:
https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-flash-image-preview
參考鏈接:
[1]https://x.com/kei31/status/1961052667381203235
[2]https://x.com/yuhasbeentaken/status/1960778503366041769
[3]https://x.com/kiyoshi_shin/status/1960841949281443874
[4]https://x.com/lakeside529/status/1960875127123632297
[5]http://x.com/OfficialLoganK/status/1961127857192673540
[6]https://x.com/OfficialLoganK/status/1960725463694753930
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.