機(jī)器之心報道
編輯:楊文
神秘AI模型納米香蕉火了,冒出了一批假網(wǎng)站,李鬼和李逵傻傻分不清。
近日,AI社區(qū)又冒出了一個神秘的圖像生成和編輯模型,名叫納米香蕉。
它在 LMArena 平臺的“Battle”模式中被發(fā)現(xiàn),但未在公開排行榜上列出,也沒有官方開發(fā)者明確聲明其所有權(quán)。
很多網(wǎng)友都追蹤著蛛絲馬跡,猜測這可能是谷歌的研究模型
周二,谷歌 AI Studio 產(chǎn)品負(fù)責(zé)人 Logan Kilpatrick 在 X 上發(fā)布了一個香蕉表情符號。
谷歌 DeepMind 產(chǎn)品經(jīng)理 Naina Raisinghani 也發(fā)布了一張與意大利藝術(shù)家 Maurizio Cattelan 2019 年創(chuàng)作的膠帶粘貼香蕉藝術(shù)作品類似的圖片。
再加上谷歌過去曾將其較小的模型稱為“Nano”,以及其生成的圖像與Google的Imagen或Gemini系列相似。
以上種種,似乎都在暗示它出自谷歌之手。
該模型不僅在文本編輯、風(fēng)格融合和場景理解等方面表現(xiàn)更優(yōu),還可以上傳兩張圖片、輸入提示詞將其中的元素融合。
例如,上傳一摞書和臥室床頭柜的圖片,輸入提示詞“將一摞書翻到直立并放在兩個書擋之間的桌子上?!?/p>
它能準(zhǔn)確理解復(fù)雜的文本提示,將橫放的三本書立起來,并加上書擋貨架到柜子上。
上傳一張模特照再加上一張?zhí)籽b帽子圖,輸入提示詞:“把棒球帽戴在女人身上?!?/p>
棒球帽上有復(fù)雜的文字和圖案,納米香蕉編輯后的圖片保留了帽子上的所有細(xì)節(jié),同時光線、視角和構(gòu)圖也能保持一致。
在產(chǎn)品照片、場景搭建圖、廣告等商業(yè)場景下,Nano-Banana的表現(xiàn)也穩(wěn)定得不錯。
當(dāng)然,它也不是完美無缺的,在某些情況下,Nano-Banana生成的圖像可能會出現(xiàn)機(jī)器人、提示邏輯或瞄準(zhǔn)位置不一致等視覺問題,人物的手指也偶爾會出現(xiàn)變形的情況。
如果細(xì)看上生成的書籍,就能發(fā)現(xiàn)其中的瑕疵:書名出現(xiàn)了「鬼畫符」。
由于尚無官方API或正式的官網(wǎng)鏈接,我們只能通過LMArena隨機(jī)體驗該模型。
很快,每次都得靠運(yùn)氣才能遇到 Nano Banana,體驗很驚喜。
更搞笑的是,網(wǎng)上出現(xiàn)了多個假網(wǎng)站,聲稱提供 Nano Banana 服務(wù),讓網(wǎng)友李鬼和李逵傻傻分不清。
納米香蕉一手評測
我們也來了一個手測評。
lmarena官網(wǎng),選擇戰(zhàn)斗模式,可以直接輸入提示詞進(jìn)行文生圖,也可以上傳圖片、輸入提示詞再進(jìn)行AI編輯。
官網(wǎng)鏈接:https://lmarena.ai/
頁面會出現(xiàn)兩個匿名模型同時生成圖片,只有當(dāng)我們選出生成質(zhì)量最好的一張圖片時,平臺才會亮出對戰(zhàn)雙方的身份。
先來試試文生圖效果。
我們輸入同樣的提示詞:以寶麗來照片拍攝風(fēng)格呈現(xiàn)一幅肖像風(fēng)格圖像。照片中,一位化妝師留著長長的卷發(fā),身著寬松的服裝。她面容精致,散發(fā)著隨意的氣息,對著鏡頭比出和平手勢,營造出一種極致自由的氛圍。圖像略帶顆粒感,色彩鮮艷迷人,1:1比例。
第一幅是 Nano Banana 的「作品」,第二幅是 ChatGPT 生成的效果。先前生成的圖片背景有雜亂的眼影盤、指甲油等,更符合提示詞中的「化妝師」身份,而且人物的動作、服裝更自然,手部也沒有細(xì)節(jié)明顯的瑕疵;而背部背景同樣單一,大拇指也有些虛化。
再來試試它的圖片編輯功能。
上傳一張舊金山阿拉莫廣場的野餐照片,輸入提示詞:在公園里添加一些人形機(jī)器人,使它們與環(huán)境融為一體。
乍一看我們還以為納米香蕉「跳舞」了,直到在畫面右側(cè)找到了一個正在行走的類人機(jī)器人,它完全適應(yīng)了環(huán)境,毫無違和感。
我們上傳一張人物攝影照片,讓 Nano Banana 進(jìn)行逆向工程繪畫其創(chuàng)作過程。
提示詞:展示之前設(shè)置的場景,模特坐著滾動她的手機(jī),模特身后有一個女人在整理她的頭發(fā),一個男人站在梯子上,在背景中掛上窗簾,露出后面的工作室。
有網(wǎng)友用Nano Banana讓碧梨和邁克爾·杰克遜跨時空自拍:
我們也嘗試了下。上傳馬斯克和奧特曼的照片,輸入提示詞:兩個人正在開心地自拍。
Nano Banana確實生成了一張自拍照,馬斯克的形象、動作也幾乎找不出什么問題,只是奧特曼大變樣。
為了不「冤枉」它,我們又給了它一次機(jī)會,納米香蕉還是翻車。
入口繼續(xù)升級。上傳小扎、面具肖像照和一張風(fēng)景照,讓 Nano Banana 把兩個人自然地放在圖三中。
Gemini 2.0 flash生成的效果完全認(rèn)不出這兩個大佬,而Nano Banana將二人完美巴基斯坦圖三環(huán)境中,不過手指等細(xì)節(jié)方面還是有瑕疵。
進(jìn)階玩法
如果把 Nano-Banana 和谷歌的 Veo3 結(jié)合在一起,會碰撞出怎樣的火花?
@a16z 合伙人 Justine Moore 就搞了一個新工作流,用于制作簡短的視頻。
該視頻下方是一個游戲或電影中的潛行任務(wù)場景,角色從昏暗的博物館中盜取了一幅名畫,引發(fā)了激光警報。
她還放出了制作教程。取出第一個視頻片段的最后一幀,然后將幀上傳到 lmarena 上的 Nano Banana,提示生成下一個場景,例如「角色轉(zhuǎn)向走廊」,然后將新生成的幀用 Veo 3 進(jìn)行動畫制作。
X網(wǎng)友@ZHO_ZHO_ZHO則發(fā)現(xiàn)了Nano-Banana另一種好玩的玩法——把插畫變成手辦。
上傳一張圖片,輸入提示詞:將這張照片轉(zhuǎn)換成人物模型。在它后面放置一個印有人物圖像的盒子,以及一臺顯示 Blender 建模過程的電腦。在盒子前面,放置一個圓形塑料底座,人物模型站在上面。盡量使用透明的 PVC 材質(zhì),并盡可能將場景設(shè)置在室內(nèi)。
根據(jù)該博主評測,Nano-Banana生成的圖幾乎沒有AI味道,五官和細(xì)節(jié)都保留得很好,真實感。
然后再用Veo3將其制作為8秒視頻。 提示詞:用雙手拿起圖形并從各個角度展示。
底下評論區(qū)踴躍網(wǎng)友也按照上述工作流程整活。比如哪吒道德抱拳的:
還有哆啦A夢的,正面看哆啦A夢的尾巴挺正常,但轉(zhuǎn)個身就大變樣:
我們也復(fù)刻了下,上傳一張Q版插畫圖片,輸入以上提示詞。
效果如下:
最后打開Gemini 2.5 Pro,選擇視頻,上傳生成的圖片,輸入提示詞,靜待1分鐘左右,就能獲得一段8秒視頻。
上周末,谷歌Veo 3對所有Gemini用戶免費開放,供其體驗AI視頻生成功能。
這個免費體驗活動僅持續(xù)到太平洋時間8月24日晚上10點(北京時間8月25日上午1點)。在此期間,免費用戶每天最多生成3個8秒的視頻片段,每個視頻都包含自動生成的音頻。
通常,Veo 3 的視頻生成功能僅對 Google AI Pro 或 Ultra 訂閱用戶開放。Pro 用戶每天可生成 3 個視頻,而 Ultra 用戶的損耗為 10 個視頻。
感興趣的朋友也去體驗一波吧。
https://x.com/ginacostag_/status/1959234207127134340
https://x.com/venturetwins/status/1957155767888548160
https://x.com/techhalla/status/1959186906115354692
https://x.com/ZHO_ZHO_ZHO/status/1958550998815023573
文中視頻鏈接:https://mp.weixin.qq.com/s/ClnR2h_YGXtWNrpJ3TOilA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.