智東西
編譯 陳駿達(dá)
編輯 李水青
智東西8月27日報道,今天,谷歌推出了Gemini 2.5 Flash Image,這款模型是谷歌最先進(jìn)的圖像生成和編輯模型。
這一模型的核心亮點是其圖像編輯能力。谷歌稱,這一模型可將多個圖像混合到單個圖像中,保持高度角色一致性,還能使用自然語言進(jìn)行有針對性的修改,并充分利用Gemini的世界知識。
諾貝爾獎得主、谷歌DeepMind CEO Demis Hassabis用自己的照片為新模型做宣傳,展示Gemini 2.5 Flash Image的角色一致性。他將自己的一張照片背景做了修改,切換為古典風(fēng)格,但是人物的容貌沒有出現(xiàn)改變。
上述能力也解鎖了不少有趣的用例,比如,按照特定視覺模板打造“球星卡”一般的設(shè)計,讓普通人也能一鍵體驗頂級運(yùn)動員才有的待遇。
這一模型與谷歌Veo 3等視頻生成模型是絕配,結(jié)合使用后可以打造出豐富的視頻效果。海外AI創(chuàng)意平臺Kera AI已經(jīng)用類似的模式,打造了一部廣告大片。
這款模型在上周其實已經(jīng)以“nano-banana”的代號出現(xiàn)在大模型競技場中,并獲得了用戶200多萬票的認(rèn)可。如今正式揭曉后,Gemini 2.5 Flash Image在文生圖與圖像編輯兩個場景均拿下了全球第一,在圖像編輯榜單上更是獲得1362的高分,較第二名的領(lǐng)先幅度接近15%。
在谷歌公布的基準(zhǔn)測試中,Gemini 2.5 Flash Image在用戶綜合喜好度、人物、創(chuàng)造力、信息圖、物體和環(huán)境的生成上均領(lǐng)先GPT-4o圖像生成、Flux.1 Kontext(max)、Qwen Image Edit等模型,但在風(fēng)格化能力上與GPT-4o圖像生成仍有差距。
Gemini 2.5 Flash Image是一款主要面向開發(fā)者的模型,目前可在Gemini API、Google AI Studio、以及面向企業(yè)的Vertex AI中獲得。
這一模型的價格為30美元/100萬個輸出token,每張圖像為1290個輸出token,每張圖像價格約為0.039美元(折合人民幣0.28元)。所有其他輸入和輸出模態(tài)均遵循Gemini 2.5 Flash定價。
為了讓使用Gemini 2.5 Flash Image打造AI應(yīng)用更為容易,谷歌還對AI Studio的“構(gòu)建模式(Built Mode)”進(jìn)行了重大更新。開發(fā)者可以使用利用AI打造應(yīng)用程序,快速測試Gemini 2.5 Flash Image等新模型的功能。
當(dāng)準(zhǔn)備好發(fā)布應(yīng)用時,開發(fā)者可以直接從谷歌AI Studio進(jìn)行部署,或?qū)⒋a保存到GitHub。谷歌也在博客中集中展示了幾個案例:
超強(qiáng)角色一致性,幫Altman一鍵穿越
在多輪對話和編輯中保持角色和對象外觀的一致,是圖像生成與編輯的重大挑戰(zhàn)。谷歌的Gemini 2.5 Flash Image允許用戶將同一個角色放置在不同的環(huán)境中,在新環(huán)境中從多個角度展示單個產(chǎn)品,或生成一致的品牌資產(chǎn),同時保留主題。
在下方的示例應(yīng)用中,用戶僅需上傳一張自己的自拍,就能生成從50年代到00年代的六張寫真,每張都有當(dāng)時的年代風(fēng)格,用戶的面貌并沒有出現(xiàn)明顯的偏離。
智東西也上傳了一張OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Sam Altman的照片,谷歌的新模型直接讓Altman一鍵穿越回過去,畫面質(zhì)感超真實,連每個年代的服飾都準(zhǔn)確還原了。
這種一致性還可用于專業(yè)設(shè)計場景。例如,用戶可以給模型提供一種特定的紋理,并要求其進(jìn)行替換。模型能在不改變形狀和細(xì)節(jié)的前提下,完成紋理的更換。
體驗鏈接:
https://aistudio.google.com/apps/bundled/past_forward?showPreview=true&showAssistant=true
一句話精準(zhǔn)P圖,光線、色彩全可自定義
Gemini 2.5 Flash Image支持使用自然語言進(jìn)行有圖像轉(zhuǎn)換和編輯。例如,模型可以模糊圖像的背景、去除T恤上的污漬、從照片中刪除整個人物、改變拍攝對象的姿勢、為黑白照片添加顏色等。
為了展示這些功能的實際應(yīng)用,谷歌在AI Studio中構(gòu)建了一個照片編輯模板應(yīng)用??梢钥吹?,這一照片編輯應(yīng)用支持對特定區(qū)域進(jìn)行選中和修改,或是進(jìn)行大范圍調(diào)整和濾鏡處理。
智東西上傳了一張扎克伯格的照片,并要求模型進(jìn)行微調(diào),讓牙齒看上去更白。
最終生成結(jié)果如下,可以看到修改后扎克伯格的其他外貌特征沒有出現(xiàn)明顯變化。
也可以通過預(yù)設(shè)的提示詞,對圖像的光線、背景等進(jìn)行自定義。下圖中,寫真的光線便被調(diào)整得更加溫暖。
體驗鏈接:
https://aistudio.google.com/apps/bundled/pixshop
具備大量世界知識,能看懂手繪插圖
過去,許多圖像生成模型雖然能打造出精美的畫面,但對現(xiàn)實世界缺乏深刻的語義理解。谷歌稱,Gemini 2.5 Flash Image擁有Gemini的世界知識,為展示這點,他們打造了一個模板應(yīng)用,將簡單的畫布變成了一個互動式教育導(dǎo)師。
演示中,Gemini 2.5 Flash Image能夠理解手繪的各類畫面,并解答用戶提出的各類問題。
這種世界知識還讓模型能夠預(yù)測圖像未來的變化,具備一定圖像推理能力。比如,當(dāng)看到氣球飛翔仙人掌時,模型能夠根據(jù)用戶“預(yù)測下一個可能場景”的指令,生成氣球破碎的畫面。
體驗鏈接:
https://aistudio.google.com/apps/bundled/codrawing?showAssistant=true&showPreview=true
多圖融合能力出眾,可實現(xiàn)精準(zhǔn)商品展示
Gemini 2.5 Flash Image可以理解和合并多個輸入圖像,這在電子商務(wù)等場景中有很強(qiáng)的實用價值。例如,商家可以在同一場景中用AI生成不同產(chǎn)品的宣傳照,或是給客戶提供家具等產(chǎn)品擺放在真實場景中的樣子。
下方是谷歌提供的一個案例,只需將左側(cè)的臺燈拖拽到右側(cè)的場景中,稍等一段時間,就能看到擺放后的效果??梢钥吹侥P筒粌H將臺燈元素加入畫面,還開啟了燈光。不過,生成過程明顯加速了。
多圖融合能力還可用于創(chuàng)意圖像的生成。例如,融合鯨魚與高山的兩張照片,打造出極具視覺沖擊力的視覺效果。
體驗鏈接:
https://aistudio.google.com/apps/bundled/home_canvas?showPreview=true&showAssistant=true
Gemini 2.5 Flash Image發(fā)布后,海外網(wǎng)友已經(jīng)第一時間玩起來了。這位網(wǎng)友利用它客戶打造了月餅廣告宣傳照,他稱,同樣的提示詞,在Midjourney里要花上10倍的調(diào)整和微調(diào)才能產(chǎn)生類似的結(jié)果。
還有網(wǎng)友分享了自己利用Gemini 2.5 Flash Image結(jié)合Veo 3打造的視頻。在這一過程中,Gemini 2.5 Flash Image生成了許多不同角度的鏡頭畫面,而Veo 3負(fù)責(zé)將它們變?yōu)橐曨l。最終的效果十分驚艷。
不過,也有用戶吐槽這款模型的審查十分嚴(yán)格,例如,無法生成人們拿著刀和斧頭的畫面。
結(jié)語:圖像編輯再進(jìn)化,或成重要生產(chǎn)力工具
從某種意義上來說,準(zhǔn)確的圖像編輯能力是圖像生成走進(jìn)真實生產(chǎn)場景中最關(guān)鍵的能力之一。在電商等場景中,這一能力滿足了企業(yè)用戶對精確控制的需求;而在娛樂場景里,這一能力可以給用戶提供豐富的體驗和玩法。
當(dāng)前,已有多家國內(nèi)外大模型廠商推出圖像編輯模型,這一領(lǐng)域的最新進(jìn)展值得持續(xù)關(guān)注。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.