谷歌香蕉模型一夜登頂！干翻GPT-4o和FLUX，坐穩(wěn)AI圖像之王

2025-08-27 12:29:30　來源: 智東西

北京舉報

分享至

智東西
編譯陳駿達(dá)
編輯李水青

智東西8月27日報道，今天，谷歌推出了Gemini 2.5 Flash Image，這款模型是谷歌最先進(jìn)的圖像生成和編輯模型。

這一模型的核心亮點是其圖像編輯能力。谷歌稱，這一模型可將多個圖像混合到單個圖像中，保持高度角色一致性，還能使用自然語言進(jìn)行有針對性的修改，并充分利用Gemini的世界知識。

諾貝爾獎得主、谷歌DeepMind CEO Demis Hassabis用自己的照片為新模型做宣傳，展示Gemini 2.5 Flash Image的角色一致性。他將自己的一張照片背景做了修改，切換為古典風(fēng)格，但是人物的容貌沒有出現(xiàn)改變。

上述能力也解鎖了不少有趣的用例，比如，按照特定視覺模板打造“球星卡”一般的設(shè)計，讓普通人也能一鍵體驗頂級運(yùn)動員才有的待遇。

這一模型與谷歌Veo 3等視頻生成模型是絕配，結(jié)合使用后可以打造出豐富的視頻效果。海外AI創(chuàng)意平臺Kera AI已經(jīng)用類似的模式，打造了一部廣告大片。

這款模型在上周其實已經(jīng)以“nano-banana”的代號出現(xiàn)在大模型競技場中，并獲得了用戶200多萬票的認(rèn)可。如今正式揭曉后，Gemini 2.5 Flash Image在文生圖與圖像編輯兩個場景均拿下了全球第一，在圖像編輯榜單上更是獲得1362的高分，較第二名的領(lǐng)先幅度接近15%。

在谷歌公布的基準(zhǔn)測試中，Gemini 2.5 Flash Image在用戶綜合喜好度、人物、創(chuàng)造力、信息圖、物體和環(huán)境的生成上均領(lǐng)先GPT-4o圖像生成、Flux.1 Kontext（max）、Qwen Image Edit等模型，但在風(fēng)格化能力上與GPT-4o圖像生成仍有差距。

Gemini 2.5 Flash Image是一款主要面向開發(fā)者的模型，目前可在Gemini API、Google AI Studio、以及面向企業(yè)的Vertex AI中獲得。

這一模型的價格為30美元/100萬個輸出token，每張圖像為1290個輸出token，每張圖像價格約為0.039美元（折合人民幣0.28元）。所有其他輸入和輸出模態(tài)均遵循Gemini 2.5 Flash定價。

為了讓使用Gemini 2.5 Flash Image打造AI應(yīng)用更為容易，谷歌還對AI Studio的“構(gòu)建模式（Built Mode）”進(jìn)行了重大更新。開發(fā)者可以使用利用AI打造應(yīng)用程序，快速測試Gemini 2.5 Flash Image等新模型的功能。

當(dāng)準(zhǔn)備好發(fā)布應(yīng)用時，開發(fā)者可以直接從谷歌AI Studio進(jìn)行部署，或?qū)⒋a保存到GitHub。谷歌也在博客中集中展示了幾個案例：

超強(qiáng)角色一致性，幫Altman一鍵穿越

在多輪對話和編輯中保持角色和對象外觀的一致，是圖像生成與編輯的重大挑戰(zhàn)。谷歌的Gemini 2.5 Flash Image允許用戶將同一個角色放置在不同的環(huán)境中，在新環(huán)境中從多個角度展示單個產(chǎn)品，或生成一致的品牌資產(chǎn)，同時保留主題。

在下方的示例應(yīng)用中，用戶僅需上傳一張自己的自拍，就能生成從50年代到00年代的六張寫真，每張都有當(dāng)時的年代風(fēng)格，用戶的面貌并沒有出現(xiàn)明顯的偏離。

智東西也上傳了一張OpenAI聯(lián)合創(chuàng)始人兼首席執(zhí)行官Sam Altman的照片，谷歌的新模型直接讓Altman一鍵穿越回過去，畫面質(zhì)感超真實，連每個年代的服飾都準(zhǔn)確還原了。

這種一致性還可用于專業(yè)設(shè)計場景。例如，用戶可以給模型提供一種特定的紋理，并要求其進(jìn)行替換。模型能在不改變形狀和細(xì)節(jié)的前提下，完成紋理的更換。

體驗鏈接：

https://aistudio.google.com/apps/bundled/past_forward?showPreview=true&showAssistant=true

一句話精準(zhǔn)P圖，光線、色彩全可自定義

Gemini 2.5 Flash Image支持使用自然語言進(jìn)行有圖像轉(zhuǎn)換和編輯。例如，模型可以模糊圖像的背景、去除T恤上的污漬、從照片中刪除整個人物、改變拍攝對象的姿勢、為黑白照片添加顏色等。

為了展示這些功能的實際應(yīng)用，谷歌在AI Studio中構(gòu)建了一個照片編輯模板應(yīng)用?？梢钥吹?，這一照片編輯應(yīng)用支持對特定區(qū)域進(jìn)行選中和修改，或是進(jìn)行大范圍調(diào)整和濾鏡處理。

智東西上傳了一張扎克伯格的照片，并要求模型進(jìn)行微調(diào)，讓牙齒看上去更白。

最終生成結(jié)果如下，可以看到修改后扎克伯格的其他外貌特征沒有出現(xiàn)明顯變化。

也可以通過預(yù)設(shè)的提示詞，對圖像的光線、背景等進(jìn)行自定義。下圖中，寫真的光線便被調(diào)整得更加溫暖。

體驗鏈接：

https://aistudio.google.com/apps/bundled/pixshop

具備大量世界知識，能看懂手繪插圖

過去，許多圖像生成模型雖然能打造出精美的畫面，但對現(xiàn)實世界缺乏深刻的語義理解。谷歌稱，Gemini 2.5 Flash Image擁有Gemini的世界知識，為展示這點，他們打造了一個模板應(yīng)用，將簡單的畫布變成了一個互動式教育導(dǎo)師。

演示中，Gemini 2.5 Flash Image能夠理解手繪的各類畫面，并解答用戶提出的各類問題。

這種世界知識還讓模型能夠預(yù)測圖像未來的變化，具備一定圖像推理能力。比如，當(dāng)看到氣球飛翔仙人掌時，模型能夠根據(jù)用戶“預(yù)測下一個可能場景”的指令，生成氣球破碎的畫面。

體驗鏈接：

https://aistudio.google.com/apps/bundled/codrawing?showAssistant=true&showPreview=true

多圖融合能力出眾，可實現(xiàn)精準(zhǔn)商品展示

Gemini 2.5 Flash Image可以理解和合并多個輸入圖像，這在電子商務(wù)等場景中有很強(qiáng)的實用價值。例如，商家可以在同一場景中用AI生成不同產(chǎn)品的宣傳照，或是給客戶提供家具等產(chǎn)品擺放在真實場景中的樣子。

下方是谷歌提供的一個案例，只需將左側(cè)的臺燈拖拽到右側(cè)的場景中，稍等一段時間，就能看到擺放后的效果?？梢钥吹侥Ｐ筒粌H將臺燈元素加入畫面，還開啟了燈光。不過，生成過程明顯加速了。

多圖融合能力還可用于創(chuàng)意圖像的生成。例如，融合鯨魚與高山的兩張照片，打造出極具視覺沖擊力的視覺效果。

體驗鏈接：

https://aistudio.google.com/apps/bundled/home_canvas?showPreview=true&showAssistant=true

Gemini 2.5 Flash Image發(fā)布后，海外網(wǎng)友已經(jīng)第一時間玩起來了。這位網(wǎng)友利用它客戶打造了月餅廣告宣傳照，他稱，同樣的提示詞，在Midjourney里要花上10倍的調(diào)整和微調(diào)才能產(chǎn)生類似的結(jié)果。

還有網(wǎng)友分享了自己利用Gemini 2.5 Flash Image結(jié)合Veo 3打造的視頻。在這一過程中，Gemini 2.5 Flash Image生成了許多不同角度的鏡頭畫面，而Veo 3負(fù)責(zé)將它們變?yōu)橐曨l。最終的效果十分驚艷。

不過，也有用戶吐槽這款模型的審查十分嚴(yán)格，例如，無法生成人們拿著刀和斧頭的畫面。

結(jié)語：圖像編輯再進(jìn)化，或成重要生產(chǎn)力工具

從某種意義上來說，準(zhǔn)確的圖像編輯能力是圖像生成走進(jìn)真實生產(chǎn)場景中最關(guān)鍵的能力之一。在電商等場景中，這一能力滿足了企業(yè)用戶對精確控制的需求；而在娛樂場景里，這一能力可以給用戶提供豐富的體驗和玩法。

當(dāng)前，已有多家國內(nèi)外大模型廠商推出圖像編輯模型，這一領(lǐng)域的最新進(jìn)展值得持續(xù)關(guān)注。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.