
Google Deepmind 正在為 Gemini 應(yīng)用添加一款全新的圖像編輯模型,該模型能按需對(duì)照片進(jìn)行大幅修改,同時(shí)確保人物和動(dòng)物保持可識(shí)別性。
這款全新的?“Gemini 2.5 Flash 圖像生成”?模型基于?Gemini 早期原生圖像生成工具構(gòu)建,但在提示詞處理上更加精準(zhǔn)。谷歌表示,其表現(xiàn)通常優(yōu)于?ChatGPT?所使用的 GPT-4o 模型,尤其是在遵循文本指令進(jìn)行圖像編輯方面。雖然許多純圖像模型仍在與提示詞準(zhǔn)確性作斗爭(zhēng),但 Gemini 2.5 Flash 的準(zhǔn)確率更高。
一個(gè)關(guān)鍵特性是“角色一致性”:該模型能夠使人物、動(dòng)物或物體在多張圖像中保持視覺(jué)上的一致,即使姿勢(shì)、背景或光線發(fā)生變化。

Gemini 2.5 Flash 能在新場(chǎng)景中保持角色一致性。其表現(xiàn)是否優(yōu)于更復(fù)雜的微調(diào)方法仍有待觀察。| 圖片來(lái)源:Google Deepmind
這為創(chuàng)建圖像系列或多角度產(chǎn)品拍攝開(kāi)辟了新的可能性。谷歌表示,該模型非常適合生成一致的品牌資產(chǎn)和產(chǎn)品目錄,并聲稱 Gemini 2.5 Flash 在廣泛的編輯任務(wù)上優(yōu)于其他圖像系統(tǒng)。

Gemini 2.5 Flash 在多項(xiàng)人工評(píng)分的圖像編輯基準(zhǔn)測(cè)試(ELO 分?jǐn)?shù))中優(yōu)于之前的模型。| 圖片來(lái)源:Google
該模型還支持通過(guò)文本提示進(jìn)行精確的局部編輯。用戶可以模糊背景、去除瑕疵、添加顏色或擦除整個(gè)對(duì)象,而無(wú)需手動(dòng)選擇。一款名為?“PixShop”的模板應(yīng)用?通過(guò)簡(jiǎn)單的界面和提示控制展示了這些編輯功能。

PixShop 展示了 Gemini 2.5 Flash 基于文本的編輯工具。| 圖片來(lái)源:Google Deepmind
圖像合成、風(fēng)格遷移與真實(shí)世界推理
Gemini 2.5 Flash 可以一次性融合最多三張圖像。例如,您可以將產(chǎn)品照片和房間照片結(jié)合起來(lái),創(chuàng)造出逼真的室內(nèi)場(chǎng)景。包含多個(gè)元素的復(fù)雜構(gòu)圖可以通過(guò)單次提示生成。谷歌還提供了一個(gè)?交互式畫(huà)布工具?用于多圖像融合。

Gemini 2.5 Flash 將多張圖像混合成一個(gè)構(gòu)圖。| 圖片來(lái)源:Google Deepmind
該模型也能處理風(fēng)格遷移,將圖案、顏色或紋理從一個(gè)物體轉(zhuǎn)移到另一個(gè)物體,同時(shí)保持形狀和細(xì)節(jié)不變。典型的例子包括帶有蝴蝶圖案的連衣裙或帶有花卉紋理的靴子。

Gemini 2.5 Flash 跨物體應(yīng)用圖案和風(fēng)格。| 圖片來(lái)源:Google Deepmind
Gemini 2.5 Flash 還能可視化簡(jiǎn)單的因果關(guān)系,谷歌稱之為“真實(shí)世界推理”。在一個(gè)演示中,模型生成了一張氣球飄向仙人掌的圖像,然后又生成了另一張顯示接下來(lái)會(huì)發(fā)生什么的圖像。

該模型可以闡釋因果關(guān)系,例如氣球遇到仙人掌。| 圖片來(lái)源:Google Deepmind
谷歌表示,這些語(yǔ)義特性借鑒了 Gemini 2.5 的世界知識(shí)。您可以使用一款?遵循文本指令的繪畫(huà)應(yīng)用?親自嘗試這些功能。
面向用戶和開(kāi)發(fā)者開(kāi)放
Gemini 2.5 Flash 圖像工具現(xiàn)已可在?Gemini 應(yīng)用?中使用。您無(wú)需在聊天欄中選擇 “Imagen” 圖像模型,而是需要在左上角切換到 “Flash” 語(yǔ)言模型才能使用新功能。這個(gè)設(shè)置起初可能有點(diǎn)令人困惑,但考慮到 Gemini 基于語(yǔ)言的編輯方法,這是合理的。

要使用 Gemini 2.5 Flash 圖像編輯,請(qǐng)?jiān)?Gemini 應(yīng)用中選擇 “Flash” 語(yǔ)言模型。| 圖片來(lái)源:THE DECODER 截圖
選擇正確的模型后,您可以上傳圖像并向 Gemini 發(fā)出編輯指令。每張圖像都帶有可見(jiàn)水印和不可見(jiàn)的?SynthID 數(shù)字水印。
Gemini 2.5 Flash Image?也通過(guò)?Gemini API、Google AI Studio?和?Vertex AI?提供預(yù)覽版。定價(jià)為每百萬(wàn)輸出 tokens 30 美元。每張圖像使用約 1290 個(gè) tokens,即每張圖像約 0.039 美元,與 Gemini 2.0 Flash Image 相同。
精選文章:
我們現(xiàn)在為誰(shuí)設(shè)計(jì)?
借助人工智能聊天機(jī)器人,大型科技公司正在快速發(fā)展并打破人們的幻想
他們本來(lái)不想當(dāng)建筑師,卻成了普利茲克獎(jiǎng)得主