AI文生圖最大問題不存在了,最新Gemini 2.0指哪改哪,網民已經玩壞了 | 附指南
最近的熱點實在太多了,當 Gemini 的文生圖模型更新出來時,原以為只是平平無奇的小更新——萬萬沒想到,屬實是個大招。

在此之前,要麼用 Stable Diffusion,要麼走回 Photoshop 老路,反正還沒有哪個模型,可以用如此簡單的對話,就完成如此精細的修改。
Gemini 率先突破可控性這件事並不令人意外,二月時,Google 就推出了最新一代的圖像生成模型 Imagen 3,當時就強化了提示詞的跟隨功能。

當時還只面對付費用戶,現在在 AI Studio 中已經可以看到更完整豐富的呈現。可以說,在目前文生圖的可控性程度,以及相對應的用戶體驗上,Gemini 的確做到了無人能出其右。
下面我們會具體解釋為什麼這樣下結論。同時在測試過程中,我們也發現了一些使用技巧,一併奉上。
可控性不好?不存在了
誠實的說,單純講生成還是有一點不穩定,但是 Gemini 2.0 Flash Experimental 展示出了堪稱逆天的修改可控性。
下面這組花田圖里,使用了 Imagen 3 的官方實例:Impressionistic landscape painting of a sunset over a field of sunflowers, vibrant colors, thick brushstrokes, inspired by Monet。

中間的修改提示詞,是為了把天空換成藍綠色:turn the clouds at the back of the picture in to blue-greenish color

注意看中間圈出來的地方,花田和天空過渡處的油彩,基本沒有變化——模型充分理解這個修改提示詞里「局部改色」的意圖,只對天空局部改動,其它任何地方都保持了不變。
接下來這組城市街景的例子更明顯,生成提示詞:generate a Tokyo street crossroad, cars passing the traffic light and people walking around

細部有些地方還是不太能看的,生成這一步的不穩定性還是沒有被完全馴服。真正有驚人改變的,是細部的指令跟隨。

「我想要變成夜景」「街上應該有燈光」,提示詞可以非常直給就完成修改。來感受一下四輪對話之後,形成的整體變化對比。

四張圖漸次展示了城市從白天、黃昏、傍晚、再到夜晚的樣子。而在四輪對話中,說改車就改車,不說改動行人就保持原樣——不可控性不存在了!
Tip:生成+修改最穩定
局部修改的功能,如果是在現有圖片上改動,效果沒那麼好,比較粗暴。下面是兩張現圖改夜景的例子。


最穩定的組合是從生成到修改,一條龍完成,在後續的修改里可控性就更高。
整體變化,一句話完成
除了局部改動,還可以改動視角,這也是非常實用的功能。對於短片的故事板、產品多視角展示,都相當有幫助。
產品圖的修改真正做到了隨心所欲。

要描述的是圖片最終的樣子,而不是修改圖片的過程
Gemini 理解模糊指令是沒問題的,只是需要注意一下模糊的「方式」。
比如想變換鏡頭視角,要描述的應該是最後形成的結果,如「從左邊拍攝的樣子」,而不是「鏡頭移動到左邊」。這畢竟還是一個靜態文生圖,並不能呈現鏡頭移動。
換句話說,指令越簡單直給反而越好。
一進入 Stduio 還有一個官方示例是做一張生日卡片,可以直接嘗試。不過,想要更高的可控性,最好複製黏貼了之後,自己新建一個對話。

接下來我修改了裡面的元素,花朵被替換成星球,再簡單做個 3D 效果。

然後,我對 Gemini 給出了那個最震撼的指令:我要五彩斑斕的黑。
等待時間來到了一百多秒 在等待的過程中,還有兩個必須提醒的地方:
一些基礎設置必不可少
進入 Studio 之後,需要在右側 Model 一欄,選擇最新的 Gemini 2.0 Flash Experimental。

成功進入後,記得左側的 Library 一欄,設置一下帳號關聯生成 Library,否則有可能無法保存會話。

最後來看下, Gemini 想明白了怎麼改黑色了嗎?

500s 過去了,毫無動靜——AI 還是理解不了五彩斑斕的黑啊!
我們正在招募夥伴
簡曆投遞郵箱
hr@ifanr.com
郵件標題「姓名+崗位名稱」(請隨簡曆附上項目/作品或相關鏈接)
