AI文生圖最大問題不存在了，最新Gemini 2.0指哪改哪，網民已經玩壞了 | 附指南

03月14日 12:45 新浪網 tech-auto-hilite

最近的熱點實在太多了，當 Gemini 的文生圖模型更新出來時，原以為只是平平無奇的小更新——萬萬沒想到，屬實是個大招。

在此之前，要麼用 Stable Diffusion，要麼走回 Photoshop 老路，反正還沒有哪個模型，可以用如此簡單的對話，就完成如此精細的修改。

Gemini 率先突破可控性這件事並不令人意外，二月時，Google 就推出了最新一代的圖像生成模型 Imagen 3，當時就強化了提示詞的跟隨功能。

當時還只面對付費用戶，現在在 AI Studio 中已經可以看到更完整豐富的呈現。可以說，在目前文生圖的可控性程度，以及相對應的用戶體驗上，Gemini 的確做到了無人能出其右。

下面我們會具體解釋為什麼這樣下結論。同時在測試過程中，我們也發現了一些使用技巧，一併奉上。

可控性不好？不存在了

誠實的說，單純講生成還是有一點不穩定，但是 Gemini 2.0 Flash Experimental 展示出了堪稱逆天的修改可控性。

下面這組花田圖里，使用了 Imagen 3 的官方實例：Impressionistic landscape painting of a sunset over a field of sunflowers， vibrant colors， thick brushstrokes， inspired by Monet。

中間的修改提示詞，是為了把天空換成藍綠色：turn the clouds at the back of the picture in to blue-greenish color

注意看中間圈出來的地方，花田和天空過渡處的油彩，基本沒有變化——模型充分理解這個修改提示詞里「局部改色」的意圖，只對天空局部改動，其它任何地方都保持了不變。

接下來這組城市街景的例子更明顯，生成提示詞：generate a Tokyo street crossroad， cars passing the traffic light and people walking around

細部有些地方還是不太能看的，生成這一步的不穩定性還是沒有被完全馴服。真正有驚人改變的，是細部的指令跟隨。

「我想要變成夜景」「街上應該有燈光」，提示詞可以非常直給就完成修改。來感受一下四輪對話之後，形成的整體變化對比。

四張圖漸次展示了城市從白天、黃昏、傍晚、再到夜晚的樣子。而在四輪對話中，說改車就改車，不說改動行人就保持原樣——不可控性不存在了！

Tip：生成+修改最穩定

局部修改的功能，如果是在現有圖片上改動，效果沒那麼好，比較粗暴。下面是兩張現圖改夜景的例子。

最穩定的組合是從生成到修改，一條龍完成，在後續的修改里可控性就更高。

整體變化，一句話完成

除了局部改動，還可以改動視角，這也是非常實用的功能。對於短片的故事板、產品多視角展示，都相當有幫助。

產品圖的修改真正做到了隨心所欲。

要描述的是圖片最終的樣子，而不是修改圖片的過程

Gemini 理解模糊指令是沒問題的，只是需要注意一下模糊的「方式」。

比如想變換鏡頭視角，要描述的應該是最後形成的結果，如「從左邊拍攝的樣子」，而不是「鏡頭移動到左邊」。這畢竟還是一個靜態文生圖，並不能呈現鏡頭移動。

換句話說，指令越簡單直給反而越好。

一進入 Stduio 還有一個官方示例是做一張生日卡片，可以直接嘗試。不過，想要更高的可控性，最好複製黏貼了之後，自己新建一個對話。

接下來我修改了裡面的元素，花朵被替換成星球，再簡單做個 3D 效果。

然後，我對 Gemini 給出了那個最震撼的指令：我要五彩斑斕的黑。

等待時間來到了一百多秒在等待的過程中，還有兩個必須提醒的地方：

一些基礎設置必不可少

進入 Studio 之後，需要在右側 Model 一欄，選擇最新的 Gemini 2.0 Flash Experimental。

成功進入後，記得左側的 Library 一欄，設置一下帳號關聯生成 Library，否則有可能無法保存會話。

最後來看下， Gemini 想明白了怎麼改黑色了嗎？

500s 過去了，毫無動靜——AI 還是理解不了五彩斑斕的黑啊！

我們正在招募夥伴

簡曆投遞郵箱

hr@ifanr.com

郵件標題「姓名+崗位名稱」（請隨簡曆附上項目/作品或相關鏈接）