FLUX「官方版ControlNet」來了!

基爾西 發自 凹非寺

量子位 | 公眾號 QbitAI

「最強繪圖模型」FLUX深夜更新,一口氣連發四款工具!

用官方的話說,這次的更新給FLUX「帶來了更多的控制方式和可操作性」。

別看官方說得簡單,實際效果可是要震撼得多。

只用一個相同的輪廓,FLUX就能變幻出各式各樣不同風格的畫作:

或者傳一張圖,不用提示詞就能讓人物做出各種不同的動作,同時保持角色一致:

此外,還可以對現有的圖像進行擴展,不斷延伸畫面:

具體來說,此次FLUX一共發佈了這四款創意工具:

  • 編輯工具fill,可以修改畫面細節或擴展畫面;

  • 輪廓控制工具Canny,類似ControlNet;

  • 景深控制工具Depth,類似ControlNet;

  • 變換工具Redux,可改變人物動作、畫面視角/風格。

這些工具分為dev和pro兩個版本,dev版的代碼和模型權重均已開放下載,pro版也通過API提供。

而且支持創作者常用的ComfyUI,能夠簡單整合進繪畫工作流。

有網民評論說,這是一件大事,因為BFL(FLUX開發團隊)終於有了自己的ControlNet。

還有人表示,這些工具解鎖了(AI繪圖的)可操縱性,是創意繪圖的game changer。

四款工具一齊上線

首先來看fill,它可以對畫面中包括文字在內的任意細節進行編輯或修復,比如圖像中人物的衣著,或者加入新的元素。

此外還支持outpainting,可以將圖像擴展到原始畫面之外。

測評結果上,FLUX的官方工具,和第三方FLUX工具Alimama Creative體現出了優勢。

同時也戰勝了之前來踢館的Ideogram,對比SD 1.5的類似功能則更是優勢明顯。

以文字修改任務為例,測試中對下圖「Beers」部分進行了圈選,並要求修改為「Spaghetti」。

可以看出,官方Fill工具效果最為自然,Ideogram也還不錯,但仔細對比會發現FLUX的文字粗細更加接近畫面中的其他文字。

第三方插件則並未匹配原始字體,至於SD 1.5那更是慘不忍睹。

再來看看非文字的效果,這項任務需要在圖像指定的位置(左側)加上模糊(blurry)的小貓照片。

下圖中的順序和前面一樣,可以看到除了左上角的FLUX fill工具之外,都沒有滿足「模糊」這個要求。

單看的話畫面,第三方插件和Ideogram也都還可以,不過第三方插件「畫蛇添足」地給原圖的第一個木塊加上了兩個點。

而SD 1.5,似乎在保持著一種穩定的抽像。

第二個工具Canny,相當於一個輪廓ControlNet,通過邊緣檢測來精準地控製圖像轉換過程中的結構。第二個工具Canny,相當於一個輪廓ControlNet,通過邊緣檢測來精準地控製圖像轉換過程中的結構。

這次對比的對象包括第三方工具InstantX,以及SD 1.5和SDXL,結果FLUX.1 Canny的成績優勢明顯。

當然這輪測試是直接把提取好的輪廓給模型,難度相對於讓模型自己提取有一點降低。

利用這樣的一個輪廓,每個模型或工具需要生成6張不同的圖片(每個prompt兩張)

下圖中,第一行為Flux.1 Canny(Pro)的作品,第二行為InstantX,第三第四行分別是SD 1.5和SDXL。

從左到右六張圖片的prompt依次是:

1&2:a robot made of gold(一個金子做的機器人)

3&4:a robot made of brown and white clay(一個用棕色和白色黏土做的機器人)

5&6:a white robot in front of a gray background(一個白色的機器人在灰色的背景前方)

對於「金子」的部分,FLUX.1 Canny第一次畫出來的效果是質感最好的,而且FLUX.1 Canny質量穩定性保持得是比較好的。

單就這個任務而言,SD 1.5的作品再次成為了最顯眼包的一組。

接下來是Depth,它和Canny一樣都是類似ControlNet的存在,顧名思義控制的內容是景深。

這次沒有再把SD拉過來,參與對比的是兩款第三方插件,還有MidJourney。

在一項測試任務中,提取之後的景深關係是這樣的:

下圖中,第一行對應FLUX.1 Depth(Pro),第二、三行對應Jasper和Shakker兩款第三方工具,最後一行對應MidJourney。

從左到右,提示詞依次是:

1&2:mountain cabin, anime style(山間小屋,動漫風格)

3&4:1950’s aesthetics(上世紀50年代的美學)

這裏就不一一點評細節了,但FLUX.1 Depth的作品是最忠實於控制條件中景深關係的一組,而且也不像MidJourney那樣出現了畫面割裂的情況。

最後是Redux,給定輸入圖像,可以讓FLUX在其基礎之上進行「重新設計」,變換出各種不同的圖片。

圖像的背景、角度、畫風都可以調整,同時在變換過程中保持角色一致。

如果實在沒靈感,也可以只把圖丟給模型,不用輸入提示詞,讓模型自行發揮幫你轉換。

相比於SD 1.5和SDXL,領先優勢十分明顯。

比如這張圖中有只小貓正抱著一條魚奔跑,測試過程當中沒有輸入提示詞。

每個模型各自生成了三張圖,由上到下分別是FLUX.1 Redux(Pro)、SD 1.5和SDXL。

在FLUX作品中魚和貓的長相都和原圖保持了一致,在細節動作時做出了變化,而SD 1.5生成的圖像里貓和魚都已經完全變了樣子。

到了SDXL這裏,好傢伙,不要說風格了,貓和魚直接陷入了「量子糾纏」,在三張圖中都沒有同時出現。

總之對比一圈之後發現,FLUX這次上線的四款官方工具,不管是相對第三方工具還是相對於其他模型,都十分扛打。

四款工具都是支持pro和dev兩個版本(其中Canny和Depth還分完整版和LoRA版),dev版本代碼和模型權重都是開放下載,pro版則要通過BFL API來使用。

另外,這四個工具還會通過五家FLUX合作的模型平台提供,這五家分別是fal(L的小寫).ai、Replicate、 Together.ai、Freepik和krea.ai。

公告地址(含代碼/權重/測試集下載):

Introducing FLUX.1 Tools

參考鏈接:

[1]https://www.marktechpost.com/2024/11/21/black-forest-labs-release-flux-1-tools-a-suite-of-ai-models-designed-to-add-control-and-steerability-to-the-base-text-to-image-model-flux-1/

[2]https://x.com/fofrAI/status/1859621532550480342

[3]https://x.com/fofrAI/status/1859618518863323591