FLUX「官方版ControlNet」來了！

11月23日 16:24 新浪網 tech-auto-hilite

基爾西發自凹非寺

量子位 | 公眾號 QbitAI

「最強繪圖模型」FLUX深夜更新，一口氣連發四款工具！

用官方的話說，這次的更新給FLUX「帶來了更多的控制方式和可操作性」。

別看官方說得簡單，實際效果可是要震撼得多。

只用一個相同的輪廓，FLUX就能變幻出各式各樣不同風格的畫作：

或者傳一張圖，不用提示詞就能讓人物做出各種不同的動作，同時保持角色一致：

此外，還可以對現有的圖像進行擴展，不斷延伸畫面：

具體來說，此次FLUX一共發佈了這四款創意工具：

編輯工具fill，可以修改畫面細節或擴展畫面；
輪廓控制工具Canny，類似ControlNet；
景深控制工具Depth，類似ControlNet；
變換工具Redux，可改變人物動作、畫面視角/風格。

這些工具分為dev和pro兩個版本，dev版的代碼和模型權重均已開放下載，pro版也通過API提供。

而且支持創作者常用的ComfyUI，能夠簡單整合進繪畫工作流。

有網民評論說，這是一件大事，因為BFL（FLUX開發團隊）終於有了自己的ControlNet。

還有人表示，這些工具解鎖了（AI繪圖的）可操縱性，是創意繪圖的game changer。

四款工具一齊上線

首先來看fill，它可以對畫面中包括文字在內的任意細節進行編輯或修復，比如圖像中人物的衣著，或者加入新的元素。

此外還支持outpainting，可以將圖像擴展到原始畫面之外。

測評結果上，FLUX的官方工具，和第三方FLUX工具Alimama Creative體現出了優勢。

同時也戰勝了之前來踢館的Ideogram，對比SD 1.5的類似功能則更是優勢明顯。

以文字修改任務為例，測試中對下圖「Beers」部分進行了圈選，並要求修改為「Spaghetti」。

可以看出，官方Fill工具效果最為自然，Ideogram也還不錯，但仔細對比會發現FLUX的文字粗細更加接近畫面中的其他文字。

第三方插件則並未匹配原始字體，至於SD 1.5那更是慘不忍睹。

再來看看非文字的效果，這項任務需要在圖像指定的位置（左側）加上模糊（blurry）的小貓照片。

下圖中的順序和前面一樣，可以看到除了左上角的FLUX fill工具之外，都沒有滿足「模糊」這個要求。

單看的話畫面，第三方插件和Ideogram也都還可以，不過第三方插件「畫蛇添足」地給原圖的第一個木塊加上了兩個點。

而SD 1.5，似乎在保持著一種穩定的抽像。

第二個工具Canny，相當於一個輪廓ControlNet，通過邊緣檢測來精準地控製圖像轉換過程中的結構。

第二個工具Canny，相當於一個輪廓ControlNet，通過邊緣檢測來精準地控製圖像轉換過程中的結構。

這次對比的對象包括第三方工具InstantX，以及SD 1.5和SDXL，結果FLUX.1 Canny的成績優勢明顯。

當然這輪測試是直接把提取好的輪廓給模型，難度相對於讓模型自己提取有一點降低。

利用這樣的一個輪廓，每個模型或工具需要生成6張不同的圖片（每個prompt兩張）。

下圖中，第一行為Flux.1 Canny（Pro）的作品，第二行為InstantX，第三第四行分別是SD 1.5和SDXL。

從左到右六張圖片的prompt依次是：

1&2：a robot made of gold（一個金子做的機器人）

3&4：a robot made of brown and white clay（一個用棕色和白色黏土做的機器人）

5&6：a white robot in front of a gray background（一個白色的機器人在灰色的背景前方）

對於「金子」的部分，FLUX.1 Canny第一次畫出來的效果是質感最好的，而且FLUX.1 Canny質量穩定性保持得是比較好的。

單就這個任務而言，SD 1.5的作品再次成為了最顯眼包的一組。

接下來是Depth，它和Canny一樣都是類似ControlNet的存在，顧名思義控制的內容是景深。

這次沒有再把SD拉過來，參與對比的是兩款第三方插件，還有MidJourney。

在一項測試任務中，提取之後的景深關係是這樣的：

下圖中，第一行對應FLUX.1 Depth（Pro），第二、三行對應Jasper和Shakker兩款第三方工具，最後一行對應MidJourney。

從左到右，提示詞依次是：

1&2：mountain cabin, anime style（山間小屋，動漫風格）

3&4：1950’s aesthetics（上世紀50年代的美學）

這裏就不一一點評細節了，但FLUX.1 Depth的作品是最忠實於控制條件中景深關係的一組，而且也不像MidJourney那樣出現了畫面割裂的情況。

最後是Redux，給定輸入圖像，可以讓FLUX在其基礎之上進行「重新設計」，變換出各種不同的圖片。

圖像的背景、角度、畫風都可以調整，同時在變換過程中保持角色一致。

如果實在沒靈感，也可以只把圖丟給模型，不用輸入提示詞，讓模型自行發揮幫你轉換。

相比於SD 1.5和SDXL，領先優勢十分明顯。

比如這張圖中有只小貓正抱著一條魚奔跑，測試過程當中沒有輸入提示詞。

每個模型各自生成了三張圖，由上到下分別是FLUX.1 Redux（Pro）、SD 1.5和SDXL。

在FLUX作品中魚和貓的長相都和原圖保持了一致，在細節動作時做出了變化，而SD 1.5生成的圖像里貓和魚都已經完全變了樣子。

到了SDXL這裏，好傢伙，不要說風格了，貓和魚直接陷入了「量子糾纏」，在三張圖中都沒有同時出現。

總之對比一圈之後發現，FLUX這次上線的四款官方工具，不管是相對第三方工具還是相對於其他模型，都十分扛打。

四款工具都是支持pro和dev兩個版本（其中Canny和Depth還分完整版和LoRA版），dev版本代碼和模型權重都是開放下載，pro版則要通過BFL API來使用。

另外，這四個工具還會通過五家FLUX合作的模型平台提供，這五家分別是fal（L的小寫）.ai、Replicate、 Together.ai、Freepik和krea.ai。

公告地址（含代碼/權重/測試集下載）：

Introducing FLUX.1 Tools

參考鏈接：

[1]https://www.marktechpost.com/2024/11/21/black-forest-labs-release-flux-1-tools-a-suite-of-ai-models-designed-to-add-control-and-steerability-to-the-base-text-to-image-model-flux-1/

[2]https://x.com/fofrAI/status/1859621532550480342

[3]https://x.com/fofrAI/status/1859618518863323591