演講圖片「以假亂真」的Flux成文生圖模型新王 記者實測

微卷長髮披肩,面帶露齒微笑,可以清晰看到眼角的褶皺、嘴邊的酒窩以及細微的碎發,再加上頗有現場感的Google掛牌和舞台光,任誰看,這都是一位精英女性正在台前演講的圖片,攝影師選擇的角度不錯,抓住了她演講中的精彩瞬間。

Flux生成的「Ted演講」圖片。

但實際上,這張圖片完全由「Flux」系列大模型生成,該大模型已經在GitHub上開源,任何人都可以去嘗試使用,該模型的研發公司黑森林今年8月剛剛創立,創始人是領導全球著名文生圖開源項目Stable Diffusion的羅賓龍巴赫(Robin Rombach)。

8月13日,新京報貝殼財經記者測試了Flux的效果,發現作為開源模型,其生成寫實類圖片的質量和效果可謂業界一流,此外還能正確生成英文字母,耗費算力較低,不過多次生成依然會出現手指等細節的錯誤,此外該模型也無法正確生成漢字。

「Flux和SD都是一樣的diffusion擴散模型,但不同的是Flux基於Dit架構的模型,整體效果優於傳統Unet架構的模型(SDXL,SD1.5等),尤其是在對提示詞的語義理解上會有很大的提升,但對運行的硬件門檻要求也比較高。」8月13日,擁有自己文生圖模型的AIGC創作者DynamicWang(下稱DW)在接受新京報貝殼財經記者採訪時表示。

實測:「普通版」能生成超寫實人像 測試12次出現2次手指錯誤

據瞭解,Flux擁有高達120 億個參數,因此可以提供與文生圖領域的頭部模型Midjourney相媲美的視覺效果,其包括三個系列模型:Flux Dev、快速版本的Flux Schnell,以及Flux Pro.,其中前兩個模型已經開源,任何人都可以使用。

8月13日,新京報貝殼財經記者使用Flux Schnell版本進行了實測,輸入「脖子上佩戴新京報工牌,手舉話筒在奧運會現場採訪的女記者(英文)」後,Flux Schnell用時幾秒鍾就生成了圖片。可以發現,不僅女記者、手持話筒等均被正確理解且質量接近實景,其還正確生成出了工牌上的新京報英文「The Beijing News」。

新京報貝殼財經記者使用Flux Schnell模型生成的圖片,圖中記者工牌顯示為新京報的英文。

不過,相比真實的照片,Flux Schnell生成圖片的效果依然存在不少破綻,如記者進行的12次生成中有2次圖片出現了人物的手指數量錯誤,記者試圖讓其生成中文時,其生成的圖片出現了亂碼,顯然其無法理解中文。

另外,AI生成的人物的皮膚過於光滑,當記者將AI生成的圖片混入普通照片並隨機請網民評價時,對方雖然並未看出圖片為AI生成,但表示該人物「磨皮比較嚴重」。

但在總體上,記者體驗後發現,Flux確實在生成圖片的光線質感、對手指髮絲等細節的處理、對文字的理解以及對提示詞的理解上做到了令人驚豔的效果,也難怪其會在眾多文生圖大模型中脫穎而出。

據瞭解,Flux Schnell是專精運行速度的蒸餾版本,模型平台還給出了每次生成消耗的具體算力價格:1美元可以生成333張上述記者測試生成的圖片,顯然其不只在性能上,在成本上也有相當的優勢。

目前,由於Flux Pro依然閉源,記者還無法測試,但顯然其性能會比Flux Schnell更加優秀,因此有不少外國AI圈內人士驚呼,Flux系列大模型將成為文生圖影片的「新王」,且開源還令其比Midjourney更易於使用。

DW告訴記者,Flux的訓練參數量也是相當巨大的,但相對應的就是它要運行的硬件門檻相較於SDXL等之前的文生圖模型提升得也非常高,無論是訓練還是推理,都需要極高的顯存與算力,「所以從我的觀點,對於開源社區來說,越高的參數量意味著這不再是個人玩家和創作者所能微調的量級」。

創始團隊黑森林實驗室:8月剛剛成立 但成員大有來頭

新京報記者瀏覽Flux的開發團隊「黑森林實驗室」的官方社交平台發現,該團隊8月1日剛剛創立,創始人是領導了全球著名文生圖開源項目Stable Diffusion的羅賓龍巴赫(Robin Rombach),其他創始團隊成員則大多是從AI初創公司 Stability AI離職的工程師。

黑森林實驗室在社交平台表示,「我們深深植根於生成式 AI 研究社區,致力於開發和推進用於圖像和影片等媒體的最先進的生成式深度學習模型。」

該公司表示,其使命是為媒體開發和推進最先進的生成式深度學習模型,並推動創造力、效率和多樣性的邊界。為了實現這一目標的第一步,他們發佈了 Flux.1文本生成圖像模型套件,其在圖像細節、提示響應、風格多樣性和場景複雜性方面定義了文本生成圖像的新前沿。

黑森林實驗室稱,Flux.1 模型採用了其稱之為「多模態和平行擴散 Transformer 塊的混合架構」,使得其比之前的擴散模型更進一步,融合了流匹配和其他優化技術。

黑森林實驗室方面曬出圖表稱,其 Pro 和 Dev 模型是迄今為止最好的圖像生成器,而其相對較弱的 Schnell 版本(即記者測試版本)雖然未超越 SD3-Ultra 和 Ideogram,但也超越了 Midjourney v6.0 和 DALL·E 3(HD)。黑森林實驗室稱,Flux.1 (schnell) 是迄今為止最先進的少步模型,不僅在其類別中表現出色,還超越了強大的非蒸餾模型。

目前,黑森林實驗室已經獲得了3100萬美元種子輪融資,以及Brendan Iribe、Michael Ovitz等知名投資者的支持。此外,Flux火爆風也吹到了國內,魔搭社區已經第一時間上架了Flux模型,百煉平台也上線了首個Flux中文優化版,可更好地理解和執行中文指令。

新京報貝殼財經記者 羅亦丹

編輯 嶽彩周

校對 劉軍