超越恐怖穀,全球500萬網民被騙,爆火TEDx演講者沒一個是真人?

【新智元導讀】最近,這幾位TED演講者,在外網形成了病毒式傳播,然而,他們竟然全都不是真人?!答案揭曉後,五百萬網民簡直驚掉下巴。這5張圖里,你能發現幾個bug?

最近,這些「TED演講者」在外網火得一塌糊塗,堪稱病毒式傳播。

仔細看看,你能發現什麼問題嗎?

答案揭曉——這五個人中,沒有一個是真人!

在線尋人的小哥要哭了在線尋人的小哥要哭了

如此逼真,幾乎毫無破綻,這種級別的生圖AI直接讓網民們驚掉下巴。 

甚至連AI識別軟件,都認不出來這是AI生成的圖。 

「看起來真實,難道不是因為本來就是真實的照片?」 

「沒有一張是真人嗎?簡直令人毛骨悚然!」

網民銳評:這已經超越了恐怖穀,到達了「超真實穀」。

短短十幾個小時,分享這張圖片的帖子,在推上的觀看人數已經破了500萬。

隨後,作者也被扒了出來——他就是Stable Diffusion團隊的前成員Leo Kadieff。

他揭秘道:這些TEDx演講者,都是用最新的Flux真實版LoRA製作的。

以往的AI生圖,人眼多少都會看出違和感,而這次的圖片如此逼真,正是靠LoRA技術改進了模型,才大大增加了真實感。

並且,作者介紹說,這個工作流還有一個好處,就是大大簡化了複雜的提示詞。

這個消息,簡直讓提示詞苦手們狂喜。

這個小小的22MB文件,就可以讓我們省去麻煩,不必再在每個提示詞中寫一堆與真實性相關的Token。

一句「一張RAW超現實主義照片,UHD,8k」,足矣。現實主義愛好者,絕對愛死了這個工具。

作者直言:我們還需要對現實模型進行微調嗎?

– 這些圖像是Flux+LoRA的原始輸出,未經過任何放大或後期處理

– 你需要對應的「RealismLora」文件,以及ComfyUI工作流

Lora:https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main 

ComfuUI:https://we.tl/t-zrC5tPFG17

真實版LoRA,效果拔群

從下面這兩幅圖中不難看出,用LoRA和不用LoRA的效果對比,果然十分明顯。

網民已玩嗨

與此同時,「TED演講者」的分享者Kyrannio,也嘗試用Midjourney複刻了一波。

最初的提示詞如下:

一位女性在舞台上發言,來自Google,白色背景,企業標誌被模糊處理,科技會議 –style raw –v 6.1

可以看出,生成效果還不錯,但與Leo Kadieff生成的圖片差距依然很大。

接著,博主又進行了一些改進:

一位年輕女性微笑著在舞台上發言,來自Google,白色背景,企業標誌被模糊處理,科技會議 –style raw –v 6.1

並在經過多次生成之後,試出了最為接近的結果:

與此同時,隨著GoogleImagen 3公開可用,網民們也在第一時間拿著這套prompt進行了嘗試。

一時間,全網都掀起AI生圖的熱潮。

Imagen 3全員可用

沒錯,正如剛剛提到的,Google最強文生圖模型Imagen 3已經正式開放可用了。

prompt:Photo of a man holding a sign that says: “Imagen Is Now Almost As Good As Midjourney” in New York City.

來源:Risphere來源:Risphere

網民chrypnotoad表示,自己還沒見過哪個AI能把阿喀琉斯之盾做得這麼好的!

能輕鬆hold住如此複雜的prompt,Imagen 3果然不能小覷。

知名博主「歸藏」在體驗之後表示:

生成的內容準確但圖片美觀度很差。只要涉及人物,你就得仔細斟酌提示詞寫法,不然大概率無法出圖。

好在,他們在提示詞的交互上做得很好:

LLM會分析提示詞類型,並且給出相關詞語你可以直接切換。

來源:歸藏來源:歸藏

除了直接生成之外,Imagen 3還支持局部重繪功能,用畫筆和提示詞對圖片進行編輯。

來源:歸藏來源:歸藏

當然,幾家頂流文生圖AI的PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1[pro]。

異色瞳的亞洲女性。

美洲原住民。 

有美人痣的南亞婦女。 

瘋狂的藝術家。 

很遺憾,Google大概因為安全設置過於敏感,並不能生成這個prompt…… 

留著八字鬍的高加索老人。 

Runway也來蹭了一波,但…

趁著這股熱度,Runway創意總監Nicolas Neubert,還用自家的Gen-3 Alpha生成了一段影片。 

果然,AI圖片變成影片後,效果依然杠杠的! 

而這個帖子,也同樣引起了轟動。 

網民讚歎道:從一年半前慘不忍睹的威爾·史密夫吃意麵,到今天這個程度,進步可謂是瘋狂的。 

同時,也有火眼金睛的網民發現,這個影片依然有一些細微的bug。 

比如人的舌頭不會動,牙齒有些彎曲、扁平,第4秒時左臂出現了奇怪的斑點,還有Google標誌處的bug,也非常明顯。 

如果看得再仔細點,會發現所有的陰影都很不自然,比如馬克風的陰影。還有東西接觸的地方,很多線條是亂的。 

嘴唇的動作也不自然。 

眼睛看起來仍然沒有靈魂。 

總的來說,相比於AI生圖,目前AI影片的bug顯然要多得多。 

背後的原因還是在於,AI根本不理解人類的舌頭、頭髮、眼睛究竟是什麼東西。接下來的AI,還是要學會人體解剖和物理學才行。 

而且,在文生圖這塊,Runway就要差得多了。 

SD一作攜原班人馬創業,一出手就是王炸

說回到FLUX.1,其實在8月初的時候它就引起過一波熱議。 

Stable Diffusion一作、Stabililty AI核心成員Robin Rombach下場創業,官宣成立Black Forest Labs。 

祭出的首個產品FLUX.1系列模型,效果直接秒殺Midjourney、DALL-E和Stable Diffusion! 

根據官博的介紹,FLUX.1在圖像細節、提示詞遵循、風格多樣性和場景複雜性方面都取得了SOTA。 

尤其是FLUX.1[pro],經過測試在一眾文生圖模型中拔得頭籌。 

視覺質量、提示詞遵循、尺寸/縱橫比變化、排版和輸出多樣性 

ELO得分 

為了在可訪問性和模型能力之間取得平衡,FLUX.1有三種變體:FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]: 

– FLUX.1 [pro]:FLUX.1的頂級版本,提供最先進的圖像生成,具有一流的提示詞跟隨能力、視覺質量、圖像細節和輸出多樣性。 

– FLUX.1 [dev]是一個開放權重的指令蒸餾模型,用於非商業應用。由於是從FLUX.1 [pro]直接蒸餾而來,因此FLUX.1 [dev]不僅獲得了強大的質量和提示詞跟隨能力,而且比同規模的標準模型更加高效。 

– FLUX.1 [schnell]是最快的模型,專為本地開發和個人使用而設計。(schnell在德語中就是快的意思) 

值得一提的是,所有FLUX.1模型都基於多模態和並行擴散Transformer塊的混合架構,參數規模為120億。 

其中,團隊通過構建流匹配(flow matching)改進了之前的擴散模型,並且通過結合旋轉位置嵌入(rotary positional embeddings)和並行注意力層提高了模型性能和改進硬件效率。 

團隊成員

扒開Black Forest Labs主頁,可以看到團隊共有15位成員。 

創始人正是老熟人Robin Rombach。 

Stability AI曾收購了Robin的Latent Diffusion模型,並聘請他成為首席科學家。 

在Google Scholar網站上,Robin Rombach參與論文《High-Resolution Image Synthesis With Latent Diffusion Models》已經收穫了9000多次引用。 

期間他領導了全球著名文生圖開源項目Stable Diffusion系列,這也是全球下載最多、使用最廣的開源大模型之一。 

論文地址:https://arxiv.org/pdf/2112.10752 

Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD論文作者,也是Black Forest Labs創業團隊的新成員。 

除了Bjorn Ommer,可以說Robin將SD核心元老全都帶走了。 

《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收Robin離職前發表的最後一篇論文。 

論文地址:https://arxiv.org/abs/2403.12015 

值得一提的是,在這篇論文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也參與了其中。 

除此以外,新團隊曾經的創新成果包括創建VQGAN和潛在擴散(Latent Diffusion)、用於圖像和影片生成的SD模型(SD XL 、SVD)以及用於超快速實時圖像合成的對抗擴散蒸餾(Adversarial Diffusion Distillation)。 

看來,AI生圖和影片的進步速度,還在不斷加快。 

再過一年,我們能看到的AI圖片和影片,將是驚人的。 

參考資料: 

https://x.com/koltregaskes/status/1821984829065588891 

https://x.com/doganuraldesign/status/1821992421770850523 

https://www.reddit.com/r/StableDiffusion/comments/1emrprx/feel_the_difference_between_using_flux_with/ 

https://www.linkedin.com/posts/leokadieff_ai-generativeai-filmmaking-activity-7227322182920536066-K980/# 

本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。