超越恐怖穀,全球500萬網民被騙,爆火TEDx演講者沒一個是真人?
【新智元導讀】最近,這幾位TED演講者,在外網形成了病毒式傳播,然而,他們竟然全都不是真人?!答案揭曉後,五百萬網民簡直驚掉下巴。這5張圖里,你能發現幾個bug?
最近,這些「TED演講者」在外網火得一塌糊塗,堪稱病毒式傳播。
仔細看看,你能發現什麼問題嗎?
答案揭曉——這五個人中,沒有一個是真人!
如此逼真,幾乎毫無破綻,這種級別的生圖AI直接讓網民們驚掉下巴。
甚至連AI識別軟件,都認不出來這是AI生成的圖。
「看起來真實,難道不是因為本來就是真實的照片?」
「沒有一張是真人嗎?簡直令人毛骨悚然!」
網民銳評:這已經超越了恐怖穀,到達了「超真實穀」。
短短十幾個小時,分享這張圖片的帖子,在推上的觀看人數已經破了500萬。
隨後,作者也被扒了出來——他就是Stable Diffusion團隊的前成員Leo Kadieff。
他揭秘道:這些TEDx演講者,都是用最新的Flux真實版LoRA製作的。
以往的AI生圖,人眼多少都會看出違和感,而這次的圖片如此逼真,正是靠LoRA技術改進了模型,才大大增加了真實感。
並且,作者介紹說,這個工作流還有一個好處,就是大大簡化了複雜的提示詞。
這個消息,簡直讓提示詞苦手們狂喜。
這個小小的22MB文件,就可以讓我們省去麻煩,不必再在每個提示詞中寫一堆與真實性相關的Token。
一句「一張RAW超現實主義照片,UHD,8k」,足矣。現實主義愛好者,絕對愛死了這個工具。
作者直言:我們還需要對現實模型進行微調嗎?
– 這些圖像是Flux+LoRA的原始輸出,未經過任何放大或後期處理
– 你需要對應的「RealismLora」文件,以及ComfyUI工作流
Lora:https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main
ComfuUI:https://we.tl/t-zrC5tPFG17
真實版LoRA,效果拔群
從下面這兩幅圖中不難看出,用LoRA和不用LoRA的效果對比,果然十分明顯。
網民已玩嗨
與此同時,「TED演講者」的分享者Kyrannio,也嘗試用Midjourney複刻了一波。
最初的提示詞如下:
一位女性在舞台上發言,來自Google,白色背景,企業標誌被模糊處理,科技會議 –style raw –v 6.1
可以看出,生成效果還不錯,但與Leo Kadieff生成的圖片差距依然很大。
接著,博主又進行了一些改進:
一位年輕女性微笑著在舞台上發言,來自Google,白色背景,企業標誌被模糊處理,科技會議 –style raw –v 6.1
並在經過多次生成之後,試出了最為接近的結果:
與此同時,隨著GoogleImagen 3公開可用,網民們也在第一時間拿著這套prompt進行了嘗試。
一時間,全網都掀起AI生圖的熱潮。
Imagen 3全員可用
沒錯,正如剛剛提到的,Google最強文生圖模型Imagen 3已經正式開放可用了。
prompt:Photo of a man holding a sign that says: “Imagen Is Now Almost As Good As Midjourney” in New York City.
網民chrypnotoad表示,自己還沒見過哪個AI能把阿喀琉斯之盾做得這麼好的!
能輕鬆hold住如此複雜的prompt,Imagen 3果然不能小覷。
知名博主「歸藏」在體驗之後表示:
生成的內容準確但圖片美觀度很差。只要涉及人物,你就得仔細斟酌提示詞寫法,不然大概率無法出圖。
好在,他們在提示詞的交互上做得很好:
LLM會分析提示詞類型,並且給出相關詞語你可以直接切換。
除了直接生成之外,Imagen 3還支持局部重繪功能,用畫筆和提示詞對圖片進行編輯。
當然,幾家頂流文生圖AI的PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1[pro]。
異色瞳的亞洲女性。
美洲原住民。
有美人痣的南亞婦女。
瘋狂的藝術家。
很遺憾,Google大概因為安全設置過於敏感,並不能生成這個prompt……
留著八字鬍的高加索老人。
Runway也來蹭了一波,但…
趁著這股熱度,Runway創意總監Nicolas Neubert,還用自家的Gen-3 Alpha生成了一段影片。
果然,AI圖片變成影片後,效果依然杠杠的!
而這個帖子,也同樣引起了轟動。
網民讚歎道:從一年半前慘不忍睹的威爾·史密夫吃意麵,到今天這個程度,進步可謂是瘋狂的。
同時,也有火眼金睛的網民發現,這個影片依然有一些細微的bug。
比如人的舌頭不會動,牙齒有些彎曲、扁平,第4秒時左臂出現了奇怪的斑點,還有Google標誌處的bug,也非常明顯。
如果看得再仔細點,會發現所有的陰影都很不自然,比如馬克風的陰影。還有東西接觸的地方,很多線條是亂的。
嘴唇的動作也不自然。
眼睛看起來仍然沒有靈魂。
總的來說,相比於AI生圖,目前AI影片的bug顯然要多得多。
背後的原因還是在於,AI根本不理解人類的舌頭、頭髮、眼睛究竟是什麼東西。接下來的AI,還是要學會人體解剖和物理學才行。
而且,在文生圖這塊,Runway就要差得多了。
SD一作攜原班人馬創業,一出手就是王炸
說回到FLUX.1,其實在8月初的時候它就引起過一波熱議。
Stable Diffusion一作、Stabililty AI核心成員Robin Rombach下場創業,官宣成立Black Forest Labs。
祭出的首個產品FLUX.1系列模型,效果直接秒殺Midjourney、DALL-E和Stable Diffusion!
根據官博的介紹,FLUX.1在圖像細節、提示詞遵循、風格多樣性和場景複雜性方面都取得了SOTA。
尤其是FLUX.1[pro],經過測試在一眾文生圖模型中拔得頭籌。
視覺質量、提示詞遵循、尺寸/縱橫比變化、排版和輸出多樣性
ELO得分
為了在可訪問性和模型能力之間取得平衡,FLUX.1有三種變體:FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]:
– FLUX.1 [pro]:FLUX.1的頂級版本,提供最先進的圖像生成,具有一流的提示詞跟隨能力、視覺質量、圖像細節和輸出多樣性。
– FLUX.1 [dev]是一個開放權重的指令蒸餾模型,用於非商業應用。由於是從FLUX.1 [pro]直接蒸餾而來,因此FLUX.1 [dev]不僅獲得了強大的質量和提示詞跟隨能力,而且比同規模的標準模型更加高效。
– FLUX.1 [schnell]是最快的模型,專為本地開發和個人使用而設計。(schnell在德語中就是快的意思)
值得一提的是,所有FLUX.1模型都基於多模態和並行擴散Transformer塊的混合架構,參數規模為120億。
其中,團隊通過構建流匹配(flow matching)改進了之前的擴散模型,並且通過結合旋轉位置嵌入(rotary positional embeddings)和並行注意力層提高了模型性能和改進硬件效率。
團隊成員
扒開Black Forest Labs主頁,可以看到團隊共有15位成員。
創始人正是老熟人Robin Rombach。
Stability AI曾收購了Robin的Latent Diffusion模型,並聘請他成為首席科學家。
在Google Scholar網站上,Robin Rombach參與論文《High-Resolution Image Synthesis With Latent Diffusion Models》已經收穫了9000多次引用。
期間他領導了全球著名文生圖開源項目Stable Diffusion系列,這也是全球下載最多、使用最廣的開源大模型之一。
論文地址:https://arxiv.org/pdf/2112.10752
Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD論文作者,也是Black Forest Labs創業團隊的新成員。
除了Bjorn Ommer,可以說Robin將SD核心元老全都帶走了。
《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收Robin離職前發表的最後一篇論文。
論文地址:https://arxiv.org/abs/2403.12015
值得一提的是,在這篇論文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也參與了其中。
除此以外,新團隊曾經的創新成果包括創建VQGAN和潛在擴散(Latent Diffusion)、用於圖像和影片生成的SD模型(SD XL 、SVD)以及用於超快速實時圖像合成的對抗擴散蒸餾(Adversarial Diffusion Distillation)。
看來,AI生圖和影片的進步速度,還在不斷加快。
再過一年,我們能看到的AI圖片和影片,將是驚人的。
參考資料:
https://x.com/koltregaskes/status/1821984829065588891
https://x.com/doganuraldesign/status/1821992421770850523
https://www.reddit.com/r/StableDiffusion/comments/1emrprx/feel_the_difference_between_using_flux_with/
https://www.linkedin.com/posts/leokadieff_ai-generativeai-filmmaking-activity-7227322182920536066-K980/#
本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。