OpenAI深夜官宣,連續12天發佈AI大招,Sora、滿血o1或將發佈
就在剛剛,Google Deepmind深夜放大招,發佈了最新基礎世界模型Genie 2。
想體驗遊戲世界?未來只需一張圖片就能實現。
作為一個基礎世界模型,Genie 2能夠憑藉開局一張圖生成各種可操作、可玩的3D環境。
當Genie 2能準確預判角色行為並實時生成連貫畫面,這也意味著它已經開始真正「理解」而不是簡單「模仿」世界的運作規律。
而在淩晨時分,OpenAI也正式官宣了為期十二天的聖誕驚喜活動。
十二月的矽谷不只是聖誕老人的主場,也是AI巨頭們的年終對決。不是冤家不聚頭,Deepmind頭條再次被成功搶佔。
Sam Altman在X平台宣佈:
從明天太平洋時間上午10點開始,我們將啟動為期12天的OpenAI活動。
每個工作日,我們都會進行一場直播,展示一些新發佈的內容或演示,有些是重磅活動,也有些是小驚喜。
我們有很多精彩內容等著與大家分享,希望你喜歡!聖誕快樂!
網民也化身預言家,預測了OpenAI要發佈的一些內容:
-
第1天:發佈文本到影片AI工具Sora。
-
第2天:為ChatGPT引入聖誕老人靈感的聲音,增添節日氣氛。
-
第3天:通過視覺功能增強ChatGPT的高級語音模式。
-
第4天:向免費用戶發佈o1-preview,擴展了對高級推理模型的訪問。
-
第5天:展示1月即將推出的GPT智能體。
-
第6天:發佈GPT-4o圖像。
-
第7天:推出新的開發者工具。
-
第8天:展示新的Dalle。
-
第9天:宣佈具有更大上下文窗口的GPT-NEXT模型。
-
第10天:發佈辯論遊戲,教機器辯論玩具問題。
-
第11天:推出Microscope,這是神經網絡模型可視化的集合。
-
第12天:將高級語音模式時間增加至每天20小時。
滿血版o1、Sora的呼聲在眾多網民的猜測中此起彼伏,可以說,2024年的AI競賽正在醞釀最後的高潮。
具體細節,APPSO也將第一時間送上。
把照片變成可玩的3D遊戲,遊戲開發者要失業了?
第一代Genie創造了2D世界,而今天Deepmind推出的Genie 2則邁出了更大的一步,能夠生成豐富多彩的3D世界。
作為世界模型,Genie 2最厲害的地方在於它能「理解」虛擬世界的運作規律。比如當你操控角色跳躍或游泳時,它能準確預測和展示接下來會發生什麼。
這得益於其在海量影片數據集上的訓練,以及類似其他生成式模型所展現的多項湧現能力,包括物體互動、複雜角色動畫、真實物理效果,以及對其他智能體行為的模擬與預測能力。
DeepMind發佈的演示影片生動展示了用戶與Genie 2的互動過程。
首先,系統使用Imagen 3根據文字描述生成初始圖片。然後,Genie 2就能基於這張圖片創造出一個完整的互動世界。最後,用戶可以用鍵盤鼠標在這個世界里自由探索,而Genie 2會實時模擬生成你看到的每一幀畫面。
更重要的是,Genie 2能夠在一分鐘內生成世界,大多數示例的時長為10至20秒。
具體而言,Genie 2能智能響應鍵盤輸入,準確識別並移動目標角色。比如,它能自動理解方向鍵應該控制機器人的移動,而不是場景中的樹木或雲朵。
有趣的是,即使從同一個初始畫面出發,由於玩家決策和行動的差異,最終可以產生截然不同的結果。這一特性對於訓練AI智能體理解不同決策帶來的後果極其有價值。
另外,Genie 2還擁有強大的「記憶力」和「創造力」,它能記住你看不到的地方是什麼樣的,在重新看到時還能精確重現。
Genie 2能保持長達一分鐘的場景連貫性,動態生成新的合理內容。
Genie 2支持多種視角切換,比如第一人稱視角、等角視角或第三人稱駕駛影片。
Genie 2能呈現複雜的3D視覺場景。
Genie 2支持多樣化的對象交互,如氣球爆炸、開門動作和炸藥桶爆炸效果
Genie 2支持為不同類型角色製作流暢的動畫效果,支持多種活動形式
它不僅能夠模擬其他智能體,還能模擬與這些智能體的複雜交互。
不僅如此,Genie 2還能模擬水效果、煙霧效果、重力、照明、反射等多種物理現象,並能使用真實世界圖片生成動態模擬效果。
基於現實圖片模擬生成
畫張草圖就能玩?但也有翻車的時候
Genie 2能快速地將想法變成可以玩的3D場景。
也就是說,通過Genie 2,研究人員可以設計和實現多種不同的交互式體驗,這些體驗可以模擬各種複雜的物理現象和行為,從而來測試和驗證他們的理論或模型。
於是研究團隊試著讓Genie 2對不同的飛行物體(紙飛機、龍、鷹、降落傘)進行建模,以測試Genie 2在動畫製作方面的能力,同時也包括模擬這些物體的飛行動態和物理行為。
對藝術家和設計師等創作者來說,這是一個極其強大的神器。想像一下,設計師畫個簡單的草稿,Genie 2就能變成可以實際體驗的3D環境,省去了大量複雜的製作過程。
並且,通過使用Genie 2快速創建豐富多樣的環境供AI智能體進行任務訓練,Deepmind研究人員還可以生成一些智能體在訓練時未曾接觸過的評估任務。
說人話就是,Genie 2充當了AI的「訓練場」,能快速創造出各種各樣的「考試場景」,來訓練和測試他們與遊戲開發者合作開發的SIMA AI智能體。
具體來說,SIMA智能體主要是通過自然語言指令完成多種3D遊戲世界中的任務。
舉個具體的例子,研究團隊先用一段簡單的提示詞生成了一張圖片,然後使用Genie 2創建了一個包含兩扇門(藍色和紅色)的3D環境,並給SIMA智能體提供了打開每扇門的指令。
Prompt:一張第三人稱視角的開放世界探索遊戲截圖。玩家是一個探險者,正在探索一片森林。左側有一座紅色門的房子,右側有一座藍色門的房子。相機位於玩家正後方。
就像我們用鍵盤鼠標控制遊戲角色一樣,SIMA能理解這些指令並完成任務。而Genie 2則負責把整個場景生動地構建出來。
反過來,研究團隊還可以利用SIMA來幫助測試Genie 2的能力。比如,團隊通過指示SIMA環顧四周並探索房子後方,借此測試Genie 2創建的世界是否前後一致,比如房子後面是不是真的有完整的建築。
不過呢,Deepmind也承認,目前這項研究仍處於初期階段,且在智能體和環境生成能力上有著很大的改進空間。
比如說,官方也放出一些翻車的「花絮」,譬如明明是個安靜的花園,突然冒出個鬼魂。
滑雪的時候,角色莫名其妙地把滑雪板一扔,開始跑酷。
手裡拿著的「能量球」毫無徵兆地「砰」地就炸了
儘管如此,但在Deepmind研究團隊看來,Genie 2將是解決訓練具身智能體的結構性問題的關鍵,並且它能夠實現向通用人工智能(AGI)發展的廣度和泛化性,將是邁向AGI的重要一步。
說到具體的技術原理,Genie 2本質上是一種自回歸的潛在擴散模型,經過大規模影片數據集的訓練。
影片經過自編碼器處理後,提取的潛在幀被傳遞到一個大型Transformer模型,後者使用類似大語言模型的因果掩碼進行訓練。
在推理時,Genie 2可以以自回歸方式進行采樣,逐幀處理,基於過去的潛在幀和當前的動作生成新的幀。
研究團隊使用無分類器引導方法來提高動作的可控性。
看著有些複雜,簡單來說,它看過海量的影片資料,學會了預測畫面怎麼變化。當你在這個虛擬世界里行動時,它就能一幀一幀地生成新畫面,從而讓整個過程看起來特別流暢自然。
官方目前展示的這些案例都是通過未蒸餾的基礎模型生成的,目的是展示潛力。雖然研究團隊也有一個能實時運行的精簡版本,但輸出的畫面效果會差一些。
但不管怎麼說,從平面到立體,Genie 2完成了AI創造力的維度躍遷。
也許再過不久,「拍照」這個行為的含義將被重新定義。每張照片都可能成為一個入口,通向一個完整的虛擬世界。
本文來自微信公眾號:APPSO (ID:appsolution),作者:APPSO