OpenAI深夜官宣,連續12天發佈AI大招,Sora、滿血o1或將發佈

就在剛剛,Google Deepmind深夜放大招,發佈了最新基礎世界模型Genie 2。

想體驗遊戲世界?未來只需一張圖片就能實現。

作為一個基礎世界模型,Genie 2能夠憑藉開局一張圖生成各種可操作、可玩的3D環境。

當Genie 2能準確預判角色行為並實時生成連貫畫面,這也意味著它已經開始真正「理解」而不是簡單「模仿」世界的運作規律。

而在淩晨時分,OpenAI也正式官宣了為期十二天的聖誕驚喜活動。

十二月的矽谷不只是聖誕老人的主場,也是AI巨頭們的年終對決。不是冤家不聚頭,Deepmind頭條再次被成功搶佔。

Sam Altman在X平台宣佈:

從明天太平洋時間上午10點開始,我們將啟動為期12天的OpenAI活動。

每個工作日,我們都會進行一場直播,展示一些新發佈的內容或演示,有些是重磅活動,也有些是小驚喜。

我們有很多精彩內容等著與大家分享,希望你喜歡!聖誕快樂!

網民也化身預言家,預測了OpenAI要發佈的一些內容:

  • 第1天:發佈文本到影片AI工具Sora。

  • 第2天:為ChatGPT引入聖誕老人靈感的聲音,增添節日氣氛。

  • 第3天:通過視覺功能增強ChatGPT的高級語音模式。

  • 第4天:向免費用戶發佈o1-preview,擴展了對高級推理模型的訪問。

  • 第5天:展示1月即將推出的GPT智能體。

  • 第6天:發佈GPT-4o圖像。

  • 第7天:推出新的開發者工具。

  • 第8天:展示新的Dalle。

  • 第9天:宣佈具有更大上下文窗口的GPT-NEXT模型。

  • 第10天:發佈辯論遊戲,教機器辯論玩具問題。

  • 第11天:推出Microscope,這是神經網絡模型可視化的集合。

  • 第12天:將高級語音模式時間增加至每天20小時。

滿血版o1、Sora的呼聲在眾多網民的猜測中此起彼伏,可以說,2024年的AI競賽正在醞釀最後的高潮。

具體細節,APPSO也將第一時間送上。

把照片變成可玩的3D遊戲,遊戲開發者要失業了?

第一代Genie創造了2D世界,而今天Deepmind推出的Genie 2則邁出了更大的一步,能夠生成豐富多彩的3D世界。

作為世界模型,Genie 2最厲害的地方在於它能「理解」虛擬世界的運作規律。比如當你操控角色跳躍或游泳時,它能準確預測和展示接下來會發生什麼。

這得益於其在海量影片數據集上的訓練,以及類似其他生成式模型所展現的多項湧現能力,包括物體互動、複雜角色動畫、真實物理效果,以及對其他智能體行為的模擬與預測能力。

DeepMind發佈的演示影片生動展示了用戶與Genie 2的互動過程。

首先,系統使用Imagen 3根據文字描述生成初始圖片。然後,Genie 2就能基於這張圖片創造出一個完整的互動世界。最後,用戶可以用鍵盤鼠標在這個世界里自由探索,而Genie 2會實時模擬生成你看到的每一幀畫面。

更重要的是,Genie 2能夠在一分鐘內生成世界,大多數示例的時長為10至20秒。

具體而言,Genie 2能智能響應鍵盤輸入,準確識別並移動目標角色。比如,它能自動理解方向鍵應該控制機器人的移動,而不是場景中的樹木或雲朵。

有趣的是,即使從同一個初始畫面出發,由於玩家決策和行動的差異,最終可以產生截然不同的結果。這一特性對於訓練AI智能體理解不同決策帶來的後果極其有價值。

另外,Genie 2還擁有強大的「記憶力」和「創造力」,它能記住你看不到的地方是什麼樣的,在重新看到時還能精確重現。

Genie 2能保持長達一分鐘的場景連貫性,動態生成新的合理內容。

Genie 2支持多種視角切換,比如第一人稱視角、等角視角或第三人稱駕駛影片。

Genie 2能呈現複雜的3D視覺場景。

Genie 2支持多樣化的對象交互,如氣球爆炸、開門動作和炸藥桶爆炸效果

Genie 2支持為不同類型角色製作流暢的動畫效果,支持多種活動形式

它不僅能夠模擬其他智能體,還能模擬與這些智能體的複雜交互。

不僅如此,Genie 2還能模擬水效果、煙霧效果、重力、照明、反射等多種物理現象,並能使用真實世界圖片生成動態模擬效果。

基於現實圖片模擬生成

畫張草圖就能玩?但也有翻車的時候

Genie 2能快速地將想法變成可以玩的3D場景。

也就是說,通過Genie 2,研究人員可以設計和實現多種不同的交互式體驗,這些體驗可以模擬各種複雜的物理現象和行為,從而來測試和驗證他們的理論或模型。

於是研究團隊試著讓Genie 2對不同的飛行物體(紙飛機、龍、鷹、降落傘)進行建模,以測試Genie 2在動畫製作方面的能力,同時也包括模擬這些物體的飛行動態和物理行為。

對藝術家和設計師等創作者來說,這是一個極其強大的神器。想像一下,設計師畫個簡單的草稿,Genie 2就能變成可以實際體驗的3D環境,省去了大量複雜的製作過程。

並且,通過使用Genie 2快速創建豐富多樣的環境供AI智能體進行任務訓練,Deepmind研究人員還可以生成一些智能體在訓練時未曾接觸過的評估任務。

說人話就是,Genie 2充當了AI的「訓練場」,能快速創造出各種各樣的「考試場景」,來訓練和測試他們與遊戲開發者合作開發的SIMA AI智能體。

具體來說,SIMA智能體主要是通過自然語言指令完成多種3D遊戲世界中的任務。

舉個具體的例子,研究團隊先用一段簡單的提示詞生成了一張圖片,然後使用Genie 2創建了一個包含兩扇門(藍色和紅色)的3D環境,並給SIMA智能體提供了打開每扇門的指令。

Prompt:一張第三人稱視角的開放世界探索遊戲截圖。玩家是一個探險者,正在探索一片森林。左側有一座紅色門的房子,右側有一座藍色門的房子。相機位於玩家正後方。

就像我們用鍵盤鼠標控制遊戲角色一樣,SIMA能理解這些指令並完成任務。而Genie 2則負責把整個場景生動地構建出來。

反過來,研究團隊還可以利用SIMA來幫助測試Genie 2的能力。比如,團隊通過指示SIMA環顧四周並探索房子後方,借此測試Genie 2創建的世界是否前後一致,比如房子後面是不是真的有完整的建築。

不過呢,Deepmind也承認,目前這項研究仍處於初期階段,且在智能體和環境生成能力上有著很大的改進空間。

比如說,官方也放出一些翻車的「花絮」,譬如明明是個安靜的花園,突然冒出個鬼魂。

滑雪的時候,角色莫名其妙地把滑雪板一扔,開始跑酷。

手裡拿著的「能量球」毫無徵兆地「砰」地就炸了

儘管如此,但在Deepmind研究團隊看來,Genie 2將是解決訓練具身智能體的結構性問題的關鍵,並且它能夠實現向通用人工智能(AGI)發展的廣度和泛化性,將是邁向AGI的重要一步。

說到具體的技術原理,Genie 2本質上是一種自回歸的潛在擴散模型,經過大規模影片數據集的訓練。

影片經過自編碼器處理後,提取的潛在幀被傳遞到一個大型Transformer模型,後者使用類似大語言模型的因果掩碼進行訓練。

在推理時,Genie 2可以以自回歸方式進行采樣,逐幀處理,基於過去的潛在幀和當前的動作生成新的幀。

研究團隊使用無分類器引導方法來提高動作的可控性。

看著有些複雜,簡單來說,它看過海量的影片資料,學會了預測畫面怎麼變化。當你在這個虛擬世界里行動時,它就能一幀一幀地生成新畫面,從而讓整個過程看起來特別流暢自然。

官方目前展示的這些案例都是通過未蒸餾的基礎模型生成的,目的是展示潛力。雖然研究團隊也有一個能實時運行的精簡版本,但輸出的畫面效果會差一些。

但不管怎麼說,從平面到立體,Genie 2完成了AI創造力的維度躍遷。

也許再過不久,「拍照」這個行為的含義將被重新定義。每張照片都可能成為一個入口,通向一個完整的虛擬世界。

本文來自微信公眾號:APPSO (ID:appsolution),作者:APPSO