GoogleI/O開發者大會集合貼:影片生成模型Veo登場

來源:財聯社

財聯社5月15日訊(編輯 史正丞)香港時間週三淩晨1點,Google在山景城總部附近的海岸線圓形劇場召開年度I/O開發者大會。

按照往年慣例,投資者和科技愛好者們將在今天這場會議上聽到有關搜索引擎、Android 15操作系統的更新,以及今年最熱話題——人工智能的更新,以及如何在「Google全家桶」和安卓系統中呈現。此外,投資者們也在密切關注XR頭顯操作系統和新旗艦Pixel手機的蛛絲馬跡。

值得一提的是,鑒於昨日OpenAI剛剛發佈全網「免費用」的最新旗艦大模型GPT-4o,微軟又將在下週(5月21日至23日)舉行年度開發者大會。決定今晚Google成敗的核心因素,肯定會是在AI領域能帶來多少驚喜。

在今天淩晨Google發佈會Keynote演講期間,財聯社也將滾動更新最新情報。

—-持續更新中—-

🔈Google表示,今年晚些時候,能夠在本地運行的多模態Gemini Nano模型將登陸Pixel手機,意味著你的手機將能通過文字、圖片、影片、音頻,理解用戶的世界。舉例而言,在聽到「幫你把錢轉到安全賬戶」這樣的詐騙電話時,手機會自動彈出詐騙警告。整個過程都是在本地運行,不會引發隱私泄露。

👉安卓生態系統的負責人Sameer Samat登台,他將討論今年安卓系統實現的「三大突破」,分別是「畫圈圈搜索」、Gemini手機AI助手,第三是在手機本地運行的AI。

👉Hsiao再次強調了Gemini的長上下文窗口——能夠一次性處理整整1500頁的文件,或3萬行代碼、1小時影片。不同的載體也能混同一起提交給聊天機器人。她再次強調,今年晚些時候上下文窗口將翻倍至200萬Tokens。

🔈GoogleGemini總經理Sissie Hsiao介紹了Gemini App的更新。與昨天OpenAI一樣,從今年夏天開始,Gemini也將支持語音實時交互,同時今年晚些時候還將上線實時影片交互功能。未來幾個月內,Google也將推出類似於GPTs的自定義AI助手功能,叫做Gems。這個AI助手的亮點,將是能與「Google全家桶」進行交互。

👉在辦公套件Workspace方面,Google將逐步推出總結、郵件Q&A,以及智能回覆等功能。

👉Google搜索業務負責人Liz Reid開始具體介紹AI Overviews功能。Reid表示,在進行搜索時,搜素引擎具備多步驟推理的能力,例如尋找一個瑜伽教室,同時展示新手優惠報價,和距離特定位置的步行時間。這個AI搜索引擎助手,還能介紹食譜、安排行程,以及接受影片形式的提問(例如影片中的相機怎麼使用)。

👉皮查伊表示,Google投資了200萬英里的地面和海底光纖,比第二名的雲服務商翻了十倍。

👉皮查伊開始介紹自家的AI超級計算機,比起用戶自己買相同的硬件和芯片,Google的架構能使得效能翻倍,其中有部分功勞來自於液冷系統。皮查伊表示,Google部署液冷系統的數據中心已經達到1GW,而且還在不斷增長中。

👉哈薩比斯離場,皮查伊重回舞台,發佈第六代TPU芯片Trillium,較上一代芯片的算力表現翻4.7倍,雲用戶從今年下半年開始可以用上新芯片。同時Google雲將在2025年初,用上英偉達的最新Blackwell架構GPU。

👉影片生成模型Veo能夠根據文字、圖片和影片的提示,生成高質量1080p影片。

🔈Google宣佈了一系列與圖像、音樂、影片有關的生成式AI工具。包括文生圖工具Imagen 3、與Youtube以及音樂家合作的「AI音樂沙盒」,以及最新的影片生成模型Veo。

🔈Google展示「未來的人工智能助手」——名為「Astra」的項目。哈薩比斯表示,這樣的AI助手需要像人類一樣理解這個動態且複雜的世界。需要記得住它看到的東西,這樣才能理解對話並付諸於行動。同時它也得能積極主動接受教導,以及自然、無延遲地進行交流。在演示影片中,Google的AI助手能夠通過攝像頭影片,識別「什麼東西能發出聲音」、「現在身處何地」等指令。

🔈哈薩比斯宣佈,推出Gemini 1.5 Flash大模型。這個模型兼具速度與效率,和多模態推理能力,以及長達100萬tokens的上下文窗口。開發者將能夠申請體驗200萬tokens的上下文窗口的Gemini 1.5 Flash。

👉GoogleAI業務總負責人、DeepMind傑米斯·哈薩比斯登台。

👉Google同時面向開發者推出支持200萬tokens的Gemini 1.5 Pro模型的預覽,並表示最終的目標將是「無限上下文」。

🔈皮查伊宣佈,最新版本的Gemini 1.5 Pro(在多項核心功能方面均與最初發佈版本有所提高)現在向全球所有開發者開放。從今天開始,支持100萬tokens上下文窗口的Gemini 1.5 Pro將在Gemini Advanced功能下向用戶開放,支持35種語言。

👉基於Gemini支持,Google圖片(Google Photos)將支持用戶存儲圖片的AI搜索,例如「告訴我,我的車牌號碼是多少?」——這個名為Ask Photos的功能將於今年夏天推出。

🔈皮查伊宣佈,能夠總結Google搜索引擎結果的「AI概覽」(AI Overviews)功能,將於本週在美國推出。

👉皮查伊表示,現在已經有超過150萬開發者正在使用Google的人工智能Gemini,今天將展示一系列有關搜索、圖片、工作套件、安卓系統等等與人工智能有關的案例。

👉發佈會開始,Alphabet&GoogleCEO桑達爾·皮查伊登上舞台。

👉發佈會將於香港時間今日淩晨1點開始。