大模型全面爆發,所有榜一都是 Gemini!Google一夜站到了台前

轉自 | 機器之心

香港時間今天淩晨 1 點,今年的 Google I/O 2025 開發者大會正式開啟。Google最近的大模型技術風頭正勁,今年的這場「科技春晚」吸引了全球關注的目光。

沒有意外,今年的核心主題自然是 AI。會上,Google發佈或升級了一系列 AI 相關工具和服務,如下圖所示。

不過也有一些預料之外的發佈。

下面我們就來概括性地盤點一番 Google I/O 2025 開發者大會這場 AI 的盛宴。

Gemini 大爆發

首先最重要的就是基礎模型。

今年,Gemini 無疑是 Google I/O 2025 開發者大會上最亮眼的關鍵詞。Google不僅為其帶來了新升級,同時還推出了一系列圍繞 Gemini 開發的工具。

2.5 Pro 不僅在學術基準測試中表現出色,如今更是 WebDev Arena 和 LMArena 排行榜上全球領先的模型,在幫助人們學習方面也同樣出色。

DeepMind 為 2.5 Pro 和 2.5 Flash 帶來了全新功能:原生音頻輸出 —— 能實現更自然的對話體驗;先進的安全保障;以及 Project Mariner 的計算機使用功能。

Deep Think 還能進一步提升 2.5 Pro 的能力,這是一種實驗性的增強型推理模式,適用於高度複雜的數學和編碼。

另外, 最高效的主力模型 Gemini 2.5 Flash 也在多個維度上得到了提升,包括推理、多模態、代碼和長上下文等關鍵基準,同時效率進一步提升。在 DeepMind 自家的評估中,使用的 token 也減少了 20-30%。

2.5 Flash 現已在 Gemini 應用中面向所有用戶開放,DeepMind 計劃將於 6 月初在面向開發者的 Google AI Studio 和麵向企業的 Vertex AI 中正式發佈更新版本,2.5 Pro 也將很快發佈。

Google還在 Gemini API 和 Vertex AI 中引入思維摘要(thought summaries)功能,以提高透明度;將思維預算擴展到 2.5 Pro 以增強控制力;並在 Gemini API 和 SDK 中增加對 MCP 工具的支持,以便用戶訪問更多開源工具。

另外,Google還宣佈了一個名叫 Gemini Diffusion 的新模型。從名字上看,這應該是一個採用了擴散模型的 AI。

為了提升大模型推理速度,以進一步貼近生產應用,Google DeepMind 正在使用「擴散」技術來探索新的語言模型方向,該模型旨在為用戶提供更強大的控制力、創造力和文本生成速度。

擴散模型的工作原理有所不同。它們不是像大語言模型那樣直接預測下個文本 token,而是通過逐步細化噪聲的方式來學習生成輸出。這意味著它們可以快速迭代解決方案,並在生成過程中進行錯誤糾正。這有助於它們在編輯等任務中表現出色,包括在數學和代碼環境中。

Google表示:「這個新的最先進的文本模型不僅速度快,而且速度非常快,今天發佈的 Gemini Diffusion 實驗演示的生成速度是我們迄今為止最快模型的五倍,同時具有相當的編程性能。」

Google表示,Gemini Diffusion 的推理速度可以達到每 12 秒 10095 token。Google表示,Gemini Diffusion 的推理速度可以達到每 12 秒 10095 token。

對這個新模型感興趣的讀者可以在這裏加入等待列表:

https://docs.google.com/forms/d/1aLm6J13tAkq4v4qwGR3z35W2qWy7mHiiA0wGEpecooo/viewform?edit_requested=true

Gemini 應用的未來也值得期待。Demis Hassabis 親自撰寫了一篇題為「我們構建通用 AI 助手的願景」的博客文章,其中寫到:「我們正在將 Gemini 擴展為一個世界模型,它可以通過模擬世界的各個方面來製定計劃並想像新的體驗。」

我們的終極願景是將 Gemini 應用打造成一個通用的 AI 助手,它可以為我們執行日常任務,處理日常的日常管理,並提供令人愉悅的新建議,從而提高我們的工作效率,豐富我們的生活。」

這一願景的起點是 Project Astra,Google基於其首次探索了影片理解、屏幕共享和記憶功能等功能。

在過去的一年里,Google一直在將這些功能集成到 Gemini Live 中,以便讓更多人體驗到這些功能。同時,Google也在創新,例如,升級了語音輸出,使其更加自然地融入原生音頻,改進了記憶功能,並增加了計算機控制功能。

編程工具升級

既然是開發者大會,那必然少不了編程工具的升級。在這方面,Google可以說是火力全開。

首先,Google正式宣佈了前兩天悄然上線的編程智能體 Jules。據介紹,Jules 是一款異步、智能體式的編碼助手,可直接與用戶現有的代碼庫集成。它可將用戶代碼庫複製到安全的 Google Cloud 虛擬機 (VM) 中,瞭解項目的完整上下文,並執行編寫測試、構建新功能、提供音頻更新日誌、修復錯誤、升級依賴項版本等任務。

Jules 以異步方式運行,讓用戶可在 Jules 後台運行時專注於其他任務。完成後,它會展示其計劃、推理過程以及所做更改的差異。Jules 預設為私有 —— Google承諾不會使用用戶的私有代碼進行訓練,並且會在執行環境中隔離用戶數據。

目前,Jules 處於公測階段(beta),訪問免費,但使用量會受到限制。Google表示會在公測結束後推出定價機制,想要嚐鮮的可得抓緊。

此外,Google還宣佈了 Gemini Code Assist 的新升級。Gemini Code Assist 是Google幾個月前發佈的 AI 編程助手,其中包括個人版 Gemini Code Assist for individuals 和代碼審查智能體 Gemini Code Assist for GitHub。Google表示:「自二月份發佈預覽版以來,我們一直在徵求意見、聽取反饋,並逐步實現開發者所需的功能。」

現在,Google宣佈 Gemini Code Assist 個人版和 GitHub 版正式發佈,開發者可以在不到一分鐘的時間內上手。Gemini 2.5 現已支持 Gemini Code Assist 的免費版和付費版,擁有更強大的編程性能;可幫助開發者在創建視覺效果出色的 Web 應用以及代碼轉換和編輯等任務上表現出色。

此外,Google還宣佈為 Gemini Code Assist 提供了更多自定義選項,包括更多自定義工作流程以適應不同項目需求的方式,更輕鬆地從上次中斷的位置繼續執行任務的功能,以及用於強製執行團隊編碼標準、樣式指南和架構模式的新工具。

另外,Gemini Code Assist 標準版和企業版開發者也已經可以使用 200 萬 token 的上下文窗口,這能幫助開發者完成大規模的複雜任務,例如錯誤追蹤、代碼轉換以及為新用戶生成全面的入門指南。

Google還展示了一個使用統計數據:Gemini Code Assist 可將開發者完成常見開發任務的成功率提高 2.5 倍。

感興趣的用戶可以在 VS Code 或 JetBrains IDE 中下載 Gemini Code Assist 插件,並通過 GitHub 應用訪問代碼審查智能體。此外,用戶現在還可以利用 Android Studio for Business 中的 Gemini,在 Android 開發生命週期的每個階段充分利用 Gemini。

Google還推出一款全新的 AI 驅動式 UI 工具:Stitch。它能基於自然語言描述或圖像提示詞,生成適用於桌面和移動設備的高質量 UI 設計及相應的前端代碼。Stitch 能讓用戶快速將創意變為現實,以對話方式迭代設計,調整主題,並輕鬆將自己的作品導出為 CSS/HTML 或 Figma 以繼續創作。

Google還宣佈了 Colab 和 Firebase Studio 的一些功能升級。其中 Colab「很快就會具有一種全新的、完全智能體的體驗。只需告訴 Colab 你想要實現的目標,它就會在你的筆記本中執行操作,修復錯誤並轉換代碼,從而幫助你更快地解決難題。」可以期待一下。

最新影片、圖像生成模型

Google最新的影片和圖像生成模型 Veo 3 和 Imagen 4 憑藉其優異的新功能,打破了媒體生成的界限。此外,全新的 AI 電影製作工具 Flow 已經用上了 Google DeepMind 最先進的模型,讓你能夠更精細地控制角色、場景和風格,創作出具有電影質感的影片。

Veo 3:影片與音頻的結合

Veo 3 是一個先進的影片生成模型,它不僅提高了 Veo 2 的質量,而且首次可以生成帶有音頻的影片。

Veo 3 今天在 Gemini 應用程序和 Flow 中為 Ultra 在美國的用戶提供服務。它也適用於 Vertex AI 上的企業用戶。

Veo 2 更新

Veo 2 添加了新功能,包括:

  • 先進的參考影片功能,從而實現更佳的創意控制和一致性。

  • 相機控制,可以幫助用戶定義精確的相機運動,包括旋轉,變焦,以實現完美的拍攝。

  • Utpainting,拓寬影片幀,並使其更容易適應任何屏幕尺寸。

  • 對象添加和刪除,讓用戶從影片中添加或刪除對象。

Flow

Flow 是一款 AI 電影製作工具,專為創意人士打造,它整合了 Google DeepMind 最先進的模型:Veo、Imagen 和 Gemini,讓用戶能夠無縫創作電影級的片段、場景和故事。

Imagen 4

Imagen 4 在精細細節方面擁有非凡的清晰度,例如複雜的織物、水滴和動物皮毛,並且在照片級寫實和抽像風格方面均表現出色。Imagen 4 可以創建各種寬高比的圖像,解像度高達 2k,更適合打印或演示。它在拚寫和排版方面也得到了顯著提升,讓你可以更輕鬆地創作自己的賀卡、海報甚至漫畫。

很快,Google還將推出 Imagen 4 變體,比 Imagen 3 快 10 倍。

Google Beam + 語音翻譯

幾年前,Google推出了 Starline 項目,旨在重新定義影片通信。Starline 項目實現了遠程對話,讓人感覺如同身處同一房間,而無需佩戴專門的眼鏡或頭顯。

今天,Google宣佈 Starline 項目正在演變為一個全新的 3D 影片通信平台:Google Beam。

Google Beam 平台利用 AI 賦能新一代設備,幫助人們無論身在何處都能建立有意義的聯繫。

Google Beam 借助最先進的影片模型,通過一個由六個攝像頭組成的陣列並結合 AI 技術,將標準的 2D 影片流轉化為逼真的 3D 體驗,讓用戶以更自然、更直觀的方式進行連接。

此外,Google也正在探索使用 Google Beam 進行語音翻譯。這項功能將於今日在 Google Meet  上線。

Google Meet 的語音翻譯功能最初將支持英語和西班牙語,未來幾週將支持更多語言。

有了這項功能,用戶在保持語音、語調和表情的同時,還可以享受近乎實時的翻譯對話。

搜索升級

搜索可以說是Google的立身之本,但近段時間來已經開始受到新生代的 AI 搜索應用的衝擊,而Google也正積極地應對。

在今天的 I/O 開發者大會上,Google宣佈其搜索中的 AI 概覽(AI Overviews)功能進行了功能升級,現已覆蓋 200 多個國家和地區,支持 40 多種語言,並新增了對阿拉伯語、漢語、馬來語、烏爾都語等語言的支持。

簡單來說,AI 概覽功能可以改進用戶的搜索體驗,用新類型的問題快速查找信息並瀏覽網絡上的相關網站。當Google的系統認為這些信息最有幫助時,它們就會顯示在Google搜索中,並顯示醒目的網頁鏈接,方便用戶輕鬆瞭解更多信息。而且Google表示這個功能的速度很快:「AI 概覽功能提供業內最快的 AI 響應速度」。

Google也表示,AI 概覽確實可以幫到用戶:讓用戶的對搜索結果更加滿意,搜索頻率也更高。此外,從本週開始,Google將在美國的 AI Overviews 中引入其最智能的模型 Gemini 2.5 的一個定製版本,以便搜索能夠解決更棘手的問題。

在Google I/O 開發者大會上,Google還宣佈今天起在美國正式推出 AI 模式(AI Mode)—— 無需註冊 Labs。

AI 模式今年早些時候開始在 Google 實驗室測試,可以說是Google功能最強大的 AI 搜索功能,擁有更先進的推理能力和多模態分析能力,並能夠通過後續問題和有用的網絡鏈接進行更深入的探索。在接下來的幾週內,美國用戶將在Google搜索和Google應用的搜索欄中看到一個新的 AI 模式標籤頁。

據介紹,AI 模式的底層採用了Google的查詢扇出(query fan-out)技術,可將問題分解為子主題,並同時發出多個查詢。這使得新Google搜索能夠比傳統的Google搜索更深入地挖掘網絡內容,幫助用戶發現更多網絡資源,並找到與用戶查詢高度相關的內容。

當然,Google也有自己的深度搜索(Deep Search)了。Google宣佈會通過深度搜索將深度研究功能引入 AI 模式。深度搜索使用相同的查詢扇出技術,但更上一層樓。它可以發起數百次搜索,對不同的信息進行推理,並在幾分鐘內創建專家級的完整引用報告,從而節省用戶數小時的研究時間。

Google還為搜索引入實時功能,可實時提供幫助。事實上,之前每月已有超過 15 億用戶使用 Google Lens 來搜索他們所看到的內容。現在,Google宣佈將 Project Astra 的實時功能引入搜索,在多模態搜索方面邁出了新的一步。借助實時搜索功能,用戶可以使用攝像頭與搜索實時交流所看到的內容。

Google還將 Project Mariner 的智能體功能引入 AI 模式,可幫助用戶節省購票等任務的時間。只需輸入「在更下面的觀眾席找到兩張本週六紅人隊比賽的平價門票」,AI 模式就會啟動查詢扇出,跨網站分析數百個潛在的門票選項,並提供實時價格和庫存,並處理繁瑣的表單填寫工作。AI 模式將呈現符合確切條件的門票選項,讓用戶可以在任何喜歡的網站上完成購買。

此外,Google還為搜索的 AI 模式引入了個人上下文(personal context)定製圖表等能力。

全新的 AI 購物模式

Google推出了全新的 AI 購物體驗,其將 Gemini 功能與 Shopping Graph 進行完美結合,Shopping Graph 目前擁有超過 500 億條商品信息,涵蓋全球零售商,每條信息都包含評論、價格、顏色選擇和庫存情況等詳細信息。並且信息是準確的、及時的,因為每小時有超過 20 億條此類商品信息在 Google 上更新。

用戶還能進行虛擬試穿:只需上傳一張照片,你就可以虛擬試穿數十億種服裝。

該功能由一個全新的時尚定製圖像生成模型支持,該模型能夠理解人體結構和服裝的細微差別 —— 例如不同面料在不同人體上的摺疊、拉伸和懸垂效果。

試穿實驗已經正式啟動。當你在Google上選購襯衫、褲子、裙子和連衣裙時,只需點擊產品詳情上的試穿圖標即可。之後,你可以上傳自己的全身照 —— 片刻之後,就能看到衣服穿在身上的效果。

結語

以上的盤點性介紹還並未窮盡Google今年的 I/O 大會上發佈、升級或規劃的一切,比如他們還推出了 Gemma 3n 的預覽版本,這是一個可以在手機、筆記本電腦和平板電腦上流暢運行的開放式多模態模型,可以處理音頻、文本、圖像和影片。另外,Google在 AI 輔助科研、AI 內容鑒定(SynthID Detector)、NotebookLM、雲計算、辦公輔助、增強現實等多個領域都有新的動態。他們甚至還推出了新的訂閱套餐:每月 249.99 美元的 Google AI Ultra

前三個月有折扣前三個月有折扣

Google一直是 AI 研究的先驅,早在 Transformer 架構和 AlphaGo 時代就奠定了技術基礎。然而,近年來在 AI 應用層面,Google略顯保守,未能在用戶體驗上與競爭對手齊頭並進。此次 2025 年 I/O 大會,Google通過一系列重磅發佈,展現了其在 AI 應用領域的強勢回歸。

從 AI Mode 徹底重塑搜索體驗,到 Project Astra 引領多模態交互,再到 Gemini 2.5 的深度推理能力和 Project Mariner 的智能智能體,Google不僅追趕上了 AI 應用的浪潮,更在多個關鍵領域實現了超越。這場大會不僅是技術的展示,更是Google向未來發出的宣言:在 AI 驅動的新時代,Google將繼續引領潮流,塑造更加智能和互聯的世界。

參考鏈接:

https://blog.google/