OpenAI深夜被狙擊,Google發佈新一代大模型Gemini 2.0,AlphaGo之父:邁向智能體時代
文 | 學術頭條
在連續 12 天開放日的第 5 天,OpenAI 被Google深夜大招狙擊了。
今日淩晨,Google正式發佈了 Gemini 2.0 系列人工智能(AI)模型的首個版本——Gemini 2.0 Flash,該模型代表了Google迄今為止最強大的模型,其性能比 1.5 Pro 還要快兩倍,具有低延遲和增強的性能。
核心要點如下:
-
Google DeepMind 推出針對「智能體時代」設計的全新 AI 模型 Gemini 2.0。
-
Gemini 2.0 比以前的版本功能更強大,具有原生圖像和音頻輸出和工具使用。
-
Gemini 2.0 Flash 已向開發人員和可信測試人員開放,並計劃於明年初在更廣泛的範圍內推出。
-
Google正在通過 Gemini 2.0 探索智能體體驗,包括 Project Astra、Project Mariner 和 Jules。
值得一提的是,Google表示,借助多模態新進展以及原生工具的使用,Gemini 2.0 系列模型將能夠構建新的 AI 智能體,進而打造通用智能助手。
Google CEO Sundar Pichai 表示,「如果說 Gemini 1.0 是關於組織和理解信息,那麼 Gemini 2.0 就是為了讓信息更加有用。我迫不及待地想看看下一個時代會帶來什麼。」
Google DeepMind 首席執行官 Demis Hassabis 和首席技術官 Koray Kavukcuoglu 則是在博客中將 Gemini 2.0 定位為Google「面向智能體時代」推出的全新 AI 模型,其多模態輸出和工具使用的強大功能可幫助所有人更接近 AGI 的未來。
Demis Hassabis 更是在 X 上表示:「2025 年將是 AI 智能體之年,Gemini 2.0 是Google基於支持未來智能體工作開發的一代模型,這隻是一個開始。」
Gemini 2.0 Flash
Gemini 2.0 Flash 建立在 1.5 Flash 的基礎上,在關鍵基準測試中優於 1.5 Pro,速度是 1.5 Pro 的兩倍。
除了支持圖像、影片和音頻等多模態輸入外,2.0 Flash 還支持多模態輸出,例如本地生成的圖像與文本混合,以及可操縱的文本到語音轉換 (湯臣S) 多語言音頻。它還可以原生調用 Google 搜索等工具、代碼執行以及第三方用戶定義函數。
Gemini 2.0 Flash 現在通過 Google AI Studio 和 Vertex AI 中的 Gemini API 作為實驗模型提供給開發人員,所有開發人員都可以使用多模態輸入和文本輸出。為了幫助開發人員構建動態和交互式應用程序,Google還發佈了一個新的 Multimodal Live API,該 API 具有實時音頻、影片流輸入以及使用多個組合工具的能力。
此外,Gemini 2.0 Flash 通過其原生用戶界面操作功能,結合了多模態推理、長上下文理解、複雜指令的跟蹤與規劃、組合函數調用、原生工具使用以及改進的延遲等其他關鍵改進。這些新功能相互協作,共同打造出一種全新的智能體體驗,為用戶提供更加流暢和高效的交互。
同時,Google還公佈了其在 AI 智能體研究方面的多樣化探索與取得的進展:
Project Astra:在現實世界中使用多模態理解
Project Astra 是Google在 I/O 大會上推出的對標 GPT-4o 語音功能的智能體項目。在此次 Gemini 2.0 的發佈中,Google對 Project Astra 也進行了相應更新:
-
更好的對話:Project Astra 現在能夠以多種語言和混合語言進行對話,並能更好地理解口音和不常見的單詞。
-
新工具的使用:有了 Gemini 2.0,Project Astra 可以使用Google搜索、Lens 和地圖,成為日常生活中更有用的助手。
-
更強的記憶力:Project Astra 現在擁有長達 10 分鐘的會話記憶,並且可以記住更多歷史對話,從而更好的理解用戶的意思。
-
改進延遲:Project Astra 可以按正常人類對話的節奏來理解對話。
同時,Google表示正努力將這些功能引入旗下產品,如眼鏡等其他形式的產品。他們正開始向更多人推廣信任測試者計劃,包括一個即將開始在原型眼鏡上測試 Project Astra 小組。
Project Mariner:幫你完成複雜任務
Project Mariner 是使用 Gemini 2.0 構建的早期研究原型,它從瀏覽器開始探索人機交互的未來。作為研究原型,它能夠理解和推理瀏覽器屏幕中的信息,包括像素和文本、代碼、圖像和表單等 Web 元素,然後通過實驗性的 Chrome 擴展程序來使用這些信息完成任務。
在 WebVoyager 基準測試(測試智能體在端到端真實世界 Web 任務中的性能)評估中 Project Mariner 作為單個智能體設置取得了 83.5% 的最新結果。
雖然現在提及還為時過早,但 Project Mariner 表明了在瀏覽器中導航於技術層面是存在可能的,儘管今天完成任務並不總是又精確又迅速,但隨著時間的推移這將迅速改進。
據介紹,為了安全、負責任地構建這一體系,Google還在積極研究新型風險和緩解措施,同時讓人類參與其中。目前受信任的測試人員已經開始使用實驗性的 Chrome 擴展來測試 Project Mariner。
Jules:為開發人員設計的智能體
Google還通過 Jules 探索了 AI 智能體是否能為開發人員提供幫助。Jules 是一個實驗性的 AI 代碼智能體,可直接集成到 GitHub 工作流中。
Jules 可以在開發人員的指導和監督下處理問題、製定計劃並執行計劃。Google表示,他們的長期目標是打造對包括編碼在內的對所有領域都有幫助的智能體,而這項工作正是這一目標的一部分。Google方面表示,從內部使用 Jules 的經驗來看,它能為開發人員帶來:
-
更高的工作效率:將問題和編碼任務分配給 Jules,提高異步編碼效率。
-
進度跟蹤:通過實時更新隨時瞭解情況,並優先處理需要你關注的任務。
-
全面的開發人員控制:查看 Jules 創建的計劃,並在你認為合適時提供反饋或要求調整。你可以輕鬆審查 Jules 編寫的代碼,並在適當的情況下將其合併到你的項目中。
遊戲和其他領域中的實用智能體
Google也利用 Gemini 2.0 建立了遊戲智能體,可以完全根據屏幕上的動作對遊戲進行推理,並在實時對話中為下一步行動提供建議。
據介紹,穀歌正在與 Supercell 等領先的遊戲開發商合作,探索這些智能體如何工作,測試它們在各種遊戲(從《部落衝突》等策略遊戲到《乾草日》等農耕模擬遊戲)中解讀規則和應對挑戰的能力。除了充當虛擬遊戲夥伴,這些智能體甚至還可以利用Google搜索將網絡上豐富的遊戲知識整合聯繫起來。
此外,除了探索虛擬世界中的智能體能力外,他們還將 Gemini 2.0 的空間推理能力應用到機器人技術中,從而嘗試開發能夠在物理世界中提供幫助的智能體。