OpenAI深夜被狙,GoogleGemini 2.0掀翻牌桌!最強智能體組團擊斃o1

編輯:編輯部 HYZj

【新智元導讀】昨天深夜,OpenAI徹底被Google狙擊,震撼亮相的Gemini 2.0掀起智能體革命,原生多模態的多項驚人demo預示著:智能體時代,Google已經走在了最前面。

OpenAI Day 5,風頭被Google再一次搶了。

就在剛剛,GoogleCEO劈柴、DeepMind CEO哈薩比斯、DeepMind CTO Kavukcuoglu三位大佬聯手官宣:新一代原生多模態模型Gemini 2.0 Flash正式發佈!

至此,Gemini正式進入2.0時代!

從命名來看,Gemini 2.0 Flash很可能是新系列的最小杯,但它的性能已經超越了上一代大哥1.5 Pro,而且速度提高了一倍。

甚至,它的性能完全超越o1-preview、o1-mini,僅次於GPT-4o(2024-11-20)。

不僅如此,2.0 Flash還具有出色的多語言能力,並可以原生調用Google搜索等工具。

值得一提的是,Gemini 2.0 Flash非常擅長編碼,在SWE-bench Verified基準上,直接擊敗完整版o1。

當然,除了新模型之外,Google還帶來了一系列基於Gemini 2.0打造的智能體創新:

  • 通用AI助手Project Astra

  • 在瀏覽器中進行交互的智能體Project Mariner

  • 為開發者打造的AI代碼智能體Jules

  • 遊戲輔助智能體

  • 機器人智能體

而這僅僅是一個開始。

對於AI智能體來說,2025年將是關鍵之年,而Google將憑藉著Gemini 2.0支撐起自己的智能體工作流。

Gemini 2.0,迄今最強大的AI模型

Gemini 1.0和1.5,是第一批原生多模態模型。

NotebookLM就是很好的例子,說明了多模態和長上下文可以為人們帶來什麼。

今天,Google專為新智能體時代打造的下一代模型——Gemini 2.0,重磅登場了。

這個迄今最強大的模型,能使我們構建更接近通用助手的全新AI智能體。

下一步,Google會將Gemini 2.0的高級推理功能引入AI Overviews,解決更複雜的主題和多步驟問題,包括高級數學方程、多模態查詢和編碼。

Gemini 2.0的進步,得益於Google對全棧式AI創新長達十年的投資。它基於定製硬件構建,比如第六代 TPU Trillium。TPU為Gemini 2.0的訓練和推理,提供了100%的支持。

Gemini 2.0支持全新的多模態AI智能體,它們能看到、聽到你周圍的世界,還能思考、計劃、記住、採取行動。

Gemini 2.0 Flash,原生多模態

今天,Google發佈了Gemini 2.0系列模型中的第一個——Gemini 2.0 Flash的實驗版本。

基於Google迄今最受開發者歡迎的1.5 Flash,Gemini 2.0 Flash在保持同樣快速響應時間的同時,提供了更強勁的性能表現。

值得注意的是,2.0 Flash在關鍵基準測試上不僅超越了1.5 Pro的表現,而且速度提高了一倍。

除了支持圖像、影片和音頻等多模態輸入外,2.0 Flash還支持多模態輸出,包括原生生成的圖文混合內容和可調控的多語言文本轉語音(Text-to-Speech,湯臣S)功能,並且可以原生調用多種工具,如Google搜索、代碼執行以及第三方用戶自定義函數等。

在各項基準測試中,相較於前一代1.5 Pro和1.5 Flash,最新2.0 Flash實現了全面的提升,尤其是代碼、數學、推理能力方面。

不過,在長上下文、音頻方面,2.0 Flash性能非常有限。

目前,Gemini 2.0 Flash Experimental在Google AI Studio和Vertex AI平台上,通過Gemini API正式向開發者開放。多模態輸入和文本輸出功能,均可使用。

不過,文本轉語音、原生圖像生成功能,現僅向首批合作夥伴開放。

為支持開發者構建動態交互式應用,Google還同步推出了新的多模態實時API,支持實時音頻、影片流輸入,並能夠集成調用多種工具組合。

對於普通用戶來說,即日就可直接用上2.0 Flash Experimental(網頁端),移動端很快就會上線。

另外,正式版模型將於2025年1月份推出,同時將提供更多模型規模選擇。

開啟智能體新紀元

Gemini 2.0 Flash的面世,標誌著AI交互再次進入了全新的階段。

最令人興奮的是,2.0 Flash具備了原生的用戶交互界面的能力。

同時,它還在多模態推理、長文本理解、複雜指令執行與規劃組合式函數調用、原生工具調用以及更低的延遲,取得多項技術突破。

這意味著,用戶可以獲得更加流暢、更直觀的AI交互體智能體體驗。

AI智能體的實際應用,是一個充滿無限可能的研究領域。

Google正通過不斷原型創新,打造出原生用戶界面新體驗:

  • 「Project Astra」——探索通用AI助手的未來

  • 「Project Mariner」——從瀏覽器入手,探索人類與智能體交互的未來方向

  • 「Jules」——專為開發者打造的AI代碼智能體

Project Astra:讓多模態AI走入現實生活

今年I/O大會上,Google大殺器Project Astra首次亮相,在視覺識別和語音交互上,與GPT-4o幾乎不相上下。

這一次,得到Gemini 2.0加持後,Project Astra能力也在以下四大方面得到改進:

– 更強的對話能力

Project Astra現在不僅能夠使用多種語言進行對話,還支持混合語言交談,同時對口音和生僻詞的理解也更加出色。

– 擴展的工具集成

通過Gemini 2.0,Project Astra可以調用Google搜索、Lens和地圖功能,讓其作為日常生活助手變得更加實用。

– 增強的記憶能力

Project Astra現在可以保持長達10分鐘的對話記憶,並能記住更多用戶之前的對話內容,從而提供更加個性化的服務。

– 優化的響應速度

借助新的流式處理能力和原生音頻理解技術,Project Astra現在可以以近乎人類對話的速度來理解語言。

此外,Google還計劃將些功能引入Gemini應用等產品,並進一步擴展到智能眼鏡等其他設備形式。

在演示影片中,研究小哥用裝載了Project Astra的測試版Pixel手機和智能眼鏡向我們展示了Astra的多模態能力。

首先,小哥在手機里打開了一封包含公寓信息的郵件,讓Astra幫他識別並記住門禁碼。

Astra直接讀屏獲取密碼,告訴了他該如何操作開門,並記住了這個密碼。

在影片的結尾,研究小哥在倫敦逛了一大圈回來,戴著智能眼鏡向Astra詢問門禁碼,Astra準確地回答了出來。

小哥讓Astra讀取衣服上的洗滌標籤,Astra馬上給出洗衣建議。

接著他又將手機鏡頭轉向洗衣機,詢問Astra該如何操作洗衣機,Astra很快地提供了指導。

研究小哥準備出門,於是拿了一份地點清單,請Astra介紹了幾個地方。

路過麵包店看到司康(scone),小哥順口問了下「scone」發音的問題。

隨便指了個街邊的雕塑,Astra就能講出它的來曆。

小哥看到倫敦街頭的山羊絨,詢問Astra它適不適合帶回家種。

要知道,小哥在提問的時候並沒有告訴Astra他的家在紐約,但Astra記得之前的對話,流暢回答。這體現出Astra的跨會話記憶能力。

研究小哥還測試了一下Astra給朋友挑禮物的能力。他在手機里瀏覽了一遍朋友的書單,讓Astra讀屏識別,並總結出這個朋友的閱讀品味。

然後小哥挑了幾本書,讓Astra從中挑選最適合的一本。

小哥將手機攝像頭對著路邊的一輛公交車,詢問Astra它是否會路過唐人街。

對於沿途會路過的地標,Astra也能迅速提供相關信息。

Astra的多語言能力也不容小覷,不僅英語溜,還能用法語和泰米爾語聊天。

除了能在手機上使用Astra,Astra還能搭載在智能眼鏡上。

影片中,研究小哥戴著搭載Astra的智能眼鏡上街了,上來就問了一句倫敦的天氣,Astra對答如流。

騎行時,Astra還能認出路過的公園並介紹它的信息。

小哥準備騎車回公寓,讓Astra查詢沿途有沒有超市。

Project Mariner:能幫你完成複雜任務的AI智能體

Project Mariner,或許聽起來陌生。

但此前曾有外媒爆料稱,Google自研全新智能體項目「Project Jarvis」能夠將Chrome任務自動化,並由未來Gemini 2.0版本驅動,預計在今年12月發佈。

種種跡象表明,賈維斯項目與Project Mariner有極大的關聯。

正如博客所述,Project Mariner是一個基於Gemini 2.0構建的早期「研究原型」。它從瀏覽器入手,探索人工智能與人類交互的未來。

Project Mariner的核心能力在於,卓越的信息理解和分析,它能夠全面感知瀏覽器屏幕上的各種信息。

比如像素級精準識別,以及網頁元素(如文本、代碼、圖像、表單等)智能分析。

演示中,打開一個在線Google表格——戶外公司,然後喚出Project Mariner(目前是Chrome實驗性擴展程序)。

輸入提示「記住這份公司的名單,然後,找到他們的網站,並查找我可以聯繫到他們的郵箱。記住這些方便我日後使用」

隨後,智能體讀取了表格中的內容,並瞭解到了所有公司名稱。

通過搜索第一家公司名字,AI智能體點擊查詢後,進入了Benchingmark Climbing的官網主頁,找到右上角「信息」菜單欄中的「關於我們」。

一直下滑到網頁末端,找到了這家公司的郵箱地址。

接下來,是第二家公司Lunkerhunt,同樣搜索找到官網,公司信息介紹得到郵件地址。

在右側對話欄中,你可以清晰看到智能體的推理過程,能夠更清晰理解它的操作。

在瀏覽完第四個網站後,智能體完成了任務,並列出了所有的郵箱地址。

以上,我們所看到的能力,其實與Anthropic所展示的Claude 3.5操作計算機界面,執行各種任務的能力幾乎一致。

智能體也是巨頭們將在明年,重點佈局的方向之一。

在業界權威的WebVoyager基準測試中,Project Mariner已交出了令人驚豔的成績單:

作為單一AI智能體系統,它在真實網絡任務的端到端測試中,取得了驚人的83.5%成功率。

這可能意味著,AI已經能夠相對準確地模仿人類在互聯網上,完成任務的行為。

此外,Project Mariner最大的亮點是其嚴格的安全設計,用戶始終可以保持對系統的控制。

舉例來說,其操作權限僅限當前瀏覽器的標籤頁,而且僅能執行一些基本操作:輸入、滾動、點擊。

若在執行購物等敏感操作之前,必須獲得用戶的最終確認。

儘管仍處於早期研究階段,但Project Mariner證明了智能體在瀏覽器中導航的可能性,其意義遠遠超過了技術本身。

雖然目前在完成任務時,可能存在準確度不足和速度較慢的問題,但這都將隨著技術迭代快速得到改善。

Jules:面向開發者的AI智能體

隨著AI代碼助手的迅速發展,它已從基礎的代碼搜索工具進化為深度融入開發者工作流程的智能助手。

如今,在評測真實軟件工程任務的基準SWE-bench Verified中,搭載了代碼執行工具的2.0 Flash已經可以取得51.8%的優異成績。

得益於2.0 Flash超群的推理速度,智能體能夠快速生成和評估數百個潛在解決方案,並通過現有單元測試和Gemini自身的判斷,篩選出最優方案。

想像一下,你的團隊剛剛完成了一次Bug Bash,現在你面臨著一大堆待修復的bug。

從今天開始,這些讓人頭大的Python和Javascript編程任務,全部都可以交給由Gemini 2.0驅動的AI代碼智能體——Jules去做了。

Jules可以異步工作並與你的GitHub工作流程集成,在你專注於真正想要構建的內容時,它會處理bug修復和其他耗時的任務。

Jules會製定全面的多步驟計劃來解決問題,高效地修改多個文件,甚至準備拉取請求(pull request)直接將修復合並回 GitHub。

雖然還處於早期階段,但從Google內部的使用經驗來看,Jules可以為開發者帶來諸多便利:

– 更高的生產力

把問題和編程任務交給 Jules,實現高效的異步編程。

– 進度跟蹤

通過實時更新隨時瞭解情況,優先處理最需要關注的任務。

– 完全的開發者控制

審查Jules製定的計劃,根據需要提供反饋或請求調整,並在合適的時候將Jules編寫的代碼合併到項目當中。

遊戲、機器人AI智能體

GoogleDeepMind一直致力於通過遊戲來提升AI模型在規則遵循、策略規劃和邏輯推理方面的能力。

秉承這一研究傳統,Google基於Gemini 2.0開發了新的AI智能體,能夠協助玩家在影片遊戲的虛擬世界中探索。

這些「遊戲助手」智能體可以單純依靠觀察屏幕上的動作來理解遊戲機制,並通過實時對話為玩家提供下一步行動的建議。

此外,它們還能通過接入Google搜索,幫助你獲取網絡上海量的遊戲攻略和相關知識。

目前,Google正與Supercell等頂尖遊戲開發商展開合作,深入研究這些AI智能體的運作機制,並在不同類型的遊戲中測試它們理解遊戲規則和應對挑戰的能力,涵蓋從《部落衝突》等策略遊戲到《Hay Day》等農場模擬遊戲。

除了在虛擬世界中探索AI智能體的應用能力,Google還在機器人領域進行創新性研究,將Gemini 2.0強大的空間推理能力應用其中,開發能在現實世界中提供實際幫助的AI智能體。

下面這些demo,展示了Gemini 2.0玩遊戲的強大潛力。

注意,過程中沒有任何具體的後訓練或者遊戲集成,Agent就可以對音頻、遊戲影片和從網絡獲取的實時信息做出響應。

在demo中,研究者對Gemini 2.0說:「我打算玩遊戲了,我想確保完成每週的任務。你能看到它們嗎?」

Gemini 2.0立刻回答,「是的,我能看見,看起來你需要收集300顆寶石,擊敗10個boss,你已經有10個寶石了。」

因為研究者表示自己經常忘記這件事,Gemini 2.0承諾會在遊戲過程中留意,提醒她關於任務的事。

在另一個demo中,研究者表示在計劃進行一次攻擊,但首先需要訓練一支軍隊,請AI幫他推薦一下軍隊構成。

Gemini立刻給出了非常明智的建議: 「根據屏幕左上角你的可用部隊和數量,我們應該訓練巨人、野蠻人、弓箭手和法師的組合。重點是使用巨人來吸收傷害,法師可以對付高輸出防禦設施,野蠻人和弓箭手可以處理較弱的建築。」

另外,Gemini 2.0還能自己查攻略。比如幫我們選角色,完成「在Reddit上搜索一下Donetta是什麼」這樣的任務。

深度研究,個人研究助理來了

在智能體方面,Google今天還放出了一個名為Deep Research研究助理,並在Gemini Advanced中上線。

不過,這項新功能由Gemini 1.5 Pro加持。

它可以深入研究複雜的主題,創建報告,並提供相關來源的鏈接。

假設你想要完成一篇機器學術論文,主題是關於自動駕駛傳感器的研究趨勢,直接Deep Research。

它便會列出一項研究計劃清單,包含了6個要點的信息查找、分析網址、創建報告,點擊「開始研究」。

接下來,AI全網搜索分析,並彙總出一份全面詳細的研究報告,包括了清晰的表格分析、搜索的62個網址來源。

有了Deep Research,能為我們節省大把的研究時間。

參考資料:

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message

https://deepmind.google/technologies/project-astra/