Google深夜狙擊OpenAI:新Agent功能可以自己打開瀏覽器查資料了

2024年走到年底,似乎AI大廠們集體又決定搞點事情了。

在OpenAI宣佈連發12天更新後,Google選擇12月11日深夜(在OpenAI發佈更新之前),發佈新模型Gemini 2.0。

在多次發佈被OpenAI精準狙擊後,Google今夜扳回一局,發佈了Gemini 2.0,直指Agent使用,一個OpenAI至今沒有明確公開佈局的領域——之前有消息稱,OpenAI將在明年推出可以使用電腦的Agent。

Agent功能,也被稱為智能體功能,通常指的是AI能夠感知環境、執行任務並在一定程度上獨立做出決策的能力,也就是能更自動化完成任務的功能。

此次Google似乎賭對了。OpenAI淩晨兩點的發佈,主要宣佈了和Apple Intelligence的合作,一個普遍被期待能與Agent能力強相關的合作。不過今夜最終的發佈,主要仍然集中於文字生成和視覺智能方面,並沒有Agent相關的內容。

而Google,則一次性發佈了四個Agent相關的功能:

  • Project Astra,能夠在Gemini應用中直接調用Google Lens和地圖功能幫用戶解決問題;

  • Project Mariner(海員項目),Chrome瀏覽器的實驗性功能,可以通過提示詞直接幫用戶瀏覽網頁做任務;

  • Jules,可以嵌入GitHub的編程Agent,使用自然語言描述問題,就能直接生成可以合併到GitHub項目中的代碼;

  • 遊戲Agent,能夠實時解讀屏幕畫面,直接在你打遊戲的時候通過和你語音交流,給出AI打法提示。

雖然此次Google發佈的功能屬於期貨範疇,但仍然十分令人興奮。我們似乎已經可以洞見Agent真正到來的時代,人類生活的一角了。

一、炸裂新Agent功能:自己查資料、寫代碼,教你玩遊戲

Google的新功能建立在新模型Gemini 2.0的能力之上。

和大部分大模型選擇的路線不一樣,Google最早就選擇使用原生多模態的方式訓練模型——OpenAI到了GPT-4o模型才變成原生多模態模型。

原生多模態模型,是指在訓練階段就將圖像、文字、語音甚至影片等多種編碼統一輸入給一個模型進行學習。

這樣,模型可以在理解一個「事物」後,更加靈活地進行不同模態的生成。

此次Gemini 2.0進一步升級了原生多模態能力。模型目前直接擁有了原生圖像生成能力、音頻輸出能力和原生工具應用能力。

原生的工具應用能力就和Agent的能力高度相關。Google介紹,除此之外,新體驗還來自多模態推理、長上下文理解、複雜指令遵循和規劃、組合函數調用、本地工具使用和降低延遲等方向的改進。

看一下Google提出的新功能演示:

Project Mariner是這個系列中讓筆者看起來最驚喜的演示。

主要原因可能是相對其他功能,Google的Chrome瀏覽器是筆者每天都要使用的工具,也是對工作效率影響最高的工具。而Google的這項試驗性功能,看起來也不需要對瀏覽器進行過多的額外配置——只需要用到擴展程序。

Google很懂地選了一個生產力場景,讓Chrome打開一個表格(演示里用的是Google Docs,不知道這與最終的成功識別是不是有相關性)

表格里有幾個公司的名字。演示者打開Chrome的這項試驗功能,讓Chrome自己記住這幾個公司名字,去網上查找這些公司的郵箱。(同樣的,查找使用的是Google搜索,不知道是不是與最後的演示成功相關。)

瀏覽器自己打開了網頁,自己點開每個公司的官網,在找到郵箱地址後,自動記住郵箱地址,關掉網頁開始查找下一個公司的郵箱地址。

用戶全程可以在右邊欄輸入提示詞的位置,看到模型目前在如何思考,隨時停止自動操作。同時模型只會在前台運行,不會在用戶看不到的標籤頁中運行。

雖然前台運行似乎對用戶的時間是一種消耗,但同時也保證了安全性。在這個案例中,也確實提升了生產效率——挨個查找郵箱確實是一件非常沒有創造力的工作。

Jules則讓自然語言寫代碼似乎更近了一步。

在演示中,用戶輸入了一段非常詳細的編程問題的提示詞,包括在哪個文件中遇到什麼問題,希望做怎樣的修改。(Google提到Jules可以直接嵌入GitHub中。)

Jules對問題進行分析,給出了一個三步的編程解決方案,當用戶點擊同意後,模型開始自動編程,生成代碼文件,這些代碼可以一鍵被合併至用戶原有的代碼中。

遊戲Agent則是看起來最有趣的一個演示。

Google特意提到,Gemini 2.0可以理解Android手機的屏幕分享和用戶的語音,直接做到演示中的內容,不需要額外的後訓練。

演示中,用戶分享正在玩遊戲的手機屏幕,並用語音和Agent溝通,遊戲Agent直接給出了接下來的最佳策略。

Google表示目前正在和《部落衝突》《海島奇兵》等遊戲做合作,幫助Agent理解遊戲規則。同時Agent也會自己實時上網查找,來理解遊戲規則,並給出最好的策略。

這個功能可以說是很炸裂了。對於純策略型遊戲,這個外掛有點太厲害——隨著AI的進展,人腦對策略的理解恐怕沒有辦法和AI抗衡。或者說,或許只有最頂尖的大腦可以和AI相抗衡。

Gemini2.0目前並沒有對全部用戶開放,Google表示,目前正在將2.0開放給開發者以及受信任的測試人員。這意味著以上Agent功能到用戶真正能夠使用,仍然有一段時間。不過此次演示仍然令人興奮。

未來Gemini 2.0上線,Google大概率也不會正選上述Agent功能,而是先將其融入Gemini和搜索功能。

Google之前已經在探索將AI引入其搜索功能中。10月,Google曾經宣佈,其搜索中的AI概述功能每月獲得了10億用戶的使用。未來,Google計劃把Gemini 2.0的高級推理能力引入AI概述,以應對更複雜的話題和多步驟問題,包括高級數學方程式、多模態查詢和編碼。

此外,除了探索虛擬世界的智能體能力外,Google還打算將Gemini 2.0的空間推理能力應用於機器人領域,嘗試讓Agent在現實世界中提供幫助。

二、Gemini Flash常規更新

那麼用戶實際上能夠馬上使用的模型是什麼?

答案是Gemini 2.0 Flash。

作為Google大號模型蒸餾而來的小號模型,Gemini 2.0 Flash(對話優化版本)將成為Google Gemini的預設使用模型。

Google還推出了一項名為「深度研究」的新功能,該功能利用高級推理和長上下文能力作為研究助手,可以探索複雜主題並編製報告,今天在Gemini高級版中可用。

Gemini 2.0 Flash的能力較上一代有明顯提升,相當於上一代模型的Pro版本的能力。

同時作為2.0模型家族的一員,Gemini 2.0 Flash也支持圖片、影片和音頻等多模態輸入,2.0 Flash現在還可以支持多模態輸出,例如可以直接生成圖像與文本混合的內容,以及原生生成可控的多語言文本轉語音(湯臣S)音頻。它還可以原生調用Google Search、代碼執行以及第三方用戶定義的函數等工具。

三、Project Astra:為Google Glasses準備的模型,擁有無限記憶?

Google此次還重點介紹了Project Astra,為其推出了以下改進:

  • 更流暢的對話:Project Astra現在可以在多種語言和混合語言之間進行對話,並且能夠更好地理解不同口音和生僻單詞。

  • 新工具的使用:借助Gemini 2.0,Project Astra可以使用Google Search、Google Lens和Google Maps,從而在日常生活中更好地發揮助手作用。

  • 更強的記憶力:我們增強了Project Astra的記憶能力,同時確保你可以掌控對話。現在,它最多可以記住長達10分鐘的會話內容,並且可以回憶起過去與它進行的更多對話,以便為您提供更好的個性化服務。

  • 更低的延遲:借助新的流式處理技術和原生音頻理解能力,該智能體能夠以近於人類對話的延遲來理解語言。

Google Astra是Google為眼鏡項目所做的賽前分析項目。

從Meta和Ray-ban的合作眼鏡開始,國內外不少公司已經在重新探索眼鏡作為新一代智能硬件的潛力。

此次Google重大更新之一是記憶能力。在外網採訪中,DeepMind的CEO Demis Hassabis表示,在Gemini 1.5時代,內部測試已經將其上下文窗口擴展到了1000萬個token以上。目前已經模型幾乎可以做到無限記憶。

但是代價就是速度。記憶越長,搜索相關記憶的成本越高,速度越低。不過Demis Hassabis認為,在接下來相當短的時間內,我們將真正擁有無限長的上下文。

而這對於Google真正想做的助手而言是極其重要的。Demis Hassabis形容未來世界:「你在電腦上使用這一助手,然後你走出家門,戴上眼鏡,或者使用手機,它一直都在。它能夠記住會話以及你想要做什麼,真正個性化。我們人類無法記住所有事情,而AIvu u會記住所有事情,來給你以靈感和新的規劃。」

四、Agent時代已來?

從去年開始,就陸續有人指出,Agent是AI發展的未來。

不過,在過去一年中,Agent這個詞的使用相對比較沉寂,甚至有時候被偷換概念當成AI應用來使用。

但是在今年年末,我們終於開始看到了相對可喜的進展。

首先是Anthropic推出電腦使用的Agent模式。

國內的智譜AI也推出了一個手機Agent替用戶操作微信等App的演示影片。

明年OpenAI與蘋果合作的Apple Intelligence,目前仍然不確定全貌。很多人期待它將讓許多用戶第一次在手機上體會到簡單的Agent功能到底能如何幫助我們提升生產力。

而現在,我們又看到Google推出的瀏覽器Agent和安卓手機上的Agent使用演示。

Agent技術依然面臨諸多挑戰。人們會擔憂誤操作可能帶來的安全隱患,會擔心隱私,會擔心一系列風險。

但同時,對於普通用戶而言,Agent才是最具「AI感」的技術。全自動任務完成,像魔法一般,不需要任何技術背景,直接就能提升工作效率和使用體驗。

Agent能力的提升,也為一個新的智能硬件真正進入人們生活打下了基礎——只有發出語音指令,眼鏡能直接自動完成部分任務的時候,許多任務才會逐漸從手機轉移至新的智能硬件終端。

或許真的如Google AI Studio的產品負責人Logan Kilpatrick今天早些時候所言:未來,是Agent的時代。

本文來自微信公眾號:極客公園 (ID:geekpark),作者:Li Yuan