Google狙擊OpenAI

12月12日,在OpenAI宣佈ChatGPT全面接入蘋果之際,Google發佈新一代大模型Gemini 2.0,值得注意的是,Gemini 2.0專為AI智能體(AI Agent)而生。

Google首席執行官Sundar Pichai在公開信中稱,「在過去一年中,我們一直在投資開發更具「代理性」的模型,即這些模型能更深入地理解你周圍的世界,提前多步思考,並在你的監督下為你執行任務。今天,我們很高興迎來新一代的模型——Gemini 2.0,它是我們迄今為止最強大的模型。通過多模態的新進展——如原生圖像和音頻輸出——以及原生工具使用,我們能夠構建新的AI智能體,使我們更接近普遍AI助手的願景。」

GoogleDeepMind CEO Demis Hassabis也表示,2025年將是AI智能體的時代,Gemini 2.0將是支撐我們基於智能體工作的最新一代模型。

目前Gemini 2.0版本尚未正式上線,Google表示已經將其提供給了一些開發者內測。第一時間上線的是比Gemini 1.5 Pro更強的Gemini 2.0 Flash實驗版,實驗版已在網頁端開放,Gemini用戶可以通過PC端訪問Gemini 2.0 Flash,移動端即將推出。

根據Google發佈的基準測試結果,不論是在多模態的圖片、影片能力上,還是編碼、數學等能力上,僅是Flash實驗版的Gemini 2.0表現幾乎全面超越Gemini 1.5 Pro,且響應速度提升了2倍。

Google集中火力猛攻AI智能體

通過Google的本次更新,我們已經可以窺見其AI佈局的冰川一角——一切為了智能體。

更強大的多模態能力:

Gemini 2.0 Flash實驗版除了支持圖像、影片和音頻等多模態輸入,還支持多模態輸出,比如原生生成的圖像與文本結合,以及可操控的多語言文本轉語音(湯臣S)音頻。

更專業的AI搜索:

Google在Gemini Advanced中推出了一項名為深度研究(Deep Research)的智能體新功能。該功能結合了Google的搜索專長和Gemini的高級推理能力,可以圍繞一個複雜主題生成研究報告,相當於一個私人研究助手。

多款智能體更新、上線:

更新了基於Gemini 2.0構建的智能體Project Astra :Astra的新功能包括支持多語言混合對話;能夠在Gemini應用中直接調用Google Lens和地圖功能;記憶能力提升,具備最多10分鐘的會話內記憶,對話更連貫;借助新的流式處理技術和原生音頻理解能力,該智能體能夠以近於人類對話的延遲來理解語言。值得注意的是,Astra是Google為眼鏡項目所做的賽前分析項目。Google提到,正在將Project Astra移植到眼鏡等更多移動終端中。

發佈適用於瀏覽器的智能體Project Mariner(海員項目):該智能體能夠理解並推理瀏覽器屏幕上的信息,包括像素和網頁元素(如文本、代碼和圖片),然後通過Chrome擴展程序來利用這些信息幫你完成任務。

發佈專為開發者打造的AI編程智能體Jules:Jules支持直接集成到GitHub工作流中,用戶使用自然語言描述問題,就能直接生成可以合併到GitHub項目中的代碼;

發佈遊戲智能體:能夠實時解讀屏幕畫面,通過用戶遊戲屏幕上的動作給出下一步操作建議,或直接在你打遊戲的時候通過和你語音交流。 

Google表示,明年年初,會將Gemini 2.0擴展到更多旗下產品中。此前推出的AI Overviews將集成 Gemini 2.0,從而提升複雜問題處理能力,包括高級數學公式、多模態查詢和編程。本週已經進行有限測試,預計明年推廣,並擴展至更多國家和語言。 

本文來自微信公眾號「財聯社AI daily」,作者:桑治子祖,36氪經授權發佈。