Google最強AI亮相,但背後還藏了一個殺手鐧
本文來自微信公眾號:APPSO (ID:appsolution),作者:APPSO,原文標題:《深夜狙擊 ChatGPT,Google 最強 AI 亮相,但背後還藏了一個殺手鐧》,題圖來自:Google
就在剛剛,Gemini 2.0新模型用一記重拳暴擊OpenAI。
先說結論,Gemini 2.0 Flash性能較上代有所長進,硬剛Claude 3.5 Sonnet,但今天更重要的亮點或許是基於它打造的AI Agents(智能體)。
這也得到了Deepmind CEO Demis Hassabis的強力背書:
「2025年將是AI智能體的時代,Gemini 2.0將是支撐我們基於智能體工作的最新一代模型。」
縱觀今天發佈的智能體項目,Google的野心昭然若揭。
以最接地氣的方式滲透用戶日常生活的每個場景,而當每個入口都成為可能,真正的通用型AI助手或許才剛剛開始。
Google年底最強AI王炸來了,但還藏了一手?
不是Pro卻勝似Pro,這是對Gemini 2.0 Flash的最好評價。
據官方介紹,原本主打效率和速度的Flash型號性能有所增強,不僅在多項基準測試功能超越了Gemini 1.5 Pro,而且響應速度也提升了2倍。
不過仔細看看具體的基準測試數據,倒也不用太過興奮。Gemini 2.0 Flash在MMLU-Pro、MATH、GPQA等各方面基準測試成績都有所提升,但得分和Claude 3.5 Sonnet差不多。
當然,今天亮相的只是Flash型號,估計Google手裡的2.0 Pro才是真正的殺手鐧。
與此同時,2.0 Flash還新增了許多值得關注的新功能。
除了支持圖像、影片和音頻等多模態輸入,2.0 Flash現在還支持多模態輸出,比如原生生成的圖像與文本結合,以及可操控的多語言文本轉語音(湯臣S)音頻。它還可以原生調用工具,如Google搜索等。
現在,Gemini 2.0 Flash已在Gemini API在Google AI Studio和Vertex AI提供給開發者。而Gemini用戶可以通過PC端訪問Gemini 2.0 Flash。
明年年初,Gemini 2.0預計將被推送給更多Google產品。
博主@legit_rumors在體驗Gemini 2.0 Flash過後,認為其得到的結果和Gemini-Exp-1206很相似,但比後者更快更強,在編程和邏輯推理能力上也大幅取勝。
網民@slow_developer讓gemini-2.0-flash-exp寫兩段關於草莓「Strawberry」的詩歌,要求段落中卻不能出現「e」,新模型的表現堪稱滿分。
值得一提的是,Google 2.0是用Google六代TPU——Trillium訓練而成,以下是Trillium與前代產品的關鍵改進:
-
訓練性能提高超過4倍;
-
推理吞吐量提高最多3倍;
-
能源效率提升67%;
-
每個芯片的峰值計算性能提高了4.7倍;
-
高帶寬內存(HBM)容量翻倍;
-
芯片間互連(ICI)帶寬翻倍;
-
單個Jupiter網絡結構中集成了10萬個Trillium芯片;
-
每美元的訓練性能提高了2.5倍,每美元的推理性能提高了1.4倍。
作為全球搜索引擎霸主,Google也發佈了基於Gemini 1.5 Pro的新功能Deep Research。
類似於當下大火的深度AI搜索功能,它結合了Google的搜索專長和Gemini的高級推理能力,能夠自動完成複雜的研究任務。
想像一下,假如你是一名研究生,需要準備機器人技術報告,關注自動駕駛車輛傳感器趨勢,需研究技術優缺點及未來發展,這通常耗時良久且需要在多個網頁間交叉參考,尋找資料鏈接。
但現在你只需輸入研究問題,Deep Research就會製定研究計劃並進行多輪網絡搜索,最終生成一份包含關鍵發現的綜合報告。這份報告不僅條理清晰,還包含原始來源鏈接,方便用戶進一步探索。
該工具目前已在Gemini Advanced平台上線,僅支持英文版本,適用於PC端,預計將在2025年初推出移動應用。
據Google AI Studio的高級產品經理Logan Kilpatrick的體驗反饋,Deep Research在單次查詢中就瀏覽分析了多達145個不同網站。
Google CEO Sundar Pichai還在公開信中寫道,此前推出的AI Overviews將集成Gemini 2.0,從而提升複雜問題處理能力,本週已經進行有限測試,預計明年推廣,並擴展至更多國家和語言。
會寫代碼、能打遊戲、懂瀏覽器,Google新AI智能體到底強在哪?
趕在2024年的尾聲,Google終於端出了AI智能體大招。
畢竟,Gemini 2.0 Flash的原生用戶界面操作功能以及其他改進,如多模態推理、長上下文理解、複雜指令的跟蹤與規劃、組合函數調用、原生工具使用和延遲性能的優化等,這些功能協同工作,天然就適合AI智能體的發揮。
今天,Google發佈了多款AI智能體,有早已在I/O大會上亮相的Project Astra,也有適用於瀏覽器的Project Mariner,還有專為開發者打造的AI編程智能體Jules。
基於Gemini 2.0構建的Project Astra具備多語言對話能力,能夠更好地理解不同口音和不常見的詞彙。
此外,Project Astra的記憶能力也有所改進,現在具備最多10分鐘的會話內記憶,能夠記住更多用戶與其過去的對話,從而能夠提供更加個性化的服務。
並且,通過新的流媒體功能和原生音頻理解,該Project Astra還可以以接近人類對話的延遲進行語言理解。基於此,我們不妨期待一下,Project Astra能早日融入到AI智能眼鏡等設備上。
第二個則是事先張揚的瀏覽器智能體Project Mariner。
具體來說,它能夠理解並推理瀏覽器屏幕上的信息,包括像素和網頁元素(如文本、代碼和圖片),然後通過Chrome擴展程序來利用這些信息幫你完成任務。
WebVoyager基準測試是一個用於評估多模態網絡智能體性能的測試,主要是通過一系列複雜的基於視覺的任務,測試智能體處理圖文輸入、理解自然語言指令和在網站上執行動作的能力。
而Project Mariner在前者的測試中達到了83.5%的高分成績,但在完成任務時的準確度和速度仍有待提高。
別問現在效果怎麼樣,問就是主打一個未來可期。
考慮到隱私風險問題,Project Mariner也沒含糊,在執行某些敏感操作(如購買物品)之前,它會向用戶請求最終確認。
第三個則是專為開發人員打造的AI編程智能體Jules。
Jules支持直接集成到GitHub工作流中,專治各種Bug,與其盯著滿屏的Bug發愁,不如直接把問題甩給Jules。
還記得Deepmind前不久發佈的基礎世界模型Genie 2嗎?
開局一張圖,它就能生成一個3D影片遊戲場景。Google也使用Gemini 2.0構建了智能體,幫助用戶在影片遊戲的虛擬世界中進行導航。
類似於今年爆火的AI遊戲搭子,它能夠根據用戶遊戲屏幕上的動作來給出下一步操作建議,這對於模擬經營類遊戲來說堪稱剛需。
除了探索虛擬世界中的整體能力,Google還想將Gemini 2.0的空間推理能力應用於機器人,開發能在現實世界幫忙的智能體。
至於老生常談的安全問題,Google這次也算是做足了功課。Gemini 2.0 Flash和一系列智能體產品,將與測試人員、外部專家以及內部的責任與安全委員會(RSC)合作,進行廣泛的評估。
附上公開信全文
來自Google和Alphabet首席執行官Sundar Pichai的致辭:
信息是人類進步的核心。這是我們過去26年致力於使命的原因——組織全球信息,並使其變得可訪問和有用。我們也因此不斷推動人工智能的前沿,以便跨所有輸入方式組織信息,並通過任何輸出方式讓信息真正為你所用。
去年12月,當我們推出Gemini 1.0時,這正是我們的願景。Gemini 1.0和1.5作為首個原生多模態的模型,在多模態和長上下文的應用上取得了顯著進展,能夠理解文本、影片、圖像、音頻和代碼等多種信息,並處理更多信息。
現在,成千上萬的開發者正在使用Gemini進行開發。這不僅幫助我們重新構想了所有產品——包括7款擁有20億用戶的產品——並創造了新的產品。NotebookLM便是多模態和長上下文能力為用戶帶來便捷的一個很好的例子,也正因如此,許多人喜愛它。
在過去一年中,我們一直在投資開發更具「代理性」的模型,即這些模型能更深入地理解你周圍的世界,提前多步思考,並在你的監督下為你執行任務。
今天,我們很高興迎來新一代的模型——Gemini 2.0,它是我們迄今為止最強大的模型。通過多模態的新進展——如原生圖像和音頻輸出——以及原生工具使用,我們能夠構建新的AI智能體,使我們更接近普遍助手的願景。
今天,我們將Gemini 2.0交到開發者和信任的測試人員手中,並加速將其應用於我們的產品,首推Gemini和搜索引擎。今天起,所有Gemini用戶都可以體驗Gemini 2.0 Flash實驗模型。同時,我們還推出了名為「深度研究」的新功能,利用高級推理和長上下文能力,作為研究助手,探索複雜話題並為你撰寫報告。目前,Gemini Advanced中已上線這一功能。
沒有任何產品像搜索引擎一樣被AI技術深刻改變。我們的AI Overviews已服務超過10億用戶,幫助他們提問全新的問題類型,迅速成為我們搜索引擎最受歡迎的功能之一。
接下來,我們將把Gemini 2.0的先進推理能力引入AI Overviews,處理更複雜的主題和多步驟問題,包括高級數學公式、多模態查詢和編程。我們本週已開始進行有限測試,計劃明年初全面推廣。同時,我們將繼續把AI Overviews帶到更多國家和語言地區。
Gemini 2.0的進展,得益於我們十年來在AI創新領域的全棧投資。
它依託像Trillium這樣的定製硬件,Trillium是我們的第六代TPU。TPU為Gemini 2.0的訓練和推理提供了100%的支持,而Trillium現在已開放給客戶,讓他們也能基於這一硬件進行開發。
如果Gemini 1.0是為了組織和理解信息,那麼Gemini 2.0則是讓信息更加有用。我迫不及待地想看看這個新時代會帶來什麼。
Sundar
本文來自微信公眾號:APPSO (ID:appsolution),作者:APPSO