全球第一易主,GoogleGemini2.5 Experimental發佈,再次硬剛OpenAI

Gemini反超OpenAI和DeepSeek!

香港時間3月26日淩晨,Google最新推出的Gemini 2.5 Pro Experimental,剛剛被譽為迄今為止最先進的 AI 模型。 

碰巧的是,就在Google發佈該消息之前,OpenAI率先進行了直播,後續在差不多時間發佈了全新的GPT-4o圖像生成模型。 

OpenAI指出,人類一直借助視覺信息來交流思想,從早期洞穴壁畫到現代信息圖表都證明了視覺表達的重要性。 

過去 AI 常能生成令人驚豔的視覺效果,卻難以滿足實際應用需求;GPT-4o 則能同時保留對話上下文與提示詞,並允許用戶上傳圖像進行擴展或修改,大幅提升了視覺輸出的精準度和實用價值。 

其背後依託海量網絡圖文數據訓練,建立起語言與圖像之間更緊密的關聯,並通過完善的後期優化,讓生成的圖像擁有更高保真度與更豐富的表達方式。 

在價格與性能方面,GPT-4o 同樣展現了新變化。 

它的標記器詞彙量已提升至約20萬個,大幅減少了多語言提示時的損耗。 

費用方面,GPT-4o定價仍高於 GPT-3.5,但相較 GPT-4Turbo便宜近一半:每百萬輸入tokens收費 5 美元,每百萬輸出tokens收費15美元。 

值得注意的是,OpenAI 破天荒地向免費用戶也開放了這一「旗艦」模型,這在以往並不多見。 

過去半年間,Google與 OpenAI 的發佈總是不斷「撞期」,兩家在 AI 領域的正面交鋒逐漸升級。

當前Google發佈的Gemini 2.5 Pro Experimental已經在LMArena排行榜上拔得頭籌,超越了 Claude 3.7、Grok 3 以及 DeepSeek-R1 等知名模型。

它在數學、科學以及創意寫作等多項基準測試中表現突出,尤其在推理和編碼上更是領先一步。 

這一次,Google強調讓系統「像人一樣思考」,而非單純提供答案。 

Gemini 2.5 Pro 的核心創新在於把推理作為系統底層能力來構建,能夠在充分思考和權衡之後才給出解決方案。 

相較於只把推理當作「外掛」的做法,這種全方位的整合讓模型在回覆時更準確、更貼近真實場景,也更能捕捉用戶的上下文含義和細微差異。 

事實證明,這種轉變確實大幅提升了模型的表現。 

在Google自家的多項評估中,Gemini 2.5 Pro取得了極為搶眼的成績:

在高度複雜的推理基準上穩居榜首,並且無需依賴昂貴的投票或其他變通手段。

在GPQA與AIME 2025等基準中都領先於同類產品。

面對難度極高的「人類的最後考試」(由數百名專家構建,用來測試人類知識和推理極限)時,更是拿下了18.8% 的優異成績,而且全程未借助任何工具輔助。

同時,編碼能力的飛躍同樣值得一提。

相比Gemini 2.0,2.5 Pro 在構建 Web 應用、編寫代理式代碼以及進行代碼轉換等任務上都有重大突破。

在 SWE-Bench Verified(專門用來衡量代理編碼水平的基準)中,更是靠著定製代理配置取得了 63.8% 的表現。

事實上,Google在不久前就推出過Gemini 2.0 Flash Thinking,它能夠進行多步推理,並讓用戶實時追蹤它的推理過程。

如今全系 Gemini 2.5 模型都具備類似的 「思考」 功能,在回應之前先對問題進行內部推理和分析,帶來準確度與性能的雙重提升。

Google表示,這背後是「增強過的基礎模型結合更好的後期訓練」共同作用的結果。 

Gemini 2.5 的發佈,意味著Google在邁向「智能代理時代」上又向前推進了一大步。 

未來,所有 Gemini 2.5 系列模型都將集成這種「帶有思考能力」的結構,能夠自主理解複雜情境並執行相應的任務。 

目前,Gemini 2.5 Pro 已在 Google AI Studio 以及 Gemini Advanced 應用平台上線,面向商業和個人用戶開放,提供了長達一百萬 Token 的上下文窗口。 

需要注意的是,想要使用Gemini 2.5 Pro,需要擁有 Google One AI Premium 訂閱(每月20美元),並且只能在Gemini Advanced 版本中體驗。 

據悉,Google計劃在未來幾週內將其引入Vertex AI,並且屆時上下文窗口也會擴展到兩百萬Token。 

話說回來,同一天發佈的倆大產品,GPT-4o屬於「全模態」模型,能夠處理文本、圖像、音頻及影片,並以此為基礎實現ChatGPT的原生圖像生成功能,可謂驚歎;Gemini Pro 2.5則主打強化邏輯推理與複雜問題解答,可號稱最智能。 

兩大巨頭吸足了外界目光。 

當然,兩家企業的競爭不斷升溫,也為AI領域帶來了更激烈的創新與更豐富的技術選擇,最終受益的相信也是廣大用戶。 

本文來自微信公眾號 「億歐網」(ID:i-yiou),作者:不寒,36氪經授權發佈。