Gemini 2.5編程全球霸榜,Google重回AI王座,神秘模型曝光,奧特曼迎戰

剛剛,Gemini 2.5 Pro編程登頂,6美元性價比碾壓Claude 3.7 Sonnet。不僅如此,Google還暗藏著更強的編程模型Dragontail,這次是要徹底反勝了。

Google,徹底打了一場漂亮的翻身仗。

aider多語言編程基準測試顯示,Gemini 2.5 Pro近出世半個多月,編程能力已經是全球第一,口碑一眾超越Claude 3.7 Sonnet。

不僅如此,除了DeepSeek,它的性價比也是最優的,成本低至6美金。

為了強調Gemini 2.5 Pro成本優勢,Jeff Dean還附上了超詳細TOP 10模型的成本圖。

他驕傲地表示,「有些性能不怎麼樣的模型,還要比Gemini 2.5貴上2倍、3倍,甚至是30倍」。

原本,以強大編程能力著稱的Claude,成為廣大開發者的主戰場。如今有了Gemini 2.5,AI編程將會上演一場史上最大的「遷徙」。

更令人欣喜的是,Gemini 2.5 Pro還不是編程最強的那個。

這幾天,競技場上,突然現身多款據稱是Google開發的模型,包括Nightwhisper、Dragontail等,編程能力讓人驚豔。

網民實測發現,毫不誇張地說,Dragontail編程能力足以摧毀Gemini 2.5 Pro。

雖不知這款模型具體何時面世,但顯然Google還有很多驚喜在等著我們。另一邊,奧特曼也在今日淩晨,下達戰書——

傳說中的GPT-4.1、滿血版o3、o4-mini大概率會發佈傳說中的GPT-4.1、滿血版o3、o4-mini大概率會發佈

預計本週,AI圈又將是一場惡戰。

Gemini 2.5 Pro編程霸榜,性價比最優

3月25日官宣,Gemini 2.5 Pro半個多月裡,各種精彩實測讓其在全網的熱度一直居高不下。

最新aider基準測試,又為這款模型添上了一把火。官方接續Jeff Dean的圖,做了一張更加直觀可視化的表。

Aider Polyglot基準測試是評估AI模型在多語言編程能力上的重要指標,涉及C++、Go、Java、JavaScript、Python和Rust等多種編程語言。

看得出,o1是十款模型中,最貴的那個(186.5美元),其次是Claude 3.7 Sonnet(32k thinking token)成本為36.83美元。

再之後,就是o3-mini、Claude 3.7 Sonnet(no thinking)、DeepSeek R1+Claude 3.5 Sonnet。

這些模型成本高不說,多語言編程能力還不如Gemini 2.5 Pro。

而且,Google第七代TPU也在發揮最大的效用了,能夠加速Gemini 2.5 Pro token的處理速度。

在網民實測的demo中,Gemini 2.5 Pro在單次編程提示中,表現非常出色——創建一個隨著音律躍動的3D星球。

Google產品負責人Logan Kilpatrick忍不住美言了幾句,「想要找到這樣既前沿,又具性價比的模型,真的太難了。Gemini 2.5 Pro真的是特別的那一款」。

一直以來,Anthropic沒有解決Claude速率限制問題,還推出了每月200美金付費計劃,在開發者心中大減價扣。

GoogleGemini 2.5 Pro憑藉卓越的多語言編程能力,和超高的性價比,再次證明了Google在AI領域的深厚實力。

Google在AI領域全面獲勝

如今看來,在這場AI激烈競賽中,能全面Scaling的科技大廠,唯有Google了。

Gemini 2.5 Pro Experimental是全球最優秀的AI模型,OpenAI和Anthropic目前都毫無勝算。

它在LMArena、GPQA Diamond、人類終極測試以及AIME等多項權威測評中,均排名第一。

在Aider Polyglot、Live Bench等非公開基準測試里也名列前茅。

在《寶可夢》遊戲測試中,它的表現優於Claude Sonnet。此外,它在創意寫作方面也有不錯的表現,尤其是長文本理解能力。

更重要的是,Gemini 2.5 Pro Experimental的基準測試成績,與實際使用體驗、專業測評反饋高度吻合。

大量用戶反饋,Gemini 2.5 Pro Experimental確實是當下最強的AI模型。

這種情況在競爭激烈的AI行業實屬罕見。

此外,它速度快、成本低,Google甚至為用戶提供免費使用權限。

它的上下文窗口多達100萬個token,並與Google龐大的產品生態緊密相連。

即將發佈的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」,同樣表現出色。

它運行速度極快且成本極低,比競爭對手的同類模型便宜得多。

Gemini 2.5 Flash非常適合應用於邊緣計算場景,也便於集成到手機設備中。

Gemma 3是Google推出的開源模型,在性能上能與Llama 4、DeepSeek-V3等頂尖開源模型相媲美。

在性能和成本這兩個關鍵指標上,Google的Gemini 2.0/2.5系列(包括Pro和Flash版本)佔據著Pareto最優前沿。

這意味著Google性能最強的模型,成本控制得也很好;性價比最高的模型,性能同樣出色。

這使其成為預算有限的開發者、企業和初創公司的理想選擇。

在其他生成式AI領域,Google同樣佔據著主導地位。

Google宣佈,將把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平台。它們在各自領域都是世界一流水平。

在智能體領域,開啟深度研究模式的Gemini 2.5 Pro,表現比OpenAI的深度研究功能強一倍。

Gemini與OpenAI深度研究功能的對比Gemini與OpenAI深度研究功能的對比

彩蛋:Dragontail

近期,網上流傳著一款Google尚未正式發佈的模型,代號「Dragontail」。

據稱其在Web開發領域表現驚豔,甚至超越了旗艦模型Gemini 2.5 Pro。

Dragontail最早出現在WebDev Arena(https://web.lmarena.ai/)的測試環境中。

經開發者測試發現,在生成複雜用戶界面、多頁面網站和交互式應用方面,其展現出的能力遠超其他模型。

儘管Google尚未官方確認Dragontail,它在某些測試中自稱是「由Google訓練的LLM」,這與Gemini 2.5 Pro的回應一致。

人們猜測它可能是Google內部開發的下一代模型,或者Gemini系列的升級版本。

Dragontail的實力究竟如何?根據測試者的反饋,這款模型在WebDev任務中的表現堪稱碾壓。

Dragontail在以下幾個方面展現了絕對優勢:

卓越的UI設計

Dragontail生成的UI元素,不僅功能完善,在佈局、配色和交互性上也極具美感。

比如,當要求生成一個帶有複雜導航功能的零售網站時,Dragontail能輸出整潔的代碼,里麵包含動態加載的商品列表、響應式設計,頁面切換效果也很流暢。

相比之下,即使是當前WebDev排行榜上表現出色的Gemini 2.5 Pro Experimental,在細節處理上還是差了一點,偶爾會出現佈局不夠直觀,或交互不夠順暢的問題。

功能實現的完整性

Dragontail生成的Web應用,功能實現上幾乎沒有瑕疵。

從前端的JavaScript邏輯,到後端的API集成,它都能給出生產級別的代碼。

比如,開發者要求生成一個帶有實時數據更新的儀表盤,Dragontail不僅完成了前端可視化,還自動生成了後端模擬數據接口。

Gemini 2.5 Pro在做類似任務時,往往需要額外的提示才能把邏輯補全。

代碼質量與優化

Dragontail的代碼風格規範,遵循現代Web開發的最佳實踐。

它生成的React或Vue組件結構清晰,狀態管理井井有條,還包含了錯誤處理和性能優化。

相比之下,Gemini 2.5 Pro雖然也能生成高質量代碼,但在複雜項目中,偶爾會出現冗餘代碼,或者不必要的複雜邏輯。

測試者一致認為,Dragontail在視覺效果、功能完整性和用戶體驗方面全面領先。

讓人懷疑,Dragontail是否代表了Google在Web開發AI領域的全新突破。

(註:基於WebDev Arena測試數據、開發者反饋及社交平台X上的討論,部分信息尚未得到Google官方證實,具體細節以未來發佈為準。)

參考資料:

https://x.com/paulgauthier/status/1911495784908177694 

https://www.thealgorithmicbridge.com/p/google-is-winning-on-every-ai-front 

https://www.reddit.com/r/Bard/comments/1jx6lr4/unreleased_google_model_dragontail_crushes_gemini/ 

本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。