剛剛,Google最強Gemini 2.5 Pro免費了,數學碾壓人類研究生,拿下全球TOP 1

雖然又被GPT-4o吉卜力生圖的光芒掩蓋了,但毫無疑問,上週的另一技術核彈Gemini 2.5 Pro,也是無可爭議的強!

在試用過程中,網民們逐漸發現,這個模型真的強到髮指。

在文沙Norway的IQ測試中,它已經突破了130。

隨後,更硬核的證據來了——在MathArena測試中,它直接獲得了第一名!

注意,這裏用的基本都是LLM從未見過的題。

在哈佛-麻省理工大學數學競賽(HMMT)中,領先第二名15%

AIME 2025 I和AIME 2025 II是今年美國全國數學奧林匹克競賽的選拔賽AIME 2025 I和AIME 2025 II是今年美國全國數學奧林匹克競賽的選拔賽

它在數學方面已經比大多數研究生要強,這已經是一個可以公開驗證的事實。

在這位網民統計的AI模型能力表上,Gemini的領先趨勢已經非常明顯。

Gemini 2.5 Pro (exp),免費用戶也能用

好消息是,現在所有用戶都能用上Gemini 2.5 Pro了。

就在今天,Google官宣:向所有Gemini用戶,推出Gemini 2.5 Pro實驗版!

而且,還是全免費。

唯一美中不足的是,Gemini 2.5 Pro目前還會有速率限制。

但Gemini Advanced用戶,就可以享有更高級的訪問權限,和更大的上下文窗口。

在上週三剛剛發佈時,Gemini 2.5 Pro,還僅僅面向Gemini Advanced訂閱者開放,訂閱價格為每月19.99美元。

而隨後,模型還會被推廣到安卓和iOS應用上。

目前尚不清楚,Google是否會將2.5 Pro的穩定版本免費提供給所有Gemini用戶,還是說今天的舉措僅針對測試階段。

在此之前,似乎2.0 Flash Thinking和2.0 Flash都將是免費提供的版本。

社區網民公認:大模型賽,Google已經領先了

AI社區Reddit上的網民們公認:在客觀上,Google的模型已經領先了。

或許是有史以來第一次,OpenAI明確處於落後地位,Anthropic也是如此。

雖然憑吉卜力表情包搶了風頭,但這種廉價的伎倆只會在短期內有用。在大模型賽中,局面已經從根本上改變了。

細數LiveBench、LMSYS、人類最後的考試、智商測試,幾乎一切投票都表明,Gemini是無可爭議的領軍者。

有媒體表示GoogleGemini 2.5 Pro是最聰明的模型
有媒體表示GoogleGemini 2.5 Pro是最聰明的模型有媒體表示GoogleGemini 2.5 Pro是最聰明的模型

根據Artificial Analysis的評估,Gemini 2.5在大部分測試中都遙遙領先,成績排名第一。

同時,輸出速度僅次於 Gemini 2.0 Flash,位列第二。

當然,如果從原理上看,LLM的確沒有在做數學,因為它們的本質仍然是概率性的,是做從訓練數據中預測最可能的答案。

最強編程模型:模擬宇宙都可以

Google的技術主管Addy Osmani,表示Gemini 2.5 Pro是Google最好的編程模型,而且免費!

他給出了一段Gemini製作的3D飛行小遊戲。

只需提示一次,Gemini 2.5 Pro可以在Three.js中的物理模擬!

多次提示,還可以改進編程效果。

開源鏈接:https://github.com/gemsjohn/physics-sims

網民Gadgetify直接複刻了自己「宇宙模擬器」,只需幾次提示。

建立AI智能體DAIR.AI的elvis,則認為Gemini 2.5 Pro是Claude 3.7 Sonnet的最強對手。

Gemini 2.5 Pro是一款優質代碼模型:

· 代碼質量真的很好

· 1M個token的上下文

· 原生多模態

· 長代碼生成

· 理解大型代碼庫

利用Gemini和Windsurf,他生成了AI搜索代理應用。

不少網民體驗Gemini 2.5 Pro編程之後,表示Claude的確危險了!

初步的編碼測試中的結果顯示,Gemini 2.5 Pro把行業水平提升了一個檔次。

對此,「AI智能體先驅」的創始人Silas Alberti,表示編程助手Devin正在引入Gemini2.5 Pro。

而從事SEO行業的Julian Goldies放出Gemini 2.5 Pro MCP Servers教程,讓智能體自動化一切。

甚至,有人用Gemini 2.5 Pro測試了一個項目,使用A*算法為高速列車尋找最優解,這個過程中涉及了優化坡度、轉彎半徑、多目標優化等難題。

令人驚喜的是,雖然它經常搞亂語法,比如試圖把所有代碼壓縮到一行,但它完成了不少高質量的工作。

參考資料:

https://artificialanalysis.ai/models/gemini-2-5-pro

https://x.com/petergyang/status/1906007718961492391

https://x.com/QiaochuYuan/status/1905967688310268168

https://x.com/omarsar0/status/1906404825509560408

https://x.com/renderfiction/status/1905998185962643767

https://x.com/GeminiApp/status/1906131622736679332

https://x.com/silasalberti/status/1905826070370144450

https://www.reddit.com/r/singularity/comments/1jnbtu2/testing_gemini_25_pro_with_a_project_a_algorithm/

本文來自微信公眾號「新智元」,作者:新智元,編輯:Aeneas KingHZ,36氪經授權發佈。