科技

以一敵五、屠榜登頂的GoogleGemini 2.5，居然栽在小學數學題上

03月26日 20:35 新浪網 tech-auto-hilite

今天淩晨，大洋彼岸可真夠熱鬧的。

OpenAI推出了GPT-4o動嘴生圖、P圖的功能，而Google則直接祭出了號稱「最智能的模型」Gemini 2.5。

據Google首席科學家Jeff Dean介紹，首個版本Gemini 2.5 Pro Experimental已集成「思考能力」，是迄今為止性能最強大的Gemini模型，尤其擅長高級推理和編碼，並在@lmarena_ai排行榜上拿下第一。

到底有多智能？

先來欣賞幾個官方給出的demo。

Prompt：p5js to explore a Mandelbrot set。

提示詞：用p5.js探索曼德博集合。

Prompt：Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.

提示詞：使用Plotly Express創建動畫氣泡圖，展示各大洲經濟和健康指標隨時間變化。

Prompt:Make me a captivating endless runner gameKey instructions on the screen.p5js scene，no HTML.l like pixelated dinosaurs and interesting backgrounds.

提示詞：用p5.js創作一個迷人的無盡跑酷遊戲，畫面上有關鍵操作提示。場景像素風，主角是恐龍，背景要有趣。

Prompt:Create a beautiful，interactive p5js demo(no HTML).l like fish and nebulaeShow me what the fish are thinking.

提示詞：用p5.js做個好看的互動演示，別用HTML。我喜歡魚和星雲，能不能展現出魚的想法。

Prompt:p5.js(no HTML)swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.

提示詞：用p5.js做一個無HTML的演示：30只彩色的「boids」在一個旋轉的六邊形內遊動，效果像超新星星雲。

效果甚是驚豔。

而且Google一出手就是免費！

現在普通用戶可以在AI Studio中免費使用Gemini 2.5 Pro，Gemini App中的Gemini高級用戶也能使用它。

鏈接直達：http://aistudio.google.com/app/prompts/

一手實測

現在只要發佈新模型，言必稱自家的最智能、最強大，然後佐以各種跑分結果。

對於普通用戶來說，分數、排名都不重要，真正重要的是，它在實際生活中到底好不好使。

既然Google稱Gemini 2.5是目前地表最強，那我們就來場大亂鬥，將它和o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1拉出來同台競技。

1. 一根10米長的竹竿能通過高4.5米、寬3.8米的城門嗎？

如果按照常規的數學邏輯來思考，10米長的竹竿確實無法通過這個尺寸的城門，但是在現實生活中，我們可以讓竹竿與地面平行穿過城門。

萬萬沒想到，這麼一道簡單的竹竿過城門，讓這群曾號稱最強的大模型全軍覆沒。

它們不約而同地想到了勾股定理，也把數值算對了，卻忽略了現實是個三維空間。