Google首款混合推理Gemini 2.5登場,成本暴降600%,思考模式一開,直追o4-mini

剛剛,Google重磅發佈首個混合推理模型——Gemini 2.5 Flash。

與Claude類似,新模型的「思考預算」可以自定義,即可開啟/關閉Gemini 2.5的思考模式。

值得一提的是,關閉思考的成本直接暴降600%,而且性能還不輸Gemini 2.0 Flash。

具體來說,Gemini 2.5 Flash關閉思考輸出價格0.6美元/百萬token,開啟思考輸出價格3.5美元/百萬token。

當然了,思考越久,模型性能也會隨之提升。

在GPQA知識問答中,新模型24k思考預算,性能提升了6%;對於代碼任務(LiveCodeBench),16k思考預算性能最佳。

在多項基準測試中,Gemini 2.5 Flash再次刷新SOTA。在大模型排行榜中,Flash預覽版以1392 ELO高分位居第二,與GPT-4.5-preview、Grok 3並駕齊驅。

在數學(AIME 2025/2024)、多模態推理(MMMU)、知識問答(GPQA)等基準上,Gemini 2.5 Flash完全碾壓Claude 3.7 Sonnet,足以與最新o4-mini相媲美。

就模型每百萬token輸入/輸出價格來看,Gemini 2.5 Flash更具性價比。

在人類最後一次考試中,Gemini 2.5 Flash拿下12.1%高分,僅次於o4-mini

目前,Flash預覽版可以在Gemini中使用,API同時向開發者開放。

首款混合推理Gemini登場

擊敗Claude 3.7

混合推理模型,就是專為需要在性能、成本、延遲之間找到完美平衡的開發者而設計。

Gemini 2.5 Flash不僅繼承了2.0 Flash的高速響應特點,還引入了革命性的「思考模式」——可根據任務需求靈活調整推理深度。

Gemini 2.5系是「思考模型」,能夠在回答前先行推理。

模型不會立即輸出結果,而是先執行「思考」流程,更好地理解提示詞,拆解複雜任務並規劃回答。

如下圖所示,相較於2.0 Flash,Gemini 2.5 Flash在複雜任務,如數學推理、科研分析中表現更優異。

在LMArena其他評估中,比如Hard Prompts、編碼、長查詢,Gemini 2.5 Flash全部拿下第一。

另外從下圖中可看出,在同類模型中,2.5 Flash以超高性價比領跑,兼具最優性能和極低成本的優勢。

網民實測

在網民的實測中,2.5 Flash物理模擬能力足夠驚豔,小球會隨著多邊形變化精準運動。

而且,2.5 Flash還輕輕鬆鬆通過了4o-mini/o3無法通過的Galton Board(高爾頓板)測試。

它還能根據精靈圖,創建出自定義遊戲城房間。

另一位網民用了最大24k預算,讓2.5 Flash設計出了一個《創:戰紀》風格的遊戲。

提示:Create Design a visually striking Tron-style game in a single HTML file, where AI-controlled light cycles compete in fast-paced, strategic battles against each other

如今Claude 3.7已經完全沒有優勢了,在設計登錄界面時,Gemini 2.5 Flash用時最短速度最快。

思考預算

智能控制

不同使用場景在質量、成本與延遲之間各有取捨。

為給開發者更大靈活性,2.5 Flash新增了「思考預算」功能。開發者可以通過設置預算(0 – 24576 Token),來控制模型在思考階段的推理深度。

低預算(甚至為0):適合簡單查詢,保持2.0 Flash超低延遲和成本,性能更強

高預算:模型會進行更深入的推理,生成更準確、全面的答案。

需要強調的是,預算只是設定了2.5 Flash的思考上限;若prompt並不複雜,模型不會用滿全部預算。

開發者也可通過API參數,或在Google AI Studio與Vertex AI控制台的滑塊控件,為思考階段指定具體的Token預算

更智能的是,模型會根據prompt複雜度,自動判斷所需推理量和思考時間,避免了預算的浪費。

以下示例中,展示了2.5 Flash在預設模式下,可能使用的推理量。

· 需要低推理量的提示詞:

示例1:

「Thank you」的西班牙語表達

示例2:

加拿大有多少個省?

· 需要中等推理量的提示詞:

示例1:

擲兩枚骰子,點數之和為7的概率是多少?

示例2:

我的健身房在週一、三、五9‑15點以及週二、週六14‑20點開放籃球自由場地。如果我每週工作5天、時間為9‑18點,但想在工作日打5小時籃球,請為我製定一份可行的日程表。

· 需要高推理量的提示詞:

示例1:

一根懸臂樑,長度L=3 m,矩形截面寬b=0.1 m、高h=0.2 m,材質鋼 (E=200 GPa)。梁全長受均布載荷w=5 kN/m,且自由端承受集中載荷P=10 kN。請計算最大彎曲應力σ_max。

示例 2:

編寫函數evaluate_cells(cells: Dict[str, str]) -> Dict[str, float],用於計算電子錶格單元格的數值。

每個單元格的內容可能為:

· 一個數字(如 「3」),或

· 一個公式,例如「=A1 + B1 * 2」,可使用「+、-、*、/」運算符並引用其他單元格。

要求:

1. 解析並解決單元格間的依賴關係。

2. 處理運算符優先級(*/高於+-)。

3. 檢測循環依賴並拋出 ValueError(“Cycle detected at “)。

4. 不得使用eval(),只可使用Python內置庫。

Gemini 2.5 Flash正式上線

當前,Gemini 2.5 Flash預覽版API在Google AI Studio和Vertex AI中上線,可通過Gemini應用專用下拉菜單找到它。

Google強烈建議嘗試thinking_budget(思考預算)參數,看看可控推理如何去解決更複雜的問題。

參考資料:

https://developers.googleblog.com/en/start-building-with-gemini-25-flash/

本文來自微信公眾號「新智元」,作者:新智元,編輯:桃子 好睏,36氪經授權發佈。