Google反擊戰:Gemini 2.0全線升級,面向所有人開放
AI 加速競賽在科技巨頭與初創公司之間愈演愈烈。這邊 DeepSeek R1 的誕生引爆全球科技圈,其強大的競爭對手們也沒有閑著,先有 OpenAI 加碼帶來 Deep Search 工具並向所有用戶開放 ChatGPT 搜索功能,後有 Google 正式向所有用戶推出升級後的 Gemini 2.0 家族,並稱其為迄今為止「功能最強大」的 AI 模型套件。
該模型套件包含適用於大規模且高頻率任務的 Gemini 2.0 Flash、具有最佳編程性能與處理複雜任務能力的 Gemini 2.0 Pro Experimental 以及極具性價比的 Gemini 2.0 Flash-Lite,還有大幅提升推理能力的 Gemini 2.0 Flash Thinking 模型。
Google DeepMind 首席技術官 Koray Kavukcuoglu 在官方公告的博客文章中寫道:「所有這些模型在發佈時都將支持多模態輸入、文本輸出功能,並且未來幾個月將有更多模式可供普遍使用。」
不難看出,面對 DeepSeek、OpenAI 等競爭對手的強勢攻勢,Google 正在加速迎戰,全力推動 Gemini 2.0 生態的發展。
01 高效主力模型 Gemini 2.0 Flash 來了
Gemini Flash 系列最早於 Google I/O 2024發佈,以高性能、高頻任務處理能力受到開發者青睞。
去年 12 月,Google 發佈了 Gemini 2.0 Flash 實驗版本,正式開啟了智能體(Agentic)時代。這個模型專為開發者打造,具備低延遲和高效能的特點。
上週,Google 進一步將升級版 2.0 Flash 推向更廣泛的用戶,在桌面端和移動端的 Gemini 應用中開放使用,讓更多人能夠探索 Gemini 的創造力、交互性和協作能力。
時下,Google 通過 Google AI Studio 和 Vertex AI 中的 Gemini API 正式發佈更新後的 Gemini 2.0 Flash。
該模型相較競爭對手的一大優勢在於上下文窗口,許多主流模型(如上週發佈的 OpenAI o3-mini)僅支持 20 萬或更少的 tokens,相當於 400 至 500 頁的小說,而 Gemini 2.0 Flash 支持高達 100 萬 token,能夠處理海量信息,尤其適用於高頻、大規模任務,在信息整合和長文本理解方面具備明顯優勢。
開發人員現在可以直接使用 2.0 Flash 構建生產應用程序。這一最新模型在多個關鍵基準測試中提升了性能。此外,圖像生成和文本轉語音功能也即將推出。
當下,用戶可在 Gemini 應用、Gemini API(Google AI Studio 和 Vertex AI) 中直接上手體驗 2.0 Flash。
增強推理能力的 Flash Thinking 模型進入 Gemini App 端
今年年初,Google 在 Google AI Studio 中更新了 Gemini 2.0 Flash Thinking Experimental 模型,經過訓練後,該模型會在回答問題時生成其所經歷的「思考過程」。因此,與 Gemini 2.0 Flash 模型相比,Flash Thinking 模型在回答問題時能夠發揮更強的推理能力。
Google CEO Sundar Pichai 在社交平台 X 上宣佈,Google Gemini 移動應用(iOS 和 Android) 已加入了 Gemini 2.0 Flash Thinking 模型,用戶可以在模型選擇下拉菜單中使用。

簡單來看,這款模型能夠解釋如何回答覆雜的問題。
據外媒 Venturebeat 分析,事實上,DeepSeek R1 和 OpenAI 新推出的 o3-mini 模型都不支持多模態輸入,也就是說,它們無法直接處理圖片、文件上傳或附件。雖然 R1 在官網和移動端應用的聊天界面中可以接收這些輸入,但它只是通過光學字符識別(OCR)——一種已有 60 多年歷史的技術——提取文本信息,並不會真正理解或分析圖片中的其他內容。
然而,DeepSeek R1、OpenAI o3-mini 這兩個模型都屬於新一類的「推理」模型,會花更多時間思考答案,注重「思維鏈」(chain-of-thought)和回答的正確性。這與典型的大型語言模型(LLM),如 Gemini 2.0 Pro 系列,有著明顯區別。
因此,將 Gemini 2.0、DeepSeek-R1 和 OpenAI o3 進行直接對比,實際上有些「雞蛋與蘋果」的意味。
不過,當前 Google 還會推出一款更具自主智能的 Gemini 2.0 Flash Thinking 模型版本,它可以連接 Google 地圖、YouTube 和 Google 搜索,拓展了 AI 研究和交互的可能性,而沒有這些生態支持的 DeepSeek 和 OpenAI,短期內難以匹敵。
Gemini 2.0 Pro(實驗版):最強代碼能力與複雜任務處理
對於需要更高級 AI 功能的用戶,Gemini 2.0 Pro(實驗版)模型現已可供測試。
Google 表示,Gemini 2.0 Pro Experimental 是迄今為止最強的代碼性能和複雜任務處理模型,在理解和推理世界知識方面超越了以往所有版本。其特點包括:
超大上下文窗口:支持 200 萬 token,可處理海量信息,深入分析複雜問題。
工具調用能力:可調用 Google Search 進行實時信息查詢,並支持代碼執行,提升編程能力。
目前,Gemini 2.0 Pro(實驗版) 已在 Google AI Studio、Vertex AI 開放給開發者,並可在 Gemini 高級版(Gemini Advanced) 的桌面和移動端模型選擇菜單中使用。

Gemini 2.0 Flash-Lite(公測版):Google 成本最低的模型
此前,Gemini 1.5 Flash 以其高速度、低成本深受用戶喜愛,而 Google 進一步優化質量,同時保持相同的成本和速度,推出了全新的 Gemini 2.0 Flash-Lite,旨在提供經濟高效的 AI 解決方案,同時不影響質量。
Gemini 2.0 Flash-Lite 具備百萬 tokens 上下文窗口,支持多模態輸入,類似於完整的 Flash 模型。
同時與其他主流 LLM API 相比,Gemini 2.0 Flash 的定價極具競爭力。Gemini 2.0 Flash-Lite 的價格為每百萬代幣 0.075 美元(輸入)和每百萬代幣 0.30 美元(輸出),而其他一些主流模型如:
OpenAI 4o-mini:每百萬 tokens 輸入/輸出費用分別為 $0.15 / $0.6
Anthropic Claude:每百萬 tokens 輸入/輸出費用高達 $0.8 / $4
DeepSeek V3(傳統 LLM):每百萬 tokens 輸入/輸出費用為 $0.14 / $0.28
相比之下,Gemini 2.0 Flash 在性價比方面更勝一籌,且在大多數基準測試中均優於 Gemini 1.5 Flash,根據官方數據顯示,該模型可以為大約 40,000 張獨特的照片生成相關的一行標題,在 Google AI Studio 的付費套餐中成本不到 1 美元,這也使得它成為市場上最具吸引力的 LLM 選擇之一。
對此,Google AI Studio 負責人 Logan Kilpatrick 在 X 上強調,「Gemini 2.0 Flash 是目前所有 LLM 中最具價值的選擇,現在是時候開始構建了!」

目前,Flash-Lite 可通過 Google AI Studio 和 Vertex AI 進行公開預覽,預計將在未來幾週內全面上市。
最後
以上便是 Google 此次帶來的重點大模型更新。在模型的安全方面,Google 也分享了其最新投入,他們利用:
強化學習優化:使用 Gemini 自身來評估和改進其回答,提升對敏感問題的處理能力,確保輸出更加準確、合理。
自動化紅隊測試:評估安全風險,尤其是間接提示注入(Indirect Prompt Injection) 等網絡安全攻擊,防止惡意指令被 AI 誤用。
本文來自微信公眾號「CSDN」,整理:屠敏,36氪經授權發佈。