國產 DeepSeek V3 被秒成”前浪”?Google開放最強 Gemini 2.0 全家桶:速度快60倍,上下文還長16倍

昨日夜裡,Google向所有人發佈了 Gemini 2.0——迄今為止Google「功能最強大」的人工智能模型套件。

Google Gemini 2.0 向所有人開放

去年 12 月,Google發佈 Gemini 2.0 Flash 的實驗版本,正式開啟了代理型 AI 的新時代。Gemini 2.0 Flash 是Google為開發者群體打造的高效主力模型,具有低延遲、高性能等優勢。今年早些時候,Google在 Google AI Studio 中更新了 2.0 Flash Thinking Experimental,通過將 Flash 模型的驚人速度與複雜問題的推理能力相結合,進一步提高了性能表現。

上週,Google面向桌面及移動設備端的全體 Gemini 應用用戶發佈了 2.0 Flash 更新版本,希望幫助更多人以全新方式使用 Gemini 進行創作、互動和協作。

如今,Google將通過 Google AI Studio 和 Vertex AI 中的 Gemini API 向公眾發佈更新之後的 Gemini 2.0 Flash。開發人員現已可以使用 2.0 Flash 模型構建生產級應用程序。

Google還發佈了 Gemini 2.0 Pro 的實驗版本,這是Google旗下迄今為止編碼性能最強、最善於處理複雜提示詞的大模型。除了在 Google AI Studio 和 Vertex AI 當中使用之外,Gemini 2.0 Pro 也將在 Gemini 應用中面向 Gemini Advanced 用戶開放。

此外,Google將在 Google AI Studio 和 Vertex AI 中公開預覽迄今為止最具成本效益的模型方案 Gemini 2.0 Flash-Lite。

最後,2.0 Flash Thinking Experimental 將被添加在桌面和移動設備端的模型下拉菜單中,以供 Gemini 應用用戶隨時使用。以上提到的所有發佈模型都將支持帶有文本輸出的多模態輸入,且在未來幾個月的通用版本中還將支持更多模態。

2.0 Flash:面向全體用戶帶來更新

Flash 系列模型首度亮相於 I/O 2024 大會,作為一種強大的主力模型廣受開發者歡迎。Gemini 2.0 Flash 提供全面的功能,包括原生工具使用、100 萬個 token 上下文窗口和多模式輸入。它目前支持文本輸出,具有圖像和音頻輸出功能,並且計劃在未來幾個月內全面推出 Multimodal Live API。

2.0 Flash 現已在Google AI 產品中面向更多用戶正式發佈,同時在關鍵基準測試上的性能也得到了提升。圖像生成與文生語音等功能將在不久之後推出。

感興趣的用戶可以通過 Gemini 應用 或者 Google AI Studio 及 Vertex AI 中的 Gemini API 立即體驗 Gemini 2.0。

2.0 Pro Experimental:Google編碼性能最好的模型

在分享 Gemini 2.0 早期實驗版本(例如 Gemini-Exp-1206)的過程中,Google收到了開發人員對其優勢及最佳用例(例如編碼場景)的極佳反饋。

作為對這些反饋的回應,Google已經發佈 Gemini 2.0 Pro 的實驗版本。與之前已經發佈的各類大模型相比,Gemini 2.0 Pro Experimental 擁有最強大的編碼性能與複雜提示詞處理能力,而且可以更好地理解並推理世界知識。該模型配備有Google旗下最大的上下文窗口,可容納 200 萬 token,這使其能夠全面分析並理解大量信息,並可調用Google搜索及代碼執行等其他工具。

Gemini 2.0 Pro 現在以實驗模型的形式向 Google AI Studio 和 Vertex AI 中的開發者,以及 Gemini Advanced 用戶開放。這部分用戶可通過桌面及移動設備端的模型下拉菜單立即體驗。

2.0 Flash-Lite:Google最具性價比的模型

Google方面稱,此前收到了大量關於 1.5 Flash 模型價格和運行速度的積極反饋,公司一直在保持成本和速度水平的同時不斷努力提高模型質量。此次推出的 2.0 Flash-Lite 是一款質量優於 1.5 Flash 的新模型,且繼續保持後者的速度和成本優勢。2.0 版本在大多數基準測試中均優於 1.5 Flash。

與 2.0 Flash 一樣,2.0 Flash-Lite 版模型的上下文窗口可容納 100 萬 token 並支持多模態輸入。例如,它可以一次性為大約 4 萬張不同照片生成單行標題,且此項操作在 Google AI Studio 付費套餐中的成本不到 1 美元。

Gemini 2.0 Flash-Lite 已經在 Google Ai Studio 和 Vertex AI 中提供公開預覽版。

用戶反饋怎麼樣?

Google首席科學家、AI 大佬 Jeff Dean 盛讚了 Gemini 2.0 Pro 的編程能力。他在 X 上發貼稱對於 Gemini 2.0 Pro 編程能力感到驚訝。他表示:「我喜歡 Boggle 遊戲(一種填字遊戲)。這個演示展示了我們的 Gemini 2.0 Pro 模型在 AI Studio 中的編碼能力。令人難以置信的是,它可以通過一個相對簡單的提示,編寫出完整的代碼,包括所有正確的數據結構和搜索算法,以在 Boggle 遊戲板上找到所有有效的單詞。作為一名計算機科學家,我也很高興它第一次就正確地完成了數據結構。」 他還幽默地用了 「Discombobulating!」 (令人困惑 / 震驚)來形容。

Gemini 2.0 的全面發佈引起了網民的廣泛關注。InfoQ 旗下極客時間專欄作者林健(鍵盤) 得知 Gemini 2.0 Flash 上線後立即接入 API 試用,他在 X發貼稱,Gemini 2.0 Flash 在長文本、成本和吞吐量等方面的表現優於 DeepSeek V3 和 GPT 4o-mini。

尤其是與 DeepSeek V3 對比時優勢明顯(按後台的數據粗算,不計緩存 token)。Gemini 2.0 Flash 的成本比 DeepSeek V3 低 6 倍、輸出速度快 60 倍、上下文長 16 倍,更重要的是還原生支持所有模態。

也有 X 用戶將 o3-mini-high、Gemini 2.0 Flash 和 Gemini 2.0 Pro 放在一起跑了幾個基準測試進行性能比較。

在綜合性能表現中,Gemini 全家桶中的 2.0 Pro 在所有類別中排名第一,2.0 Flash 排名第三位,2.0 Flash Lite 則以更低的成本擠進了前十名。

儘管在很多基準測試中 Gemini 系列模型都打敗了同類模型,但基於 Gemini 衍生出來的產品還是被用戶瘋狂「抽水」。

我不使用 Google Gemini 的首要原因是它們會截斷輸入文本。因此我無法簡單地將長文檔或其他類型的內容作為原始文本黏貼到提示框中。

甚至無法在 Gemini 中上傳文檔,只能上傳圖片。在 Hacker News 上,ID 名為 heavyarms 的用戶表示:

「我上次(也就是幾天前)再次使用 Gemini 時,還是發現它只有一個‘上傳圖片’選項… 而我斷斷續續玩了幾個月的 Gemini,卻從來沒有真正上傳過圖片。這基本上就是我對目前大多數 Google 產品的看法:不成熟、有缺陷、令人困惑、不直觀。」

而且Google這些模型的各種版本使用時的限制條件也讓人摸不著頭腦。有用戶「抽水」:

「簡單來說,我今天花了一個小時想弄清楚怎麼用‘深度研究’這個功能,結果還是沒搞明白。我買了 Gemini Advance 的商業辦公標準版,但不確定是不是還需要 VPN、額外付費買 AI 產品,或者升級到更高級的辦公套餐。Google的產品線太複雜了,各種功能互相交織,搞得人一頭霧水。我都開始懷疑,Google作為 AI 提供商到底靠不可靠了。」

Google的 API 也飽受用戶詬病。

使用 Google API 通常會讓人感到沮喪。事實上,我喜歡他們提供的最佳基礎雲服務,但他們的附加 API 卻雜亂無章。在這些與 AI 相關的 API 中,Google的 API 是最糟糕的。

大模型下一步:各方面能力無限接近人類水平

無論從大模型的部署和使用成本,還是性能上來講,大模型的下一步目標很明確:讓 AI 的能力無限接近人類水平。聽起來很科幻,但其實已經在路上了。

Google在 12 月份的一篇博客文章中寫道:「在過去的一年里,我們一直在投資開發更多的代理模型,這意味著它們可以更多地瞭解你周圍的世界,提前思考多個步驟,並在你的監督下代表你採取行動。」並補充說,Gemini 2.0 在「多模態性方面取得了新進展——比如原生圖像和音頻輸出——以及原生工具的使用」,並且該模型系列「將使我們能夠構建新的人工智能代理,讓我們更接近通用助手的願景。」

Anthropic 是一家 由亞馬遜支持的人工智能初創公司,由前 OpenAI 研究主管創立,是開發 AI Agent 競賽中的關鍵參與者。10 月,Anthropic 表示其 AI Agent 能夠像人類一樣使用計算機來完成複雜的任務。這家初創公司表示,Anthropic 的計算機使用能力使其技術能夠解釋計算機屏幕上的內容、選擇按鈕、輸入文本、瀏覽網站並通過任何軟件和實時互聯網瀏覽執行任務。

Anthropic 首席科學官賈列特·卡普蘭 (Jared Kaplan) 當時在接受 CNBC 採訪時表示,該工具「基本上可以像我們一樣使用計算機」。他說,它可以完成「數十甚至數百步」的任務。

OpenAI 最近發佈了一項類似的功能,名為 Operator,它可以自動執行諸如計劃假期、填寫表格、預訂餐廳和訂購雜貨等任務。OpenAI 將 Operator 描述為「可以上網為您執行任務的 Agent」。

本週早些時候,OpenAI 推出了 Deep Research,它允許 AI Agent 編寫複雜的研究報告並分析用戶選擇的問題和主題。Google去年 12 月推出了一款同名的類似工具——Deep Research,它充當「研究助手,探索複雜主題並代表你編寫報告」。

CNBC 於 12 月首次報導稱,Google將在 2025 年初推出多項人工智能功能。

「從歷史上看,你並不一定總是第一,但你必須執行力強,真正成為同類產品中最好的,」首席執行官 Sundar Pichai 在當時的戰略會議上表示。「我認為這就是 2025 年的意義所在。」

參考鏈接:

https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/

https://x.com/lmarena_ai/status/1887180371219132898

本文來自微信公眾號「AI前線」,作者:冬梅、核子可樂,36氪經授權發佈。