1M長上下文,滿血版Gemini 2.0又一次登上Chatbot Arena榜首
就在國內各家大模型廠商趁年底瘋狂捲的時候,太平洋的另一端也沒閑著。
就在今天,Google發佈了 Gemini 2.0 Flash Thinking 推理模型的加強版,並再次登頂 Chatbot Arena 排行榜。

Google AI 掌門人 Jeff Dean 親發賀信:「我們在此實驗性更新中引入了 1M 長的上下文,以便對長篇文本(如多篇研究論文或大量數據集)進行更深入的分析。經過不斷迭代,提高可靠性,減少模型思想和最終答案之間的矛盾。」

試用鏈接:https://aistudio.google.com/prompts/new_chat
讓我們回憶一下:2024 年 12 月 20 日,橫空出世的 Gemini 2.0 Flash Thinking,曾讓 OpenAI 的十二連發黯然失色。
Gemini 2.0 Flash Thinking 基於 Gemini 2.0 Flash,只是其經過專門訓練,可使用思維(thoughts)來增強其推理能力。發佈之初,這款大模型就登頂了 Chatbot Arena 排行榜。
在技術上,Gemini 2.0 Flash Thinking 主要有兩點突破:可處理高達 1M token 的長上下文理解; 能在多輪對話和推理中自我糾錯 。
Gemini 2.0 Flash Thinking 的一大亮點是 會明確展示其思考過程 。比如在 Jeff Dean 當時展示的一個 demo 中,模型解答了一個物理問題並解釋了自己的推理過程,整個過程耗時 1 分多鍾。
而另外一位研究者表示,Gemini-2.0-Flash-Thinking-Exp-01-21 這款最新模型的實際體驗比 Jeff Dean 描述的還要快。

再看 Gemini 2.0 Flash Thinking 的成績,那也是相當亮眼,和前兩代 Gemini 1.5 Pro 002、Gemini 2.0 Flash EXP 相比,Gemini 2.0 Flash Thinking 在 AIME2024(數學能力測試)、GPQA Diamond(科學能力測試)和 MMMU(多模態推理能力)進步迅速,特別是數學成績,提升了 54%。

從折線圖來看,即使是比較對像是一個月前的自己,也取得了顯著的提升。

與此同時,在 AGI House 舉辦的活動中,Jeff Dean 和研究科學家 Mostafa Dehghani 透露了更多 Gemini 2.0 Flash Thinking 和 Gemini 2.0 的細節。
進入 Gemini 2.0 Flash Thinking 的互動界面,可以發現Google把 Gemini 系列所有模型都放在了這個稱為「 Google AI Studio 」的界面。
從左側的菜單來看,我們可以在這裏一站式地獲得 API 密鑰、創建提示詞、訪問實時對話、開發 APP。平台還提供了模型調優、資源庫管理、Drive 訪問集成等進階功能,並配備了提示詞庫、API 文檔、開發者論壇等支持資源。
但這個界面上的功能就像「集市」一樣分散,藏得比較深的功能入口似乎並不用戶友好,也缺乏介紹模型能力的文檔。Jeff Dean 對此表示,當模型不再是實驗版而是正式發佈時,Google將提供完整的技術報告,他們現在的主要目標是讓用戶試用,再根據更多反饋改善。

Gemini 2.0 Flash Thinking 的互動界面
此外,Google的開發理念更偏向「 全面均衡 」。「我們不希望模型在某些領域特別突出,而其他領域表現欠佳 —— 比如在讀 X 射線時表現出色,但解讀核磁共振時卻很糟糕。」Jeff Dean 補充道:「我們的目標是打造一個真正有實力的通用模型,能夠完成用戶期待的各類任務。這需要持續改進:我們會收集用戶反饋,瞭解模型在哪些方面做得好,哪些方面做得不夠好。然後,獲取更多人們關心的數據來提升,確保模型在各個方向都有進步,而不是局限在某個小範圍內 —— 雖然在數學等特定領域,有時也會進行專門優化。」
Gemini 2.0 Flash Thinking 主推的亮點是 超長的上下文窗口 。不過,眾所周知,很多具備長上下文窗口能力的 AI 模型都有個通病:聊著聊著就「變傻」了,說的話前言不搭後語,或者就直接「擺爛」,跳過上下文中的大段信息。
Jeff Dean 表示,Gemini 2.0 Flash Thinking 真正能做到 在對話過程中保持連貫的思維 ,並靈活運用之前積累的信息來完成當前的任務。因相比混合在一起的數千億訓練數據,上下文窗口的信息對於模型來說非常清晰,因此,上下文窗口的信息對於 Gemini 2.0 Flash Thinking 來說,就像你讓把一張普通轎車的圖片改成敞篷車一樣,模型能準確理解每個像素,然後一步步完成修改。
而從下面這個 demo 來看,Gemini 2.0 理解多模態的能力已經躍升了一個台階。它可以根據語音提示,實時改變這三個小圓的排布,排成一行放在界面頂部,或者排列成一個雪人。更誇張的是,Gemini 2.0 對語音、視覺和動作的融會貫通已經達到了你說想要紫色的圓,它知道要把紅色和藍色的圓重疊在一起調色的境地。
想要如此精準地理解網頁界面的佈局和內容,需要強大的邊框識別能力。Jeff Dean 揭秘,這來自 Project Mariner 。Project Mariner 是一個研究性的實驗項目,旨在探索人類將如何與 AI 智能體互動,第一步就是讓 AI 理解並操作網頁瀏覽器。
Project Mariner 的能力類似於 Claude 的「computer use」,可以實時訪問用戶的屏幕,理解瀏覽器中圖像的含義。

傳送門:https://deepmind.google/technologies/project-mariner/
當被問及 Gemini 系列模型是否要向更多模態進發時,Jeff Dean 的回答是:目前Google正在瞄準 3D 數據,而且已經有了很好的結果。
看來Google還攢了不少存貨,下一個突破會在哪個領域?讓我們拭目以待。
參考鏈接:
https://x.com/rohanpaul_ai/status/1881858428399722948
https://x.com/demishassabis/status/1881844417746632910
https://deepmind.google/technologies/gemini/flash-thinking/
https://x.com/agihouse_org/status/1881506816393380041
本文來自微信公眾號「機器之心」,編輯:佳琪、蛋醬,36氪經授權發佈。