Google推出Gemini 2.0 Flash Thinking,力挑OpenAI o1

如果說人工智能領域是一盤嶄新的蛋糕,那麼技術的革新換代就是各企業切割蛋糕最有力的武器。作為人工智能領域最前沿的兩大巨頭,OpenAI 與Google DeepMind正不斷推進技術創新發展,雙方你追我趕,以驚人的速度推動人工智能領域這塊「蛋糕」越做越精美。

12月20日,GoogleDeepMind首席科學家宣佈推出全新測試模型——Gemini 2.0 Flash Thinking。而這是在OpenAI 「12 天馬拉松」發佈的倒數第二天。

據介紹,Google此次發佈的Gemini 2.0 Flash Thinking模型是一個多模態推理模型,通過思維鏈過程可視化,以AI思維的透明度與閃電般解題的速度重新定義AI模態的新架構。同時還可以聯動使用Google Search和Google Maps等相同系列工具。大大提升用戶在Google生態中的交互體驗。

透明度:只給結果得兩分,給出過程得滿分

如果AI回答問題是一張考卷,那麼傳統AI模型只給結果的答題方式似乎並不合格,是要接受老師批評的程度。而現在,幾秒鍾內AI給出的不僅是答案,同時還有推理過程。

Gemini 2.0 Flash Thinking的核心特點之一是AI思考的透明度。

Google的最新模型引入了一個創新功能:用戶可以通過下拉菜單查看其逐步推理的過程。Google DeepMind 首席科學家 Jeff Dean 演示了該模型如何通過一系列「思考」步驟解決物理問題,整體耗時1分多鍾。

首先,讓我們來詳細解釋一下這個新功能是如何工作的。在Google的最新模型中,當用戶輸入一個問題或請求時,模型會開始處理並生成答案,這一點與其他傳統的模型相似。不同的是,用戶同時可以通過一個下拉菜單實時查看模型的推理過程。下拉的菜單會顯示模型在每個步驟中所考慮的因素、所採用的策略以及最終得出的結論。這種逐步展示的方式使得用戶能夠清楚地看到模型是如何從輸入到輸出進行推理的,從而更好地理解其決策邏輯。

其次,這個新功能的引入對於增強模型的可解釋性具有重要意義。在過去,許多AI模型被批評為「黑箱」操作,即它們的內部工作機制和決策過程對於用戶來說是不可見的,這種不透明性導致了人們對AI系統的不信任和擔憂。如今,通過引入逐步推理的過程展示,Google的最新模型為用戶提供了一個窗口,可以窺見模型的內部工作原理。這種透明度不僅有助於用戶更好地理解模型的行為,同時增加用戶與模型之間的信任,更加理解AI給出結果。

同時,這種透明度不僅有助於建立用戶對AI系統的信任,還為監管機構提供了一個工具,以評估和監督AI系統的公平性和合規性。

對於開發者而言,開發者可以通過觀察模型的推理過程來發現潛在的問題和改進的空間,從而不斷優化和提升模型的性能,更加有效地優化AI系統。

多模態能力:排名超過o1預覽版

根據獨立基準測試網站lmarena.ai的初步評估結果,Gemini 2.0 Flash Thinking在多個領域展現出了卓越的性能表現,尤其是在數學問題解決、創意寫作以及視覺任務處理等方面更是表現突出。

值得注意的是,這款模型不僅在整個評測中超越了o1預覽版的成績,而且總分排名第一,在編程挑戰、數學解題技巧和創新寫作等多個具體項目中也取得了最佳成績(其中部分項目與其他頂尖AI模型並列)。這些令人矚目的成就充分展示了Gemini 2.0 Flash Thinking的多模態功能及其對不同類型數據的強大適應能力。

與OpenAI推出的o1模型相比,Gemini 2.0 Flash Thinking從設計之初就特別注重於圖像處理能力的開發,這使得它在面對包含文字信息以外的複雜數據集時能夠更加遊刃有餘。例如,在進行自然語言生成的同時結合圖片內容進行描述或分析等任務上,Gemini 2.0顯示出了明顯的優勢。此外,這種跨模態理解的能力對於提升用戶體驗至關重要,這意味著Gemini 2.0允許用戶通過多種方式與系統交互,無論是輸入文本還是上傳圖片都能得到準確而有意義的反饋。

Gemini 2.0 VS OpenAI o1:是棋逢對手還是技高一籌?

OpenAI與Google激戰以久。

此前,OpenAI 在 ChatGPT 中引入的搜索功能直接對Google等傳統搜索引擎構成了挑戰,試圖吸引大量原本使用這些網站進行網絡搜索的用戶。

在人才爭奪中,過去的18個月,OpenAI成功挖掘到85位Google員工加盟,其中工程師佔據了半數。最近,他們更是從GoogleDeepMind團隊中引入了三位資深計算機視覺與機器學習專家——Lucas Beyer、Alexander Kolesnikov以及Xiaohua Zhai。幾位頂尖人才加入位於瑞士蘇黎世OpenAI辦事處,專注於多模態人工智能技術的研發工作。

同時在產品上,OpenAI 公司也適時地發佈產品信息,計劃從12月5日開始的12天內,通過12場直播發佈新模型和功能,這一系列動作被命名為「12天的 OpenAI」,即在上文提到的「12 天馬拉松」。

如今看來,雙方的戰場不局限於任何可爭奪的地方,從發佈週期到市場份額的爭奪,從活躍用戶到人才的挖角行動,放眼皆是兩大頭部企業競爭的硝煙。而技術創新的對壘,應當是兩大科技巨頭最有效與最精彩的部分。

毫無疑問,Google的Gemini 2.0 Flash Thinking是與OpenAI的o1模型在技術上對打的產品。Google選擇在屬於「OpenAI 聖誕」時間的倒數第二天發佈Gemini 2.0,除了新品發佈刻不容緩外,多少也有些與OpenAI針尖對麥芒的味道。

只是目前來看,無論是 Chatbot Arena 排行榜還是在部分性能測試結果中,Gemini 2.0各方面皆優於OpenAI的o1。

Targum 創始人和 CEO Alex Volkov 通過 10 個難題對兩者進行了對比測試,結果發現,Google的Gemini 2.0 的速度要快得多。

從技術層面看,Google的Gemini 2.0如今略勝一籌。但兩者的競爭你追我趕,在技術變化的日新月異下,鹿死誰手,猶未可知。

無論如何競爭,Google與OpenAI的競爭必然在不斷推動AI 技術的快速發展,也為全球科技產業帶來了前所未有的變革。

未來 AI 領域的格局,值得期待。

作者:技高一籌