Google版o1突發即屠榜,思考速度比所有模型快5倍,能解摩斯代碼,數學物理秒秒鍾解決

Google版o1來了!在奧特曼「雙十二」倒數第二天——

他們發佈Gemini 2.0 Flash Thinking,顧名思義,以閃電般的速度解決複雜問題並展示其思考過程的實驗模型。

從姐夫哥展示出的Demo來看,它能在幾秒鍾之內解決一個物理問題,並且給出思考過程。

還可以給一張圖,同時涉及視覺和文本線索的謎題。

如何用其中三個數字加起來等於30?

結果同樣也是短短幾秒,思考了好幾種方案,最終確定是需要將9號球翻轉為6號球,以實現6+13+11等於30這樣一個結果。

所有綜合類別指標中顯示,目前Gemini 2.0 Flash Thinking排名第一,包括數學、代碼、指令跟隨、長QA、創意寫作等等各方面。

目前在GoogleAI Studio就可以免費使用。

Google版o1第一波實測

從眾多網民實測中,主要分為兩大「派系」,一種是純文本型,另一種是視覺類謎題。

最明顯感知的就是一個快字。

它還可以解決像拋硬幣這樣的概率問題:如果我一直拋硬幣,直到得到HHH或HTH,那麼得到這兩個機率之比是多少?

甚至它還可以解析摩斯代碼,讓網民直呼:怪嚇人的。

有解決這種視覺類謎題的,比如找出這裡面的字母和數字,並且說明出現了多少次。

結果它都一一指出來了。

DeepMind首席科學家拿出了他當年面試時遇到第一個問題,是用筆和紙寫下的一道關於數論的問題。

結果它也秒秒鍾回答了出來。

目前僅支持32k上下文窗口,也不支持聯網。不過主創表示接下來會在新的一年里快速跟進,提供更長的token、更多的工具支持等。

今天之所以推出這個實驗版,主要是為了接受大家的反饋意見。

也有網民反饋,它沒有考慮到一些關鍵的物理因素。

沒有考慮到河流流動所暗示的海拔沒有考慮到河流流動所暗示的海拔

不過也有不少網民反應,有個bug是,它似乎還是搞不清楚Strawberry有多少個r。

但如果進一步「仔細思考一下」,它就能回答出來。

姐夫哥還透露,未來還會有更多功能,可以在這裏期待一下子。

好了,感興趣的小夥伴可以前往去試試。

體驗鏈接:

https://aistudio.google.com/prompts/new_chat

參考鏈接:

[1]https://x.com/OfficialLoganK/status/1869789820308074837

[2]https://x.com/JeffDean/status/1869789813232341267

[3]https://x.com/lmarena_ai/status/1869793847548817563

[4]https://x.com/drjwrae/status/1869806621024772096/video/2

[5]https://x.com/catebligh/status/1869823074809647589

本文來自微信公眾號「量子位」,作者:白小交 一水,36氪經授權發佈。