Google版o1突發即屠榜,思考速度比所有模型快5倍,能解摩斯代碼,數學物理秒秒鍾解決
Google版o1來了!在奧特曼「雙十二」倒數第二天——
他們發佈Gemini 2.0 Flash Thinking,顧名思義,以閃電般的速度解決複雜問題並展示其思考過程的實驗模型。
從姐夫哥展示出的Demo來看,它能在幾秒鍾之內解決一個物理問題,並且給出思考過程。
還可以給一張圖,同時涉及視覺和文本線索的謎題。
如何用其中三個數字加起來等於30?
結果同樣也是短短幾秒,思考了好幾種方案,最終確定是需要將9號球翻轉為6號球,以實現6+13+11等於30這樣一個結果。
所有綜合類別指標中顯示,目前Gemini 2.0 Flash Thinking排名第一,包括數學、代碼、指令跟隨、長QA、創意寫作等等各方面。
目前在GoogleAI Studio就可以免費使用。
Google版o1第一波實測
從眾多網民實測中,主要分為兩大「派系」,一種是純文本型,另一種是視覺類謎題。
最明顯感知的就是一個快字。
它還可以解決像拋硬幣這樣的概率問題:如果我一直拋硬幣,直到得到HHH或HTH,那麼得到這兩個機率之比是多少?
甚至它還可以解析摩斯代碼,讓網民直呼:怪嚇人的。
有解決這種視覺類謎題的,比如找出這裡面的字母和數字,並且說明出現了多少次。
結果它都一一指出來了。
DeepMind首席科學家拿出了他當年面試時遇到第一個問題,是用筆和紙寫下的一道關於數論的問題。
結果它也秒秒鍾回答了出來。
目前僅支持32k上下文窗口,也不支持聯網。不過主創表示接下來會在新的一年里快速跟進,提供更長的token、更多的工具支持等。
今天之所以推出這個實驗版,主要是為了接受大家的反饋意見。
也有網民反饋,它沒有考慮到一些關鍵的物理因素。
不過也有不少網民反應,有個bug是,它似乎還是搞不清楚Strawberry有多少個r。
但如果進一步「仔細思考一下」,它就能回答出來。
姐夫哥還透露,未來還會有更多功能,可以在這裏期待一下子。
好了,感興趣的小夥伴可以前往去試試。
體驗鏈接:
https://aistudio.google.com/prompts/new_chat
參考鏈接:
[1]https://x.com/OfficialLoganK/status/1869789820308074837
[2]https://x.com/JeffDean/status/1869789813232341267
[3]https://x.com/lmarena_ai/status/1869793847548817563
[4]https://x.com/drjwrae/status/1869806621024772096/video/2
[5]https://x.com/catebligh/status/1869823074809647589
本文來自微信公眾號「量子位」,作者:白小交 一水,36氪經授權發佈。