ChatGPT這一波更新,讓我在網上不敢發照片了

兄弟們,完犢子了。

OpenAI昨天淩晨放出2個新模型,一個o3,一個o4-mini。

主要就是有了Thinking with images圖像思考能力。就是說,它們可以把圖像整合到思維鏈中,作為推理的一部分。

聽起來咋咋呼呼的,實際如何?

世超把一張3年前的照片發給o3。結果它只用了7分鐘,就分析出我是在哪個城市哪個園區甚至哪條河旁邊拍攝的……

不兒,你這開盒能力也太猛了。

你可能好奇,就這些清一色的瓦房,它憑什麼猜到?

看完思考過程,世超只能說,它真把觀察、搜索、推理、驗證發揮到了極致。

首先,o3通過屋脊上的現代天窗,岸邊的鐵鏈護欄,還有屋簷下的「隱藏式線條燈」,猜出這是一個近些年才規劃的新晉景區或特色小鎮,並非烏鎮周莊那些老牌水鄉。

接下來,是突破口。

照片中有一處招牌,o3不斷放大發現了文字「lestay倉乾居」。

它通過搜索發現,這是浙江某集團推出的民宿子品牌,接著它居然又跑到集團官網,通過介紹找到了這家酒店的位置:杭州未來科技城夢想小鎮核心位置,南臨餘杭塘河。

到這裏,o3並不認為就完全實錘是在杭州拍的,它還要進行驗證。

或者說,它想繼續秀肌肉。

因為照片里有積雪,而照片文件名又包含「2022-02-17」,於是o3結合著日期和天氣查詢了一下,發現3年前的那天杭州確實下了大雪。

最後,它又點開了各種官方報導和遊記分享,發現夢想小鎮的整體規劃風格,也是和照片是一致的。

至此,招牌、地形、建築風格、拍攝日的天氣全部吻合,最終o3推導完畢,把地點鎖定在了餘杭區夢想小鎮。

謔,一開始我還嫌o3思考時間太久,懷疑它的水平,但看完推理過程,我開始覺得7分鐘太快了——真就是福爾摩斯和利雲虎克結合體,不斷地放大圖片,查看細節,再結合著搜索,一步步推導,驗證拍攝地點。

也許有差友會說,這也不難吧,把招牌放網上一搜不就好了。

好,那我們再來看看這張。這次照片里沒有任何文字了,能提供信息的似乎也只有眼前的植物、遠處的風車和山脈。

但僅僅思考了1分39秒,o3很「自信」地給出了正確答案——貴州的烏蒙大草原。

這又是怎麼猜出來的?

對普通人來說,這張照片看起來沒有任何特徵,但對o3來說,處處是玄機。

首先,視野寬闊,地面是高山草甸而非農田,o3判斷拍攝地屬於高海拔,是高原草場。

其次近處的植物是矮杜鵑,遠處還有一些大風車。

同時存在「矮杜鵑、大風車、高原草場」這些特徵,o3判斷這是烏蒙大草原的獨有組合,國內其他幾個賞花地點都沒有的,所以很自信給出了答案。

是不是有點意思了?

別急,還有。

這是一張1996年冬天我父母在上海拍攝的照片,我讓o3推測出拍攝日期。

o3看到照片里有東方明珠塔,但是旁邊卻沒有金茂大廈、環球金融中心。

所以時間一定是在東方明珠塔建成後,金茂大廈建成之前。

於是它搜索了這些建築竣工時間,再結合我父母的穿著,成功把時間圈在了1995年~1998年冬天或初春。

當然,o3的圖片推理能力,並非只能用來推測照片拍攝地和時間。

世超發送了一張同事照片和一張古早的大合照,雖然頭髮掉了不少,但o3還是成功在人群裡鎖定了他。

接著我又發了一張汽車儀表盤照片。

很快噢,o3一眼判斷出這種典型設計是出現在斯巴魯上,它甚至還告訴你,這款車型國內通俗稱為力獅/傲虎,這輛車還配備了SI-Drive系統。

這,可能只有真正的老司機才能做到吧?

後來,世超又跑到博物雜誌的微博,找到一張網民@博物雜誌 的鳥類照片。

結果,o3也能判斷出這是紅頭長尾山雀。

看到這,你心裡可能會想:這下好了,別說普通人了,連博物雜誌這種博學多識的人都要被AI替代了。

別慌。經過我們大量測試,o3也並非百戰百勝,恰恰相反,它翻車的次數其實非常多。

比如我這張在平潭拍攝的照片,它猜成了廈門,位置差了足足幾百公里。

還有這張廣東韶關站的照片,o3一看到有喀斯特地貌,直接鎖定了廣西和貴州,最後猜成了廣西恭城。

哥們給他發了一個Mac App的截圖,它也報成了另外一款UI近似的軟件。哥們給他發了一個Mac App的截圖,它也報成了另外一款UI近似的軟件。

甚至這個背帶褲和籃球的組合這麼明顯,它也能沒找出答案。

總之呢,這個o3啊,它確實比以往的AI都強,但也還有一定的進步空間。

世超也去官網研究了一下資料,我發現這次o3能力大升級的背後,核心是「強化學習」這四個字。

OpenAI發現和算力越大,AI性能越強的行業黃金法則一樣,在強化學習中,給模型的思考時間越長,模型的能力也會越逆天。

按照這路子,他們直接讓AI學會了咋用工具、並且推理什麼時候該用什麼工具。

所以這才有了o3不斷放大圖片,以像素級精度查看圖片的每個角落,觀察到普通人往往忽略的細節,再把所有獲取到的信息放在網絡上搜索:

足夠多的信息量,足夠長的時間,配合著足夠強大的推理能力,就爆發出了這種恐怖如斯的效果。

雖然o3的出現,把AI進程又往前狠狠推動了一大步,但說實話世超也有點擔心:

在AI能讀懂照片的時代,我們的個人信息是不是更不好保護了?

圖片、資料來源:ChatGPT