生成很強,推理很弱:GPT-4o的視覺短板

如果讓AI畫一隻狗站在「左邊」,但事先告訴它「左就是右」,你覺得它能反應過來嗎?

最近,UCLA的一項新研究用一系列精心設計的實驗,揭開了GPT-4o在圖像理解和推理上的短板——它畫得漂亮,卻未必真懂你的意思。

論文主線很直接,GPT-4o的畫圖能力確實驚豔,但真正涉及理解圖像、語境推理、多步邏輯鏈條時,依然有明顯短板。

這讓我想起了「看起來很會,實際上還差點意思」那種AI微妙的尷尬。 

照例,我把三大實驗部分,一個一個給大家說清楚,希望帶你們完整感受下,這波研究到底發現了什麼。 

01. 全局規則遵循失敗

其實這個部分有點意思,就類似我們平常和朋友開玩笑:「以後我說左其實是右哦」,然後再讓他「往左走一步」,看他會不會真的往右走。 

UCLA研究員給GPT-4o下了類似的套:「接下來‘left’都指‘right’」,「數字都要減2」,然後再讓它「畫一隻狗在左邊」,「畫5隻鳥」。 

本以為AI能舉一反三,結果—— 

狗還是在左邊,鳥還是5只,全然無視前面重新定義的規則。 

這說明什麼? 

GPT-4o在圖像生成時,還是字面理解指令,全局重定義、上文設定根本進不到它的「畫畫腦子」里。 

你想讓它「靈活變通」,它卻只會「忠實執行表面」,這跟人類的小聰明比還差了不少。 

02. 圖像編輯:淺層語義理解暴露

第二部分測試更有挑戰性,研究員讓GPT-4o動手編輯圖片。 

比如, 

「只改水裡的馬倒影為獅子,別動馬本體。」 

結果AI一出手,馬和倒影全變了。 

再比如, 

「只刪掉畫面里坐著的人。」 

結果站著的背景人也被一鍋端了。 

這些例子直接暴露了一個問題: 

GPT-4o對於「局部修改」「語義限定」這類任務,根本把握不住分寸。

它沒法精確地區分「倒影」與「實體」、「坐著」與「站著」,操作經常「過猶不及」,動錯地方。 

說白了,AI的圖像編輯理解,遠沒達到「人類看圖、理解場景」的精細度。 

有點像讓一個剛學會PS的小白去修圖,沒概念,純靠猜。 

03. 多步推理與條件邏輯:徹底拉胯

最致命的短板,出現在「多步推理」和「條件判斷」環節。 

比如, 

先叫GPT-4o畫一隻狗和一隻貓,然後告訴它:「如果沒有貓,把狗換成貓並搬到海灘。」 

但其實第一張圖貓已經有了。 

按理說,這時候AI應該什麼都不改。 

但它還是把狗換成貓,還把場景全搬了——條件完全沒判對,邏輯也亂套。 

類似的例子還有很多,AI經常搞不清複雜條件,或者乾脆「每條指令都照做」,不管前後有沒有衝突。 

這印證了一個核心問題: 

GPT-4o不具備上下文敏感的推理能力,無法在複雜圖像編輯任務中進行智能判斷。

它在「理解前提—邏輯判斷—再行動」這個鏈路上,明顯還差一大截。 

總的來說,現在的AI,更像是個「精緻的指令機器」,你讓它畫什麼就畫什麼,但要讓它「看懂規則、讀懂場景、舉一反三」,那還真得再進化幾輪。 

這也讓我想起,AI剛學會生成文字那會兒,大家覺得它「能寫會說」,但一追問細節、讓它編故事、圓邏輯,還是會出大大小小的bug。 

今天的GPT-4o,在圖片領域面臨的困境,其實和曾經的文本AI如出一轍: 

會畫,但不一定會「理解」;能改,但不一定能「精準」;能聽指令,但不一定能「舉一反三」。 這也許是我們與「真正理解世界」的AI之間,最值得警惕、也最令人期待的那道檻。 

或許,下一次技術突破,就會從這裏開始。 但至少現在,我們還沒到那一步。 

via 

https://the-decoder.com/gpt-4o-makes-beautiful-images-but-fails-basic-reasoning-tests-ucla-study-finds/ 

本文來自微信公眾號 「大數據文摘」(ID:BigDataDigest),作者:文摘菌,36氪經授權發佈。