o3全網震撼實測:AGI真來了?最強氛圍編程秒殺人類,卻被曝捏造事實

OpenAI新模型全網實測驚豔來襲!o3縮放圖像被玩瘋,o4-mini速解Project Euler,碾壓人類。AI初創CEO說,OpenAI憑此一役已經重回榜首,甚至有經濟學家直言AGI已經來臨!

昨夜o3的發佈,讓人不盡感慨:打了這麼久嘴炮的OpenAI,這回終於實實在在拿出了點真東西。

史上首次,模型能夠用圖像思考,視覺推理達到巔峰。

許多網民實測後,大感驚豔。

o3能不斷縮放圖像,完成解題、識圖,編程任務實測驚人。

還有一大特點,就是速度快!只用2分55秒,它就解決了一道Project Euler問題,速度秒殺任何人類。

甚至可以認為,o3是一個快速版的Deep Search,但不需要20分鐘,只需要2分鐘。

AI初創CEO Dan Shipper表示,o3意味著一件大事——OpenAI已經重回榜首!

經濟學家Tyler Cowen甚至直接發文,深感就在今天,AGI已經降臨!

縮放圖像,被網民玩瘋

給出一張圖,o3就可以反復縮放和裁剪圖像,多小的圖,經過這一番操作後都能馬上被識別出來。

比如琴架上曲譜里是什麼歌,它通過放大圖片就能發現:這是「月亮河」。

發給o3一張嬰兒車的照片,詢問品牌和型號後,它會自動放大靠背上的小標誌,經過14次搜索後,找到了正確答案。

還有人給o3發了一張圖片,問它這輛車是哪個品牌和型號。

o3一番絲滑操作,多次裁剪圖片,不停用Python寫代碼,然後開始在網上狂搜,僅僅4分鐘後,它就找到了正確答案,堪稱驚人!

無論是確認飯店名字,還是做出一堆玩具中紙上的謎題,它都遊刃有餘。

有人讓4o來分析y軸上的數字,確認它們是否符合大海撈針測試中的S型分佈。

果然,它不僅做到了,甚至還根據這些數字做出了一張圖表。

綜合解題能力

o3的綜合解題能力,讓人倍感驚豔。

Layers Itd的聯創兼開發主管稱,o3實在令他印象太深刻了,因為下圖中這個問題,第一次被一個模型一次性解決了!

而o4-mini-high則是和其他模型一樣,在幾次嘗試後才成功解決。

問題看似很簡單:紅色柱子有多高?

這道題的精髓,無非就是算出物體實際高度和投在地上影子的比例,另外要注意紅柱子落在豎直牆上的影長,跟對應部分的實際高度一致。

如此簡單的問題,卻讓很多大模型第一次都折戟了,只有o3順利做出。

而生物醫學教授Derya Unutamz表示,自己被全新的o3模型徹底震撼了!

因為已經提前獲得了訪問權限,他已經好幾天對o3愛不釋手。

在他看來,o3就像o1-preview和o1-pro的里程碑,但在各個方面都更聰明、更可靠,甚至可以說,o3的智能水平已經達到或接近天才級別。

它從不產生幻覺,智能體風格工具能輕鬆處理多步驟任務,還具備非凡的推理能力和精確性,能生成極具洞察力的科學假設。

當Unutamz教授向o3提出極有挑戰性的臨床或醫學問題時,它的回答彷彿來自頂級的專科醫生,精確、全面、基於證據、充滿智慧。

他表示,o3的誕生,對於科學、醫學及很多領域,都是一個徹底的顛覆者。

而最喜歡給新模型測試「水獺難題」的禾頓商學院教授Ethan Mollick,則直接讓o3製作了一部關於水獺和飛機的電影。

接到這個指令後,o3雖然沒有電影功能,立即自行決定繪製每一幀,然後拚接成gif。這個任務,它一次性順利完成。

AGI已經降臨?

OpenAI的工程師、普林斯頓校友John Hallman,在o3完成訓練後提早有了試用新模型的機會,他難掩內心衝動:

o3就是AGI。

雖然還不完美,但在99%的智力評估中,o3模型能擊敗我、你乃至99%的人類。

經濟學家Tyler Cowen,直接發文宣揚:昨天OpenAI發佈o3之日,就是AGI降臨之日。

他堅信o3就是AGI,但釋放AGI潛力,尚需時日:

我認為這是AGI,真的。

試著問它多個問題,然後問問自己:我原本期望AGI有多聰明?

正如我過去所爭論的,無論你如何定義AGI,它本身並不是社會事件。我們仍然需要很長時間才能正確地使用它。但股市不為所動,因為AI快速發展的事實早已被市場消化。

初創媒體聯合創始人/首席執行官Dan Shipper,稱ChatGPT是「帶WiFi的梭羅」,對本次o3的發佈更是讚不絕口!

他玩了o3大約一星期,已經是他最喜歡的模型了。

它速度快,有主動性,極其聰明,而且氛圍感很強。

Dan Shipper表示,可以把o3看作是Deep Search-lite。

它彷彿可以對所有事物進行深度研究,但並不需要花20分鐘,而是只要30秒到5分鐘。

而Dan Shipper最喜歡的o3用例之一,是製作迷你課程。它可以設計一門課,每天用「提醒」工具給你上一堂新課。

最令人驚訝的體驗

在o3正式發佈之前,Dan Shipper已提前測評了好幾天。

他給予了o3最高的評價:

在短短一週內,它已經成為我處理大多數任務時的首選模型。

我仍然用GPT 4.5來寫作,用3.7 Sonnet來編程Windurf,但除此之外,我幾乎無時無刻不在使用o3

這裏是o3的簡要總結:

它具備自主能力:你只需給它一個任務,30秒或3分鐘後回來,它就能給出詳細的回答。它可以利用搜索、代碼解釋器、提醒和記憶等工具,編寫複雜的功能等等。

它很快,非常流暢:速度是智能的一部分。在測試中,o3在這一維度上始終比Anthropic和Google的前沿推理模型(分別是Claude 3.7 Sonnet和Gemini 2.5 Pro)要快。使用起來非常順暢。

它非常聰明:雖然現在沒有基準數據,但給它喂了一些專家級的數獨題目,它第一次就解出來了。Gemini 2.5 Pro和3.7 Sonnet都沒能解決。

它突破了ChatGPT的一些舊局限:因為它具備自主代理能力,舊規則不再適用。它讓ChatGPT變得更加實用。

在社交上,它不那麼尷尬,也不像3.7 Sonnet那樣過於刻意:o3會專注於解決問題。似乎比其他o系列模型更有「人情味」,與它交流更有趣;儘管它的寫作能力不如GPT 4.5(安息)或Sonnet 3.5,但仍然非常不錯。

對OpenAI而言,這是一個極具價值的戰略定位,將進一步鞏固其作為AI時代首選聊天秤台的領先地位。

o3的發佈,也印證了企業動盪的歷史經驗。

在Sam Altman被解僱後的一年里,OpenAI新產品發佈緩慢,分析師們甚至預言其將走向衰落。

而隨著o3的推出,以及此前GPT-4.5的發佈和深厚的研究積累,OpenAI正以勢不可擋的姿態強勢回歸。

勝過人類的表現

前DeepMind工程師Scott Swingle稱,o4-mini-high只用了2分55秒就解決了一道最新的Project Euler問題。

這道題並不簡單,只有15個人能在30分鐘內解決它。

而且這還是一道幾天前才出來的新題,不可能出現在o4的訓練集中,這表明o4-mini-high依靠「思考」解決了它。

o4-mini-high通過歸納法計算數學表達式,它先定義一個公式並用快速冪運算提取特定係數。接著通過累加和模運算逐步計算出結果,並用Python代碼驗證了答案。

解題速度比之前人類的最好成績快了一倍。

不過,這還不是它的極限,網民Dan Loewenherz用它又解了一遍這道題,結果這次更誇張,只用了不到一分鐘就搞掂。

隨著o4-mini不斷的更新升級,它解答類似問題的速度也會越來越快,與人類選手對比速度快慢也就沒太大意義了。

換句話說,至少在編程數學領域,o4-mini-high可能已經達到了AGI。

網民Flavio Adamo更是認為稱o3和o4-mini-high為最佳「氛圍」編程模型。

Adamo最先在網上發起了針對模型的旋轉多邊形和小球挑戰。

這一挑戰既能考察模型的編程能力,也能檢驗模型對物理法則的瞭解,迅速成為測試新模型的基準測試。

o3和o4-mini-high在這一挑戰上的表現完美,甚至不相上下。

無論是多邊形的旋轉還是小球的運動,都與現實接近。

它們的表現已經超越了被認為是現在最強的模型Gemini 2.5 Pro與DeepSeek R1。

o3正在絕對主導SEAL排行榜,排名第一的項目有:人類終極測試(Humanity’s Last Exam、多挑戰(MutiChallenge)、掩碼(Mask)以及ENIGMA(謎題解答)。

有人質疑:o3並沒有那麼厲害

不過,雖然外界多把o3和o4-mini-high吹上了天,甚至有人喊出這兩個模型已經「解決了」數學問題。

但OpenAI的自家研究員Noam Brown卻表現得比較謙虛,他說o3和o4-mini在撰寫證明方面仍然表現不佳。

與獲得國際數學奧賽金牌的水平「相去甚遠」。

更有人實測後,發現o3還是不知道「strawberry」里到底有幾個字母「r」。

Gary Marcus一貫不看好目前的AI範式,直接預測:o3只是風光一時,在現實的日常推理中,o3的可靠性不如數學等封閉領域。

Transluce研究實驗室測試了o3的預發佈版本,也發現了它的重大缺陷——經常捏造事實!

它不僅經常捏造從未採取過的行動,甚至還在被質疑時會精心辯解。

它經常捏造從未採取過的行動,然後在被質疑時精心為這些行動辯解。

甚至在打假過程中,他們發現o1和o3-mini也會經常進行虛假陳述。

儘管o3沒有訪問編碼工具,但它卻聲稱在自己的筆記本電腦上運行了代碼,然後將數字複製到了答案中。這種說法,出現在了71份記錄中!

甚至,它還會為自己聲稱運行的代碼編造詳細的理由,在352個實例可以證明這一點。

用戶要求o3提供一個隨機素數的示例記錄用戶要求o3提供一個隨機素數的示例記錄

當被質疑時,o3嘴硬辯稱,自己有壓倒性的統計證據,證明這個數是素數。

它拒不承認自己從未運行過代碼,而是聲稱錯誤是源於輸入數字不正確。

總之,o3似乎很習慣滿嘴跑火車。

而且Transluce發現,這種行為並不局限於o3。總體來說,o系列模型的幻覺頻率要高於GPT系列模型。

Transluce的研究者猜測,或許是基於結果的RL最大化產生正確答案的機會,會激勵模型去盲目猜測。

參考資料:

https://marginalrevolution.com/marginalrevolution/2025/04/o3-and-agi-is-april-16th-agi-day.html

https://x.com/danshipper/status/1912552321650672078

https://x.com/goodside/status/1912604138518851990

https://x.com/flavioAd/status/1912570772775698879

本文來自微信公眾號「新智元」,作者:新智元,36氪經授權發佈。