GPT-4.1全網實測來襲，慘遭GoogleGemini碾壓，大佬猜測：從GPT-4.5蒸餾的

04月15日 19:43 新浪網 tech-auto-hilite

兩個月後就號稱要淘汰GPT-4.5的GPT-4.1，實力究竟如何？在眾多實測中，它的表現的確可圈可點，但卻依然打不過Gemini 2.5 Pro和Claude 3.7 Sonnet。那麼問題來了，OpenAI為何要發佈一個遠遠落後於Google的模型？

不過兩月，GPT-4.5正式出局，前浪把後浪拍在了沙灘上。

GPT-4.1家族的出世，以更強編碼性能，百萬token上下文，更具性價比的價格，直接擊穿了4.5。

nano版的GPT-4.1性能足以媲美GPT-4o mini，而且速度更快，價格更便宜。

這些模型目前僅在API中提供，不過目前爆火編碼平台Windsurf、Cursor開啟了福利大放送，七天免費體驗GPT-4.1。

這不，全網首波實測已經來了。

GPT-4.1編碼驚豔，卻打不過Gemini 2.5

這款以超強編碼著稱的模型，在實際任務表現中又如何呢？

OpenAI科學家表示，GPT-4.1是不是推理模型，卻可以在軟件工程基準測試中拿下55%高分

OpenAI科學家表示，GPT-4.1是不是推理模型，卻可以在軟件工程基準測試中拿下55%高分

網民Flavio Adamo用同一個提示——讓小球在旋轉的六邊形中模擬自由落體，測試了GPT-4.1三款模型和GPT-4.5的編碼表現。

不難看出，GPT-4.1精準模擬了小球物理運動過程，GPT-4.1-mini/GPT-4.1-nano卻差了很多意思。

GPT-4.5的實力幾乎不輸GPT-4.1。

另一個類似的測試中，讓GPT-4.1挑戰旋轉正方形，模擬出球體在正方形內真實彈跳的效果。

Kaggle開發者Parul Pandey表示，用GPT-4.1創建用於教育物理模擬的過程非常有趣。

如下，用小球擊倒金字塔代碼生成過程中，模型讀取很少的不必要的文件，代碼結構也非常簡潔。

另一位工程師通過Windsurf讓GPT-4.1在30秒內，便生成了一個貪吃蛇的遊戲。

微軟研究員Dimitris Papailiopoulos分別用GPT-4.1、GPT-4o、GPT-4.5去畫獨角獸，推測出4.1要比4o參數量小。

有一說一，GPT-4.1生成的獨角獸是當中最醜的那個。

禾頓商學院教授Ethan Mollick用GPT-4.1去生成飛船控製麵板的p5js。他表示，相較於GPT-4，4.1進步非常大，整體上表現出色。

而且，Ethan表示GPT-4.1是第四款可以在twigl中首次運行著色器的模型。

網民讓GPT-4.1和Gemini 2.5 Pro去模擬一個霓虹燈照亮的賽博朋克城市夜景，4.1模型在這個案例中還是比Google模型強不少。

以上demo中，不難看出GPT-4.1的編碼性能確實非常驚豔，但從宏觀來看，仍不如Gemini 2.5 Pro、Claude 3.7 Sonnet。

Aider多語言編碼最新測試中，GPT-4.1得分為52.4%，接近Grok 3和DeepSeek V3。成本相較於o3-mini也降了一半。

網民對此「抽水」到，GPT-4.1編程不如DeepSeek V3，但價格卻貴了8倍。

同樣，在最新Livebench基準評估中，也同樣印證了GPT-4.1推理、編碼、數學實力比Gemini 2.5差。

Abacus.AI創始人Bindu Reddy表示，4.1性能在GPT-4o之上，但Livebench結果表明，新模型只是對4o的一個增量更新。

哈佛科學家Pierre Bongrand更是一針見血地指出，OpenAI首次在Google之後發佈了一個遠遠落後的模型。

在GPQA Diamond知識問答基準測試中，GPT-4.1系家族未達到人類博士級水平，更別提超越Gemini 2.5 Pro了。

網民一張惡搞圖戲稱，在OpenAI發佈GPT-4和GPT-4.1期間，Google便將Bard進化到最強Gemini 2.5版本。

今年的AI大戰中，顯然是OpenAI與Google硬碰硬的終極較量。

Google包圍圈已成，OpenAI依然不可小覷

隨著GPT-4.1的發佈，Ai2後訓練負責人Nathan Lambert也在第一時間發了一篇分析文章。

他表示，雖然GPT-4.1是一個小版本的更新，但這讓人們更清楚地認識到，驅動著最佳API業務的，是非常不同的模型。

如今，OpenAI正在用GPT-4.1，將API和ChatGPT分離。

它的模型正在優化每一美元的智能，我們以後還將繼續看到，ChatGPT的處理方式和API業務的不同。

最近，OpenAI 一直在進行各種小幅更新，而他們最終的願景，就是將ChatGPT打造成一個獨立於其API的單體應用。

上週，ChatGPT的記憶功能得到了改進。

今天，OpenAI又宣佈了一套僅限API的模型GPT-4.1，直接跟Google的Gemini形成了競爭。

單獨來看，其實最近的發佈都沒有什麼顛覆性的前沿突破，畢竟性能相當的模型，已經存在了。

不過，從這些更新中，卻可以看出OpenAI的戰略重心走向。

如今，它的周活躍用戶已經破了19億，此時，它需要的是ChatGPT及背後模型，與市場上任何其他AI產品都截然不同。

其他產品的中心，主要都是編碼或信息處理，與它們不同，ChatGPT則格外注重個性、氛圍感和娛樂性。

體現這一點的一個經典例子，就是GPT-4.5連同它的高昂定價一起，正從API中被棄用，不過仍會保留在ChatGPT中。

即將發佈的o3、o4或開放模型，目前還讓人看不清OpenAI的宏觀戰略方向。

從下圖可以看出，OpenAI傳遞的核心信息很簡單——提供性能更好、推理速度更快的模型。

以下是新的OpenAI模型與GoogleGemini每百萬Token的價格對比（單位為美元）。

OpenAI新模型:

GPT-4.1：輸入/輸出：2.00/8.00 | 緩存輸入：0.50

GPT-4.1 Mini：輸入/輸出：0.40/1.60 | 緩存輸入：0.10

GPT-4.1 Nano：輸入/輸出：0.10/0.40 | 緩存輸入：0.025

OpenAI舊模型:

GPT-4o：輸入/輸出：2.5/10.00 | 緩存輸入：$1.25

GPT-4o Mini：輸入/輸出：0.15/0.60 | 緩存輸入：$0.075

GoogleGemini:

Gemini 2.5 Pro （≤200K Tokens）：輸入/輸出：1.25/10.00 | 緩存：不可用

Gemini 2.5 Pro （>200K Tokens）：輸入/輸出：2.50/15.00 | 緩存：不可用

Gemini 2.0 Flash：輸入/輸出：0.10/0.40 | 緩存輸入：0.025（文本/圖像/影片），0.175 （音頻）

Gemini 2.0 Flash-Lite：輸入/輸出：0.075/0.30 | 緩存：不可用

雖然OpenAI的模型學術評估結果表現強勁，但這並未完全反映它們的實際情況。畢竟在實踐中，它們需要執行的是重覆性的小眾任務。

顯然，這些新模型是用來直接對標Gemini Flash和Flash-Lite的（在 Gemini 2.5 Pro驚豔發佈之後，備受期待的Gemini 2.5 Flash也即將面世）。

相比之下，GPT-4o-mini的性能已經落後，且不如Flash好用。

想在API業務上取得成功，OpenAI就需要在Gemini已經佔據優勢的這個前沿領域實現突破。

都是從GPT-4.5蒸餾來的？

很多人已經發現了：在OpenAI的官方宣傳中，這些新模型的發佈模式如出一轍——有廣泛改進，卻很少解釋具體原因。

所以幾乎可以肯定，這些五花八門的新模型，都是為了獲得更好的個性和推理能力，從GPT-4.5蒸餾而來的。

或者是在編碼和數學上，借鑒了像o3這樣的模型。

可以看出，新模型在代碼上已經取得了重大進步，要知道，曾經OpenAI早期的模型在這方面曾經差得離譜，幾乎掛0。

不過，在編碼和數學的評估上，這些新模型仍然明顯落後於Gemini 2.5（推理模型）或 Claude 3.7（可選推理模型）這樣的頂尖模型。

如今，我們正處於模型向包含推理轉變的早期階段，但究竟什麼是單一的最佳模型，這個概念已經變得更為複雜了。

這些推理模型會通過消耗遠多於以往的Token，來實現性能的大幅提升。性能固然是王道，但若性能相當，則是成本更低者勝出。

但正選優勢仍難以撼動

但說到底，對大多數普通用戶來說，上面這些技術細節其實意義不大。

對他們來說，那個被戲稱為「模型投入度」的、令人頭疼的滑塊反而更直觀——

長期以來，相對於API的價格，很多人對聊天機器人的訂閱費會更感到猶豫。

但顯然，一個日漸清晰的現實就是，真正個性化的、受用戶喜愛的體驗，往往只存在於這些集成的應用程序中。

當然，開發者也可以通過API構建競品，積累用戶交互數據，但鑒於 OpenAI在產品層面已經建立起了巨大的正選優勢，想要勝過OpenAI，恐怕沒那麼容易。

所有這些，都再次印證了我們的認知：產品化，是當前AI發展的重中之重。

記憶功能，以及將ChatGPT這條產品線與API服務進行更清晰的切割，都有助於OpenAI鋪平未來的發展道路。

但要完全實現這一願景，OpenAI前方仍有很長的路要走。

參考資料：

https://x.com/bindureddy/status/1911865521504747563

https://x.com/paulgauthier/status/1911927464844304591

https://x.com/flavioAd/status/1911848067470598608

本文來自微信公眾號「新智元」，作者：新智元，36氪經授權發佈。