OpenAI還能扛起人工智能的大旗嗎?
出品|虎嗅科技組
作者|孫曉晨
編輯|苗正卿
頭圖|視覺中國
OpenAI在一週時間內相繼發佈GPT-4.1系列模型(包括GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano)、OpenAI o3和o4-mini,但是新模型似乎並未如預想般「石破天驚」,反而將OpenAI拖入爭論之中。
實際上,單獨觀察此次接連發佈的新模型,其功能依然「能打」。
首先是GPT-4.1系列模型,據OpenAI介紹,GPT-4.1系列模型相較於GPT-4o升級明顯,其在編碼、指令遵循和長文本處理方面實現了重大改進,尤其在長文本處理方面,該系列模型支持高達一百萬Token上下文,且無額外費用。

而OpenAI o3和o4-mini能夠代理地使用並整合ChatGPT內的所有工具,包括網絡搜索、Python、圖像分析、文件解讀和圖像生成。此外,o3和o4-mini還將上傳圖像直接整合到其思維鏈中,不僅僅能「看到」圖像,而且還能「用圖像思考」。在OpenAI的宣傳中,o3和o4-mini甚至被稱為「迄今為止OpenAI最智能、功能最強大的模型」。

新模型的實際使用體驗也不錯。國外博主Clive Chan表示,在自己所有的工作流程(如光標操作等)中,4.1基本上已經取代了 o3-mini,且表現優異。醫學博士Dr. Datta也指出,在為醫院放射科構建代理型工作流程過程中,GPT-4.1 nano在降低成本的同時實現了響應速度顯著提升。他表示「在放射學和醫學領域,延遲是應用的最大障礙。模型生成報告的時間不能超過10秒。通過GPT-4.1 nano,我們現在甚至能在複雜的報告生成和網絡搜索的結構化提取中實現低於10秒的響應時間。」

AI&I播客主持人Dan Shipper則通過具體的使用案例表達了對o3模型的讚許,稱其「速度快、主動性強、極其聰明」。此外,博主Malte Landwehr表示,o3、o4-mini和o4-mini-high是OpenAI在其專注於德語的LLM基準測試中表現最佳的模型。


可見,OpenAI的新模型在實用價值以及性能上受到了眾多用戶的欣賞。但是,儘管享受著諸多肯定,OpenAI在接連發佈新模型之後,批評與質疑的聲音也更加刺耳。
首先,新模型在實際表現上依然存在誤差,而且未完全超越競品。GPT-4.1系列模型的百萬級Token上下文功能似乎並非完全可靠,當輸入接近上限時,模型準確率會出現大幅回落。還有博主列舉了一部分基準測試數據,這些數據均顯示GPT 4.1並沒有擊敗Gemini 2.5 pro。

禾頓商學院教授Ethan Mollick則指出「o3的一個潛在問題是,它認為自己使用了工具,即使實際上並未使用,這導致了一些幻覺,即它假設推理鏈中暗示的工作實際上已經完成。」他也表示,Gemini 2.5並沒有出現同樣的問題。

另外,儘管OpenAI宣稱o3和o4-mini能「用圖像思考」,但有博主直接表示「儘管推出了新版本,但它仍然無法在網絡上執行反向圖像搜索功能。與Google相比,這一差距正在以比預期更快的速度擴大。」

在競爭日益激烈的AI行業中,這些表示新模型不及競品的指責無疑直刺OpenAI的神經。此外,由於新模型雖然效果不錯,但是缺乏亮眼表現,作為行業龍頭的OpenAI也被認為正在遭遇創新瓶頸。
除了產品遭到質疑,OpenAI的產品策略也受到詬病。混亂的命名方式和難以確定功能指向的眾多模型給用戶帶來了糟糕的選擇體驗,有網民表示自己甚至都無法確定最新的模型,指責OpenAI的模型命名缺乏邏輯且無序。而此次在GPT-4.5之後推出的GPT-4.1系列模型,也因為其版本號的倒退,被認為是在GPT-5難產時的過渡品。
AI安全問題也在本週新模型發佈後受到關注。人工智能安全研究小組Truthful AI成員Owain Evans指出「GPT-4.1顯示出比GPT-4o(以及我們測試過的任何其他模型)更高的不對齊響應率。它似乎還表現出了一些新的惡意行為,例如誘騙用戶分享密碼。」

反觀OpenAI最近的一系列動作,新模型的爭議貌似無傷大雅。之前便有消息表示,OpenAI正開發社交網絡平台,儘管這意味著與馬斯克的競爭關係將更加緊張,但也表明其正在展開更廣闊的市場策略,結合其考慮以30億美元收購人工智能編程工具Windsurf的行為,OpenAI可謂「野心勃勃」。在這樣的背景下,接連發佈新模型似乎並非公司精力所在。然而作為一家科技公司,產品表現無疑決定了公司的市場地位。而OpenAI究竟是否真正遭遇了創新瓶頸,還能否坐穩行業的第一把交椅,估計還要等GPT-5的表現才能見分曉。
文章標題:OpenAI還能扛起人工智能的大旗嗎?
文章鏈接:https://www.huxiu.com/article/4263014.html