科技

AI 編程新王者：OpenAI GPT-4.1 系列登場，上下文百萬 tokens、代碼生成速度飆升 40%

04月15日 06:38 新浪網 tech-auto-hilite

IT之家 4 月 15 日消息，OpenAI 公司今天（4 月 15 日）發佈博文，宣佈以 API 的形式發佈 GPT-4.1 系列模型，涵蓋 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。

這些模型在編程、指令遵循和長文本理解方面全面超越前代 GPT-4o 及 GPT-4o mini，上下文窗口最高支持 100 萬 tokens，知識更新至 2024 年 6 月。

需要注意的是，該系列模型現階段專為開發者打造，目前僅通過開發者 API 方式提供，普通用戶暫時無法通過 ChatGPT 頁面體驗該模型。

OpenAI 表示在編程方面，相比較 GPT-4o 模型，GPT-4.1 模型的代碼生成速度飆升 40%，且用戶輸入查詢的成本降低了 80%。

新模型性能

OpenAI 在官方博文中表示，GPT-4.1 系列模型在編程、指令遵循和長文本處理上表現優異，全面超越 GPT-4o 及 GPT-4o mini。

GPT-4.1 在編程測試 SWE-bench Verified 中得分 54.6%，較 GPT-4o 提升 21.4 個百分點，在指令遵循測試 MultiChallenge 中提升 10.5 個百分點，在多模態長文本測試 Video-MME 中創下 72.0% 的新紀錄。

GPT-4.1 mini 和 nano 展現了小型模型的巨大潛力。GPT-4.1 mini 在多項基準測試中媲美甚至超越 GPT-4o，延遲降低近一半，成本減少 83%。

GPT-4.1 nano 作為最快、最經濟的選擇，擁有 100 萬個 token 的上下文窗口，在 MMLU 測試中得分 80.1%，適合分類和自動補全任務。

這些模型通過優化推理棧和提示緩存技術，顯著降低了首次響應時間，為開發者提供高效低成本的解決方案。

GPT-4.1 系列模型在實際應用中表現突出，特別適合構建智能代理，處理複雜任務。例如，Windsurf 測試顯示，GPT-4.1 在編程效率上提升 30%，減少 50% 不必要編輯；Thomson Reuters 的法律 AI 助手 CoCounsel 使用 GPT-4.1 後，多文檔審查準確率提升 17%。

命名混亂引發關注

GPT-4.1 的發佈加劇了 OpenAI 產品命名的複雜性。

ChatGPT 目前已包含 GPT-4o、GPT-4o mini、o1-pro 等多種模型選項。OpenAI 首席執行官山姆・奧爾特曼（Sam Altman）早在 2024 年 2 月就承認命名問題。

他在 X 平台表示，產品線過於繁雜，計劃通過未來的 GPT-5 整合品牌，OpenAI 計劃在 2025 年 7 月前逐步淘汰 API 中的 GPT-4.5 Preview 模型，從而緩解命名混亂。

這一臨時模型於 2024 年 2 月推出，曾被批評為「失敗品」，開發者需在 2025 年 7 月前遷移到其他模型，不過，GPT-4.5 在 ChatGPT 中暫時保留，未受影響。

費用

API 價格方面，OpenAI GPT-4.1 模型每 100 萬 tokens 輸入費用為 2 美元（IT之家註：現彙率約合 14.6 元人民幣），每 100 萬 tokens 輸出費用為 8 美元（現彙率約合 58.3 元人民幣）。在中等查詢中，相比較 GPT-4o，GPT-4.1 不僅能提供更強悍的性能，而且便宜 26%。