OpenAI 公布 o3 模型，成為五年來首個突破 ARC-AGI 基準的 AI 模型。

12月23日 15:59 TechRitual tech-auto-hilite

在「OpenAI 的 12 天公告」的最後一天，OpenAI 公布了最大的更新。OpenAI 宣佈推出 o3 和 o3-mini 推理模型，其中最引人注目的是 o3 成為歷史上第一個突破 ARC-AGI 基準的 AI 模型，打破了五年的不敗紀錄。

根據 OpenAI 的資料，在 ARC-AGI 半私有評估集上，o3 模型在使用高計算資源並給予更多思考時間的情況下，得分高達 87.5%。ARC 獎金的閾值設置在 85%，接近人類的普遍表現。值得一提的是，OpenAI 的 o1 模型僅能獲得 32% 的得分。ARC-AGI 的設計旨在測試 AI 模型的通用智能，重點在於解決新問題的能力，而非依賴記憶的模式。因此，o3 模型的出現，確實標誌著 OpenAI 在通用智能領域的歷史性突破，可能使 OpenAI 更接近實現 AGI（人工通用智能）——一種能夠匹敵或超越人類智能的 AI 系統。

除了 ARC-AGI，OpenAI 的 o3 在 SWE-bench Verified 中得分 71.7，在 Codeforces 中得分 2,727，在 AIME 2024 中得分 96.7，在 GPQA Diamond 中得分 87.7。這些測試均極具挑戰性，得分顯著高於 o1 的成績。最後，在 EpochAI Frontier Math 基準測試中，該測試需要專家數學家數小時解決問題，OpenAI o3 的準確率為 25.2，之前的最佳得分僅為 2.0。

關於 o3-mini 模型，OpenAI 表示這是一個從 o3 中提煉的模型，並針對編碼、快速性能和成本效益進行了優化。o3-mini 擁有三個計算設置：低、中和高。在中等設置下，o3-mini 的表現超過了更大型的 o1 模型，且成本較低，其延遲時間也低於 o1 模型。

至於為什麼稱為 o3 而不是 o2，OpenAI 解釋為了避免與英國移動網絡運營商 O2 的法律問題，因此決定跳過 o2。

最後，關於可用性，OpenAI 表示正在對 o3 和 o3-mini 模型進行安全測試。該公司還將開放 o3-mini 模型進行公共安全測試。OpenAI 計劃在 2025 年 1 月底之前發布 o3-mini 模型，隨後將在經過嚴格測試和監管機構批准後發布 o3 模型。

日本電話卡推介/台灣電話卡推介
更多儲值卡評測請即睇：SIM Card 大全
https://www.techritual.com/category/sim-card-review/

日本上網卡| 此文章《OpenAI 公布 o3 模型，成為五年來首個突破 ARC-AGI 基準的 AI 模型。》發佈於Techritual Hong Kong。