OpenAI 公布 o3 模型,成為五年來首個突破 ARC-AGI 基準的 AI 模型。
在「OpenAI 的 12 天公告」的最後一天,OpenAI 公布了最大的更新。OpenAI 宣佈推出 o3 和 o3-mini 推理模型,其中最引人注目的是 o3 成為歷史上第一個突破 ARC-AGI 基準的 AI 模型,打破了五年的不敗紀錄。
根據 OpenAI 的資料,在 ARC-AGI 半私有評估集上,o3 模型在使用高計算資源並給予更多思考時間的情況下,得分高達 87.5%。ARC 獎金的閾值設置在 85%,接近人類的普遍表現。值得一提的是,OpenAI 的 o1 模型僅能獲得 32% 的得分。ARC-AGI 的設計旨在測試 AI 模型的通用智能,重點在於解決新問題的能力,而非依賴記憶的模式。因此,o3 模型的出現,確實標誌著 OpenAI 在通用智能領域的歷史性突破,可能使 OpenAI 更接近實現 AGI(人工通用智能)——一種能夠匹敵或超越人類智能的 AI 系統。
除了 ARC-AGI,OpenAI 的 o3 在 SWE-bench Verified 中得分 71.7,在 Codeforces 中得分 2,727,在 AIME 2024 中得分 96.7,在 GPQA Diamond 中得分 87.7。這些測試均極具挑戰性,得分顯著高於 o1 的成績。最後,在 EpochAI Frontier Math 基準測試中,該測試需要專家數學家數小時解決問題,OpenAI o3 的準確率為 25.2,之前的最佳得分僅為 2.0。
關於 o3-mini 模型,OpenAI 表示這是一個從 o3 中提煉的模型,並針對編碼、快速性能和成本效益進行了優化。o3-mini 擁有三個計算設置:低、中和高。在中等設置下,o3-mini 的表現超過了更大型的 o1 模型,且成本較低,其延遲時間也低於 o1 模型。
至於為什麼稱為 o3 而不是 o2,OpenAI 解釋為了避免與英國移動網絡運營商 O2 的法律問題,因此決定跳過 o2。
最後,關於可用性,OpenAI 表示正在對 o3 和 o3-mini 模型進行安全測試。該公司還將開放 o3-mini 模型進行公共安全測試。OpenAI 計劃在 2025 年 1 月底之前發布 o3-mini 模型,隨後將在經過嚴格測試和監管機構批准後發布 o3 模型。
日本電話卡推介/台灣電話卡推介
更多儲值卡評測請即睇:SIM Card 大全
https://www.techritual.com/category/sim-card-review/
日本上網卡| 此文章《OpenAI 公布 o3 模型,成為五年來首個突破 ARC-AGI 基準的 AI 模型。》發佈於Techritual Hong Kong。