OpenAI回應一切，承認閉源策略「站在了歷史錯誤的一邊」

香港時間2月1日淩晨，OpenAI正式發佈o3-mini，這是OpenAI推理系列中最新、最具成本效益的模型，已在ChatGPT和API中開放使用。

這可以看作OpenAI對過去一週多風靡美國市場的DeepSeek的回應。

在o3 mini發佈的同時，OpenAI高管團隊還在Reddit上舉辦了一場線上的AMA（ask me anything），回答有關o3 mini以及AI發展相關的一切問題。

在被問及是否會考慮發佈一些模型權重以及一些研究時，OpenAI首席執行官Sam Altman首次承認：「我個人認為，我們在這裏站在了歷史的錯誤一邊，需要找出一個不同的開源策略。OpenAI中並非所有人都認同這一觀點，這也不是我們當前的最高優先事項。」

此外，OpenAI高管團隊還討論了o3 mini的功能、價格以及其他產品更新、算力等相關的話題。

可以說，如果沒有DeepSeek，OpenAI不會這麼快做出回應，無論是模型還是言論。

一、OpenAI首次將推理模型開放給免費用戶

本次發佈的o3-mini在2024年12月發佈了預覽版本，是OpenAI首個支持高度請求的開發者功能的小型推理模型，包括函數調用、結構化輸出和開發者消息。o3-mini將支持流式傳輸，開發者還可以在三種推理努力選項——低、中、高——之間進行選擇，以優化其特定用例。這種靈活性使得o3-mini在解決複雜挑戰時可以「更努力地思考」，或者在延遲是關鍵問題時優先考慮速度。但是o3-mini不支持視覺能力，因此開發者應繼續使用OpenAI o1進行視覺推理任務。

OpenAI表示o3-mini突破了小型模型所能實現的界限，提供了卓越的STEM（Science、Technology、Engineering、Mathematics）功能，尤其擅長科學、數學和編碼，同時保持了o1-mini的低成本和低延遲。專家測試人員的評估表明，與OpenAI o1-mini相比，o3-mini的答案更準確、更清晰，推理能力更強。

OpenAI表示，測試人員在56%的時間里更喜歡o3-mini的回答，並觀察到在困難的現實問題上重大錯誤減少了39%。在中等推理努力下，o3-mini在一些最具挑戰性的推理和智力評估（包括AIME和GPQA）上的表現與o1相當。

o3 mini在數學競賽AIME 2024的成績表現，圖片來自OpenAI

價格層面，OpenAI提供了不同的套餐設置：Pro用戶將可以無限制訪問o3-mini，而Plus和Team用戶將擁有三倍的速率限制（與o1-mini相比）；免費用戶可以通過選擇消息編寫器下方的「Reason」按鈕在ChatGPT中嘗試o3-mini。

這是OpenAI首次將推理模型開放給免費用戶，此前發佈的o1模型只有ChatGPT plus會員可以使用。而免費開放的原因其實也很顯然，那就是被DeepSeek免費且開源的R1給捲到了。

不過，ChatGPT plus會員會享有更高版本的模型「o3-mini-high」，它會思考得更深入，並給出更好的答案。

作為此次升級的一部分，OpenAI將Plus和Team用戶的速率限制從每天50條消息（使用o1-mini）提高到每天150條消息（使用o3-mini）。此外，o3-mini現在可以與搜索功能配合使用，以查找最新的答案並鏈接到相關的網絡資源。這是OpenAI將搜索功能整合到推理模型中的早期原型。

在安全層面，OpenAI用來教o3-mini安全響應的關鍵技術之一是審慎對齊，即在回答用戶提示之前，訓練模型推理人類編寫的安全規範。與OpenAI o1類似，o3-mini在具有挑戰性的安全性和越獄評估方面明顯超越了GPT-4o。在部署之前，OpenAI表示仔細評估了o3-mini的安全風險，採用了與o1相同的準備、外部紅隊和安全評估方法。

二、OpenAI團隊回答一切‍

OpenAI高管團隊在Reddit上舉辦了一場線上的AMA（ask me anything），回答有關o3 mini以及AI發展相關的一切問題。

參與本次活動的共6人，包括首席執行官Sam Altman、首席研究官Mark Chen、首席產品官Kevin Weil、工程副總裁Srinivas Narayanan、API研究主管Michelle Pokrass、研究主管Hongyu Ren。

首先是大家最關心的關於DeepSeek的焦點問題。

有用戶表示顯然這是一個非常令人印象深刻的模型，這會如何改變OpenAI對未來模型的計劃？

Sam Altman此前對於DeepSeek評價很高，這次也給出了類似的評價。他回覆稱：「這是一個非常好的模型！我們將生產出更好的模型，但領先優勢將比前幾年有所減弱。」

鑒於DeepSeek在開源領域取得的成功，有人問OpenAI是否考慮發佈一些模型權重併發表一些研究？

Sam Altman對此回應稱：「是的，我們正在討論。我個人認為，我們在這裏站在了歷史的錯誤一邊，需要找出一個不同的開源策略；OpenAI中並非所有人都認同這一觀點，這也不是我們當前的最高優先事項。」

這似乎是Sam Altman首次正面承認OpenAI的閉源「是一個錯誤」。但OpenAI是否會真正開源？這恐怕將是一個艱難的選擇。

第二個集中話題是關於o3 mini的產品功能。

首先是價格問題。有人對比發現，o3 mini的價格與Deepseek和Gemini相比仍然沒有競爭力。比如，在百萬tokens規模下，Deepseek R1的API輸入價格（緩存命中）為0.14美元，輸出價格為2.19美元，而o3 mini的輸入價格為0.55美元，輸出價格為4.40美元。

DeepSeekAPI價格，deepseek-chat指的是DeepSeek-V3.，deepseek-reasoner指的是DeepSeek-R1，圖片來自DeepSeek官網

O系列推理模型價格，圖片來自OpenAI官網

OpenAI API研究主管Michelle Pokrass對此回應：「我們發現o3-mini與美國託管的Deepseek版本相比具有競爭力。我們認為對於這種級別的智能來說，這是一個真正實惠的選擇。」

OpenAI會計劃提高plus會員的價格嗎？Sam Altman回應稱：「實際上我想隨著時間的推移減少它。」

大模型推理成本的下降是一個必然趨勢。OpenAI在發佈o3 mini時表示，該模型延續了其降低智能成本的記錄——自推出GPT-4以來，每個token的價格降低了95%——同時保持了頂級的推理能力。

針對o3 mini的價格，OpenAI製定了不同的套餐模式。有人問，為什麼當plus用戶擁有大量o3-mini-high限額時，訂閱PRO版本仍然值得？

Sam Altman回應稱，如果你認為o1 pro還算值得，那麼你應該認為o3 pro超級值得。

工程副總裁Srinivas Narayanan進一步解釋：「我們現在有o1專業模式，還有操作員模式。我們可能會繼續有更多方法使用更多計算來解決專業級的難題。是的，專業用戶喜歡無速率限制。」

其次是思維鏈的展示問題。o3 mini並不像DeepSeek R1那樣給出非常詳細的思維鏈過程，而是非常簡潔。

o3 mini的思維鏈展示

DeepSeek R1的思維鏈展示

於是有用戶提問，我們能看看所有的思考標記嗎？

首席產品官Kevin Weil回覆稱：「我們正在努力展示比今天更多的內容——很快就會實現。所有內容都有待確定，展示所有CoT會導致競爭性提煉，但我們也知道人們（至少是高級用戶）想要它，所以我們會找到正確的方法來平衡它。」

關於o3 mini知識庫的時間更新問題，有用戶表示不理解。「在我支付了plus費用之前，GPT-4o擁有的知識截止到2024年6月，但是現在我支付了plus費用，知識截止時間又改回了2023年10月。為什麼會這樣？」

Sam Altman對此回應稱：「現在我們已經啟用了搜索功能，這一點就不再那麼重要了——就我自己的使用而言，我再也沒有考慮過知識截止的問題了。」

OpenAI本次發佈的是o3 mini，於是有人問完整版本o3何時首次亮相？

Sam Altman一如既往開始畫餅：「我猜會是幾週以上，幾個月以下。」

第三個話題集中在其他產品更新，也就是OpenAI曾經發佈的「期貨」產品何時兌現。

有用戶關心4o圖像生成器是否還會發佈，這是大約一年前OpenAI發佈的功能。GPT-4o是一種多模態人工智能模型，可同時理解和生成文本、圖像和音頻內容，但目前為止圖像生成功能還未更新。

首席產品官Kevin Weil對此回覆稱：「是的！我們正在努力。我認為等待是值得的。」有人繼續追問有沒有大概的時間表，Kevin Weil先是開玩笑地說「你想給我找麻煩」，隨後又補充說「可能要幾個月」。

此外，關於圖像生成模型DALL-3的後續版本，Kevin Weil也是一模一樣的回覆：「是的！我們正在努力。我認為等待是值得的。」

有用戶對此「千篇一律」的回覆表示不滿意，並調侃道「這是GPT-3在回應嗎？」

有用戶關注長上下文窗口的問題，詢問能否很快實現1M上下文。

對此，工程副總裁Srinivas Narayanan回覆「正在努力，但沒有明確的日期表」。

關於很多人都關心的GPT-5，Sam Altman表示還沒有時間表。

首席產品官Kevin Weil則回應稱，會在「o-17 micro和GPT-(π+1)之後不久」。換句話說，遙遙無期。

不過Sam Altman表示會有一些即將發佈的更新，比如高級語音模式。

有人問，有了語音、影片、屏幕共享、任務和操作員，OpenAI現在已經發佈了相當多的組件，這些組件共同構成了非常完整的自動化體驗。在我們可以說擁有完整的AI體驗之前，是否還缺少一些部分？如果是，那麼缺少哪些部分？

對此，工程副總裁Srinivas Narayanan回覆：「是的，很多部分正在整合在一起。繼續提高推理能力仍然是最關鍵的部分。連續的影片輸入和影片輸出真的很酷。在任何環境中實現自動化——不僅僅是瀏覽器，而是整個計算機或其他設備。以及輕鬆理解和使用不同應用程序（在工作和個人生活中）的能力。」

最後是關於算力以及AGI相關的問題。

有人問，假設現在是2030年，你剛剛創建了一個大多數人稱之為AGI的系統。它在你提出的每一個基準測試中都表現出色，並且在速度和性能上都擊敗了你最好的工程師和研究人員。現在怎麼辦？除了「在網站上提供」之外，還有其他計劃嗎？

工程副總裁Srinivas Narayanan回覆：「我們與人工智能交互的界面將發生根本性的變化。事情將變得更加代理化。人工智能將在後台為我們持續工作，完成複雜的任務並實現我們的目標。它們會在有需要時向我們彙報。機器人技術也應該足夠先進，讓它們能夠在現實世界中為我們完成有用的任務。」

Sam Altman認為，最重要的影響是加速科學發現的速度，我相信這是對改善生活質量的最大貢獻。

有人提到了芯片，問OpenAI如何看待trillium、cerebers等更專用的芯片/TPU？OpenAI正在研究這些芯片嗎？

Sam Altman的回應很簡潔：GB200現在很難被擊敗！

不久之前，Sam Altman宣佈第一個完整的8機架GB200 NVL72現已在Azure中為OpenAI運行。

有人問，Stargate（星際之門）的成功對OpenAI的未來有多重要？

首席產品官Kevin Weil回應稱：「非常重要。我們看到的一切都表明，我們擁有的計算能力越多，我們構建的模型就越好，我們製造的產品就越有價值。我們現在同時在兩個維度上擴展模型——更大的預訓練和更多的RL/strawberry——兩者都需要計算。為數億用戶提供產品也是如此！隨著轉向為您持續工作的更多代理產品，這需要計算。所以把Stargate想像成我們的工廠，它將電力/GPU轉化為適合您的超棒產品。」

看起來，DeepSeek與OpenAI已經形成了兩種不同的技術路線。

DeepSeek代表了以更低的成本，尤其是計算成本，來實現更高的性能的路線。而OpenAI是Scaling Law的忠實信仰者，仍然堅持「大力出奇蹟」——如果繼續擴展計算，就能繼續擴展性能。

這兩種不同路線的選擇就是實現AGI的分水嶺嗎？

本文來自微信公眾號：甲子光年（ID：jazzyear），作者：趙健