OpenAI回應一切,承認閉源策略「站在了歷史錯誤的一邊」
香港時間2月1日淩晨,OpenAI正式發佈o3-mini,這是OpenAI推理系列中最新、最具成本效益的模型,已在ChatGPT和API中開放使用。
這可以看作OpenAI對過去一週多風靡美國市場的DeepSeek的回應。
在o3 mini發佈的同時,OpenAI高管團隊還在Reddit上舉辦了一場線上的AMA(ask me anything),回答有關o3 mini以及AI發展相關的一切問題。
在被問及是否會考慮發佈一些模型權重以及一些研究時,OpenAI首席執行官Sam Altman首次承認:「我個人認為,我們在這裏站在了歷史的錯誤一邊,需要找出一個不同的開源策略。OpenAI中並非所有人都認同這一觀點,這也不是我們當前的最高優先事項。」
此外,OpenAI高管團隊還討論了o3 mini的功能、價格以及其他產品更新、算力等相關的話題。
可以說,如果沒有DeepSeek,OpenAI不會這麼快做出回應,無論是模型還是言論。
一、OpenAI首次將推理模型開放給免費用戶
本次發佈的o3-mini在2024年12月發佈了預覽版本,是OpenAI首個支持高度請求的開發者功能的小型推理模型,包括函數調用、結構化輸出和開發者消息。o3-mini將支持流式傳輸,開發者還可以在三種推理努力選項——低、中、高——之間進行選擇,以優化其特定用例。這種靈活性使得o3-mini在解決複雜挑戰時可以「更努力地思考」,或者在延遲是關鍵問題時優先考慮速度。但是o3-mini不支持視覺能力,因此開發者應繼續使用OpenAI o1進行視覺推理任務。
OpenAI表示o3-mini突破了小型模型所能實現的界限,提供了卓越的STEM(Science、Technology、Engineering、Mathematics)功能,尤其擅長科學、數學和編碼,同時保持了o1-mini的低成本和低延遲。專家測試人員的評估表明,與OpenAI o1-mini相比,o3-mini的答案更準確、更清晰,推理能力更強。
OpenAI表示,測試人員在56%的時間里更喜歡o3-mini的回答,並觀察到在困難的現實問題上重大錯誤減少了39%。在中等推理努力下,o3-mini在一些最具挑戰性的推理和智力評估(包括AIME和GPQA)上的表現與o1相當。

價格層面,OpenAI提供了不同的套餐設置:Pro用戶將可以無限制訪問o3-mini,而Plus和Team用戶將擁有三倍的速率限制(與o1-mini相比);免費用戶可以通過選擇消息編寫器下方的「Reason」按鈕在ChatGPT中嘗試o3-mini。
這是OpenAI首次將推理模型開放給免費用戶,此前發佈的o1模型只有ChatGPT plus會員可以使用。而免費開放的原因其實也很顯然,那就是被DeepSeek免費且開源的R1給捲到了。
不過,ChatGPT plus會員會享有更高版本的模型「o3-mini-high」,它會思考得更深入,並給出更好的答案。
作為此次升級的一部分,OpenAI將Plus和Team用戶的速率限制從每天50條消息(使用o1-mini)提高到每天150條消息(使用o3-mini)。此外,o3-mini現在可以與搜索功能配合使用,以查找最新的答案並鏈接到相關的網絡資源。這是OpenAI將搜索功能整合到推理模型中的早期原型。
在安全層面,OpenAI用來教o3-mini安全響應的關鍵技術之一是審慎對齊,即在回答用戶提示之前,訓練模型推理人類編寫的安全規範。與OpenAI o1類似,o3-mini在具有挑戰性的安全性和越獄評估方面明顯超越了GPT-4o。在部署之前,OpenAI表示仔細評估了o3-mini的安全風險,採用了與o1相同的準備、外部紅隊和安全評估方法。
二、OpenAI團隊回答一切
OpenAI高管團隊在Reddit上舉辦了一場線上的AMA(ask me anything),回答有關o3 mini以及AI發展相關的一切問題。
參與本次活動的共6人,包括首席執行官Sam Altman、首席研究官Mark Chen、首席產品官Kevin Weil、工程副總裁Srinivas Narayanan、API研究主管Michelle Pokrass、研究主管Hongyu Ren。
首先是大家最關心的關於DeepSeek的焦點問題。
有用戶表示顯然這是一個非常令人印象深刻的模型,這會如何改變OpenAI對未來模型的計劃?
Sam Altman此前對於DeepSeek評價很高,這次也給出了類似的評價。他回覆稱:「這是一個非常好的模型!我們將生產出更好的模型,但領先優勢將比前幾年有所減弱。」
鑒於DeepSeek在開源領域取得的成功,有人問OpenAI是否考慮發佈一些模型權重併發表一些研究?
Sam Altman對此回應稱:「是的,我們正在討論。我個人認為,我們在這裏站在了歷史的錯誤一邊,需要找出一個不同的開源策略;OpenAI中並非所有人都認同這一觀點,這也不是我們當前的最高優先事項。」
這似乎是Sam Altman首次正面承認OpenAI的閉源「是一個錯誤」。但OpenAI是否會真正開源?這恐怕將是一個艱難的選擇。
第二個集中話題是關於o3 mini的產品功能。
首先是價格問題。有人對比發現,o3 mini的價格與Deepseek和Gemini相比仍然沒有競爭力。比如,在百萬tokens規模下,Deepseek R1的API輸入價格(緩存命中)為0.14美元,輸出價格為2.19美元,而o3 mini的輸入價格為0.55美元,輸出價格為4.40美元。

DeepSeekAPI價格,deepseek-chat指的是DeepSeek-V3.,deepseek-reasoner指的是DeepSeek-R1,圖片來自DeepSeek官網

OpenAI API研究主管Michelle Pokrass對此回應:「我們發現o3-mini與美國託管的Deepseek版本相比具有競爭力。我們認為對於這種級別的智能來說,這是一個真正實惠的選擇。」
OpenAI會計劃提高plus會員的價格嗎?Sam Altman回應稱:「實際上我想隨著時間的推移減少它。」
大模型推理成本的下降是一個必然趨勢。OpenAI在發佈o3 mini時表示,該模型延續了其降低智能成本的記錄——自推出GPT-4以來,每個token的價格降低了95%——同時保持了頂級的推理能力。
針對o3 mini的價格,OpenAI製定了不同的套餐模式。有人問,為什麼當plus用戶擁有大量o3-mini-high限額時,訂閱PRO版本仍然值得?
Sam Altman回應稱,如果你認為o1 pro還算值得,那麼你應該認為o3 pro超級值得。
工程副總裁Srinivas Narayanan進一步解釋:「我們現在有o1專業模式,還有操作員模式。我們可能會繼續有更多方法使用更多計算來解決專業級的難題。是的,專業用戶喜歡無速率限制。」
其次是思維鏈的展示問題。o3 mini並不像DeepSeek R1那樣給出非常詳細的思維鏈過程,而是非常簡潔。

o3 mini的思維鏈展示

於是有用戶提問,我們能看看所有的思考標記嗎?
首席產品官Kevin Weil回覆稱:「我們正在努力展示比今天更多的內容——很快就會實現。所有內容都有待確定,展示所有CoT會導致競爭性提煉,但我們也知道人們(至少是高級用戶)想要它,所以我們會找到正確的方法來平衡它。」
關於o3 mini知識庫的時間更新問題,有用戶表示不理解。「在我支付了plus費用之前,GPT-4o擁有的知識截止到2024年6月,但是現在我支付了plus費用,知識截止時間又改回了2023年10月。為什麼會這樣?」
Sam Altman對此回應稱:「現在我們已經啟用了搜索功能,這一點就不再那麼重要了——就我自己的使用而言,我再也沒有考慮過知識截止的問題了。」
OpenAI本次發佈的是o3 mini,於是有人問完整版本o3何時首次亮相?
Sam Altman一如既往開始畫餅:「我猜會是幾週以上,幾個月以下。」
第三個話題集中在其他產品更新,也就是OpenAI曾經發佈的「期貨」產品何時兌現。
有用戶關心4o圖像生成器是否還會發佈,這是大約一年前OpenAI發佈的功能。GPT-4o是一種多模態人工智能模型,可同時理解和生成文本、圖像和音頻內容,但目前為止圖像生成功能還未更新。
首席產品官Kevin Weil對此回覆稱:「是的!我們正在努力。我認為等待是值得的。」有人繼續追問有沒有大概的時間表,Kevin Weil先是開玩笑地說「你想給我找麻煩」,隨後又補充說「可能要幾個月」。
此外,關於圖像生成模型DALL-3的後續版本,Kevin Weil也是一模一樣的回覆:「是的!我們正在努力。我認為等待是值得的。」
有用戶對此「千篇一律」的回覆表示不滿意,並調侃道「這是GPT-3在回應嗎?」
有用戶關注長上下文窗口的問題,詢問能否很快實現1M上下文。
對此,工程副總裁Srinivas Narayanan回覆「正在努力,但沒有明確的日期表」。
關於很多人都關心的GPT-5,Sam Altman表示還沒有時間表。
首席產品官Kevin Weil則回應稱,會在「o-17 micro和GPT-(π+1)之後不久」。換句話說,遙遙無期。
不過Sam Altman表示會有一些即將發佈的更新,比如高級語音模式。
有人問,有了語音、影片、屏幕共享、任務和操作員,OpenAI現在已經發佈了相當多的組件,這些組件共同構成了非常完整的自動化體驗。在我們可以說擁有完整的AI體驗之前,是否還缺少一些部分?如果是,那麼缺少哪些部分?
對此,工程副總裁Srinivas Narayanan回覆:「是的,很多部分正在整合在一起。繼續提高推理能力仍然是最關鍵的部分。連續的影片輸入和影片輸出真的很酷。在任何環境中實現自動化——不僅僅是瀏覽器,而是整個計算機或其他設備。以及輕鬆理解和使用不同應用程序(在工作和個人生活中)的能力。」
最後是關於算力以及AGI相關的問題。
有人問,假設現在是2030年,你剛剛創建了一個大多數人稱之為AGI的系統。它在你提出的每一個基準測試中都表現出色,並且在速度和性能上都擊敗了你最好的工程師和研究人員。現在怎麼辦?除了「在網站上提供」之外,還有其他計劃嗎?
工程副總裁Srinivas Narayanan回覆:「我們與人工智能交互的界面將發生根本性的變化。事情將變得更加代理化。人工智能將在後台為我們持續工作,完成複雜的任務並實現我們的目標。它們會在有需要時向我們彙報。機器人技術也應該足夠先進,讓它們能夠在現實世界中為我們完成有用的任務。」
Sam Altman認為,最重要的影響是加速科學發現的速度,我相信這是對改善生活質量的最大貢獻。
有人提到了芯片,問OpenAI如何看待trillium、cerebers等更專用的芯片/TPU?OpenAI正在研究這些芯片嗎?
Sam Altman的回應很簡潔:GB200現在很難被擊敗!
不久之前,Sam Altman宣佈第一個完整的8機架GB200 NVL72現已在Azure中為OpenAI運行。
有人問,Stargate(星際之門)的成功對OpenAI的未來有多重要?
首席產品官Kevin Weil回應稱:「非常重要。我們看到的一切都表明,我們擁有的計算能力越多,我們構建的模型就越好,我們製造的產品就越有價值。我們現在同時在兩個維度上擴展模型——更大的預訓練和更多的RL/strawberry——兩者都需要計算。為數億用戶提供產品也是如此!隨著轉向為您持續工作的更多代理產品,這需要計算。所以把Stargate想像成我們的工廠,它將電力/GPU轉化為適合您的超棒產品。」
看起來,DeepSeek與OpenAI已經形成了兩種不同的技術路線。
DeepSeek代表了以更低的成本,尤其是計算成本,來實現更高的性能的路線。而OpenAI是Scaling Law的忠實信仰者,仍然堅持「大力出奇蹟」——如果繼續擴展計算,就能繼續擴展性能。
這兩種不同路線的選擇就是實現AGI的分水嶺嗎?
本文來自微信公眾號:甲子光年 (ID:jazzyear),作者:趙健