OpenAI o1大模型“獵殺時刻”：當AI開始“類思考”，低維爭奪結束了

21世紀經濟報導記者孔海麗北京報導

預熱一年之久，OpenAI代號為“草莓”的項目終於發佈。

北京時間9月13日淩晨，OpenAI甩出了重大更新，傳說中推理能力登峰造極的大語言模型——OpenAI o1系列模型亮相，複雜推理能力明顯更進一步，極限推理能力甚至超越人類博士水平，代表了大語言模型在推理能力上的重大飛躍。

最驚人的是，OpenAI o1系列已經開始展現出“類思考”的能力——之所以說“類思考”，是因為目前為止，AI大模型尚未突破思考的本質。“自我推理”路徑，更像是達到AGI之前的“花活兒”。

但，當下還未突破，並不意味著未來不可能。

從“什麼都懂一點的‘人工智障’”，到“會自我糾正、選擇合適路徑”的人工智能，通向AGI的路徑，在逐漸清晰。尤其，OpenAI當前放出的o1-preview和o1-mini，還只是o1系列的“前菜”，按照OpenAI的調性，更多突破或許已經發生，只待合適的時機一一發佈。

正如李彥宏戳破大模型“跑分”假象，OpenAI 憑藉o1系列，又一次把大模型的競爭拉高到了新的水準，低維度的參數、榜單之爭，似乎不再有實際意義。

大模型開始“逐步思考”

根據OpenAI官方消息，o1系列包括o1-preview和o1-mini，前者是“預覽版本”，後者是經濟高效的“小模型”，比preview便宜80%。

這些模型專門為處理更複雜的、多步驟的問題而開發，尤其是在科學、數學和編程領域，超越了之前的模型（如GPT-4）在推理深度和準確性方面的表現。

Sam Altman在X上貼出的對比圖顯示，o1解決數學、編程和博士級別科學題目上的能力，比GPT-4o高出數倍。

OpenAI甚至明確指出，“o1不是gpt-4o的繼任者”，潛台詞在於，o1開啟了一段新的紀元。

整體來看，o1在美國數學奧林匹克預選賽中，排名美國前500名學生之列，並且在物理、生物學、化學基準上，首次超過了人類博士。

但在另一項創新之下，這些得分竟顯得“平平無奇”了起來。

OpenAI o1引入了“思路鏈”。

類似於人類在回答困難問題之前可能會思考很長時間，o1 在嚐試解決問題時學會了磨練其思維鏈並改進策略。它學會了識別和糾正錯誤，學會了將棘手的步驟分解為更簡單的步驟，學會了在當前方法不起作用時繼續嚐試不同的方法。

這種方法模擬了人類的認知過程，能夠逐步完善每個步驟，甚至在一個問題中實現自我迭代，而結果就是，顯著提高了模型的推理能力。

以一道閱讀理解題為例，GPT-4o會直接給出結論，而OpenAI o1-preview有“顯示思路鏈”選項，打開之後，o1-preview會將整個思考過程展示出來，逐步分析每個選項，並反複自問“這是一個很好的解釋嗎？能回答問題本身嗎？”並在一遍又一遍地推敲之後，給出正確答案。

當然，想要節省時間的用戶也可以選擇“隱藏思路鏈”。

英偉達高級科學家Jim Fan對OpenAI o1高度讚揚，他認為，AlphaGo式的自我學習終於有可能在大模型中實現了。

“Strawberry很容易變成一個數據的飛輪。如果答案是正確的，整個搜索跟蹤就成為一個小型的訓練樣本數據集，其中包含正面和負面的反饋。這反過來會改進未來版本GPT的推理核心，就像AlphaGo的價值網絡——用來評估每個棋盤位置的質量——隨著MCTS生成越來越精細的訓練數據而改進一樣。”

也就是說，未來大模型自我學習與思考的能力會像一個飛輪一樣轉起來，就像AlphaGo自己與自己對弈以提升棋藝一樣。

一家跨國公司中國區人工智能大模型從業者告訴21世紀經濟報導記者，從技術上來說，OpenAI o1“思路鏈”技術並不是最新的，但這種應用，讓人隱約看到了推理層面的Scaling Law。

OpenAI官方也蓋章，表示隨著強化學習（訓練時間計算）和思考時間（測試時間計算）的增加，OpenAI o1的性能會不斷提高，擴展這種方法的限制與 LLM 預訓練的限制有很大不同。他們將持續研究這裡面隱含的新的可能性。

離AGI有更近一步嗎？

業界對於OpenAI o1所呈現出的“思考”能力，是有分歧的。

一種觀點認為，OpenAI o1是人工智能大模型領域總結出Scaling Law之後的最重要進展。

所謂Scaling Law，是指隨著參數量、數據量和計算量的增加，大模型的性能能夠不斷提高。

而OpenAI o1增加的，是推理過程和思考時間，同樣明顯提升了模型性能，這打破了大模型進入Scaling Law瓶頸期的擔憂。

DCCI互聯網數據中心創始人胡延平發表評論稱，“草莓”真正開啟的角度是讓AI開始學會思考，而不只是訓練和推理，舉一反三，四顧找尋。長思考，慢思考，深度思考。到了草莓這一步，人們對大模型的理解就不能只停留在“對下一個詞的猜測、對一個問題的一次性的問答”上了。

但另一種觀點認為，前述說法過於誇張。

兩位AI大模型從業者向21世紀經濟報導記者表示，OpenAI o1的確在數學和推理能力方面有大幅度提升，但遠遠不到突破思考本質的階段。

“OpenAI o1沒有解決統計模型根本的缺陷，本質上還是通過大量學習得出正確的結論，很難理解背後的科學邏輯。”前述人士認為，目前，這種“思路鏈”更像是一種“假性思考”的狀態，無需擔心大模型已經有了意識。

“而且，人工智能突破思考本質對人類而言，會是非常危險的事情，短時間內還達不到。”他說。

連Sam Altman本人，都曾在今年3月份的一次採訪中強調，AI目前更多的是一套基於數據和數學的系統，能夠產生統計上可能的結果，而不是“生物”這種全新的生命形態。

在OpenAI那場震驚世界的宮鬥風波中，有一種說法是，OpenAI前首席科學家Ilya Sutskever是因為看到了一些東西（可能是AGI），這讓他內心不安，才說服董事會發起了高層人事“地震”。

Sam Altman也曾反複澄清過：“Ilya看到的不是AGI，沒有人見到過AGI，我們還沒有建造過AGI。”

在AGI到來之前，OpenAI亟待解決的現實問題其實是“賺錢”。

近期消息顯示，OpenAI已就融資事宜與投資者交流，並考慮調整公司架構，以提高對金主的吸引力。與此同時，OpenAI 首席執行官薩姆•奧特曼正在與幾家銀行洽談，以循環貸款的方式籌集50億美元。

而在商業變現方面，此前曾傳出消息，稱“草莓”的訂閱價格或飆升至2000美元/月，飆漲100倍。

不過，OpenAI o1-preview和o1-mini最終發佈的價格並沒有發生變化，只是限定了使用次數，o1-preview每週限制使用次數為30條消息。

OpenAI o1-mini則是一個較小的模型，在使用與o1相同的高計算強化學習 (RL) pipeline 進行訓練後，o1-mini 在許多推理任務上實現了相媲美的性能，同時成本效率顯著提高。但o1-mini 在MMLU等任務上的表現則不如GPT-4o，並且由於缺乏廣泛的世界認知而在GPQA基準上落後於o1-preview。

不可否認的是，OpenAI每一次都引領了AI大模型的新潮流，且這種野心絲毫不見減弱。最新的發佈中，OpenAI表示將在持續迭代的過程中發佈OpenAI o1系列的改進版本，o1 及其繼任者將為AI在科學、編碼、數學和相關領域解鎖許多新的用例。

換而言之，無論o1系列模型是否在歷史意義上突破了“思考”本質，OpenAI都在商業層面把其他同類產品一次又一次地甩在了身後，AI大模型的“不進則退”，比其他領域都更懸殊。