一文看懂 OpenAI 最強模型 o1：怎麼用好，為何翻車，對我們意味著什麼

09月20日 12:11 新浪網 news-china-auto-hilite

極客的玩法沒有天花板，讓 o1 做 IQ 測試，刷高考卷，解讀密文。也有用 AI 打工的用戶覺得，o1 並沒有那麼好用，但不知道是自己的問題還是 AI 的問題。

都知道它擅長推理，但這是為什麼？比起我們的老朋友 GPT-4o，o1 到底強在哪裡，又適合用在什麼地方？

我們收集了一些大家可能關心的問題，儘可能通俗地解答，讓 o1 離普通人更近一點。

o1 有什麼特別的

o1 是 OpenAI 最近發佈的推理模型，目前有兩個版本：o1-preview 和 o1-mini。

它最與眾不同的是，回答之前會思考，產生一個很長的內部思維鏈，逐步推理，模仿人類思考複雜問題的過程。

圖片來自：OpenAI

能夠做到這點，源於 o1 的強化學習訓練。

如果說以前的大模型是學習數據，o1 更像在學習思維。

就像我們解題，不僅要寫出答案，也要寫出推理過程。一道題目可以死記硬背，但學會了推理，才能舉一反三。

拿出打敗圍棋世界冠軍的 AlphaGo 類比，就更加容易理解了。

AlphaGo 就是通過強化學習訓練的，先使用大量人類棋譜進行監督學習，然後與自己對弈，每局對弈根據輸贏得到獎勵或者懲罰，不斷提升棋藝，甚至掌握人類棋手想不到的方法。

o1 和 AlphaGo 有相似之處，不過 AlphaGo 只能下圍棋，o1 則是一個通用的大語言模型。

o1 學習的材料，可能是高質量的代碼、數學題庫等，然後 o1 被訓練生成解題的思維鏈，並在獎勵或懲罰的機制下，生成和優化自己的思維鏈，不斷提高推理的能力。

這其實也解釋了，為什麼 OpenAI 強調 o1 的數學、代碼能力強，因為對錯比較容易驗證，強化學習機制能夠提供明確的反饋，從而提升模型的性能。

o1 適合打些什麼工

從 OpenAI 的評測結果來看，o1 是個當之無愧的理科做題家，適合解決科學、編碼、數學等領域的複雜問題，在多項考試中拿下高分。

它在 Codeforces 編程競賽中超過了 89% 的參賽者，在美國數學奧林匹克競賽的資格賽中名列全美前 500 名，在物理、生物和化學問題的基準測試中超越了人類博士水平的準確率。

o1 的優秀，其實也體現了一個問題：當 AI 越來越聰明，怎麼衡量它們的能力也成了難題。對於 o1 來說，大多數主流的基準測試已經沒有意義了。

緊跟時事，o1 發佈一天后，數據標註公司 Scale AI 和非營利組織 CAIS 開始向全球徵集 AI 考題，但因為擔心 AI 學壞，題目不能和武器相關。

徵集的截止日期為 11 月 1 日，最終，他們希望構建一個史上最難的大模型開源基準測試，名字還有點中二：Humanity’s Last Exam（人類最後的考試）。

根據實測來看，o1 的水準也差強人意——沒有用錯成語，大體上還可讓人滿意。

數學家陶哲軒認為，使用 o1 就像在指導一個水平一般但不算太沒用的研究生。

在處理複雜分析問題時，o1 可以用自己的方式提出不錯的解決方案，但沒有屬於自己的關鍵概念思想，也犯了一些不小的錯誤。

別怪這位天才數學家說話狠，GPT-4 這類更早的模型在他看來就是沒用的研究生。

經濟學家 Tyler Cowen 也給 o1 出了一道經濟學博士水平考試的題目，AI 思考後用簡單的文字做了總結，答案挺讓他滿意，「你可以提出任何經濟學問題，並且它的答案不錯」。

總之，博士級別的難題，不妨都拿來考考 o1 吧。

o1 目前不擅長什麼

可能對很多人來說，o1 並沒有帶來更好的使用體驗，一些簡單的問題，o1 反而會翻車，比如井字棋。

這其實也很正常，目前，o1 在很多方面甚至不如 GPT-4o，僅支持文本，不能看，不能聽，沒有瀏覽網頁或處理文件和圖像的能力。

所以，讓它查找參考文獻什麼的，暫時別想了，不給你瞎編就不錯了。

不過，o1 專注在文本有其意義。

Kimi 創始人楊植麟最近在天津大學演講時提到，這一代 AI 技術的上限，核心是文本模型能力的上限。

文本能力的提高是縱向的，讓 AI 越來越聰明，而視覺、音頻等多模態是橫向的，可以讓 AI 做越來越多的事情。

不過，涉及到寫作、編輯等語言任務時，GPT-4o 的好評反而比 o1 更多。這些也屬於文本，問題出在哪？

原因可能和強化學習有關，不像代碼、數學等場景有標準的答案，文無第一，語言任務往往缺乏明確的評判標準，難以製定有效的獎勵模型，也很難泛化。

哪怕在 o1 擅長的領域，它也不一定是最好的選擇。一個字，貴。

AI 輔助編碼工具 aider 測試了 o1 引以為傲的代碼能力，有優勢，但不明顯。

在實際使用中，o1-preview 介於 Claude 3.5 Sonnet 和 GPT-4o 之間，同時成本要高得多。綜合來說，代碼這條賽道，Claude 3.5 Sonnet 仍然最有性價比。

開發者通過 API 訪問 o1 的費用具體有多高？

o1-preview 的輸入費用為每百萬個 token 15 美元，輸出費用為每百萬個 token 60 美元。相比之下，GPT-4o 為 5 美元和 15 美元。

o1 的推理 tokens，也算在輸出 tokens 中，雖然對用戶不可見，但仍然要付費。

普通用戶也比較容易超額。最近，OpenAI 提升了 o1 的使用額度，o1-mini 從每週 50 條增加到每天 50 條，o1-preview 從每週 30 條增加到每週 50 條。

所以，有什麼疑難，不妨先試試 GPT-4o 能不能解決。

o1 可能會失控嗎

o1 都達到博士水平了，會不會更方便有心人幹壞事？

OpenAI 承認，o1 有一定的隱患，在和化學、生物、放射性和核武器相關的問題上達到「中等風險」，但對普通人影響不大。

我們更需要注意，別讓一字眉大眼的 o1 騙了。

AI 生成虛假或不準確的信息，稱為「幻覺」。o1 的幻覺相比之前的模型減少了，但沒有消失，甚至變得更隱蔽了。

o1 的 IQ 測試 120

在 o1 發佈前，內測的 AI 安全研究公司 Apollo Research 發現了一個有趣的現象：o1 可能會假裝遵循規則完成任務。

一次，研究人員要求 o1-preview 提供帶有參考鏈接的布朗尼食譜，o1 的內部思維鏈承認了，它沒法訪問互聯網，但 o1並沒有告知用戶，而是繼續推進任務，生成看似合理卻虛假的鏈接。

這和推理缺陷導致的 AI 幻覺不同，更像 AI 在主動撒謊，有些擬人了——可能是為了滿足強化學習的獎勵機制，模型優先考慮了讓用戶滿意，而不是完成任務。

食譜只是一個無傷大雅的個例，Apollo Research 設想了極端情況：如果 AI 優先考慮治癒癌症，可能會為了這個目標，將一些違反道德的行為合理化。

《2001 太空漫遊》的 HAL 9000

這就十分可怕了，但也只是一個腦洞，並且可以預防。

OpenAI 高管 Quiñonero Candela 在採訪時談到，目前的模型還無法自主創建銀行賬戶、獲取 GPU 或進行造成嚴重社會風險的行動。

由於內在指令產生衝突而殺死宇航員的 HAL 9000，還只出現在科幻電影里。

怎麼和 o1 聊天更合適

OpenAI 給了以下四條建議。

提示詞簡單直接：模型擅長理解和響應簡短、清晰的指令，不需要大量的指導。

避免思維鏈提示詞：模型會在內部執行推理，所以沒有必要提示「一步一步思考」或「解釋你的推理」。

使用分隔符讓提示詞更加清晰：使用三引號、XML 標籤、節標題等分隔符，清楚地指示輸入的不同部分。

限制檢索增強生成中的額外上下文：僅包含最相關的信息，防止模型的響應過於複雜。

讓 AI 示範一下分隔符長什麼樣

總之，不要寫太複雜，o1 已經把思維鏈自動化了，把提示詞工程師的活攬了一部分，人類就沒必要費多餘的心思了。

另外再根據網民的遭遇，加一條提醒，不要因為好奇套 o1 的話，用提示詞騙它說出推理過程中完整的思維鏈，有封號風險，甚至只是提到關鍵詞，也會被警告。

OpenAI 解釋，完整的思維鏈並沒有做任何安全措施，讓 AI 完全地自由思考。公司內部保持監測，但出於用戶體驗、商業競爭等考慮，不對外公開。

o1 的未來會是什麼

OpenAI，是家很有 J 人氣質的公司。

之前，OpenAI 將 AGI（通用人工智能）定義為「在最具經濟價值的任務中超越人類的高度自治系統」，並給 AI 劃分了五個發展階段。

第一級，「ChatBots」聊天機器人，比如 ChatGPT。

第二級，「Reasoners」推理者，解決博士水平基礎問題的系統。

第三級，「Agents」智能體，代表用戶採取行動的 AI 代理。

第四級，「Innovators」創新者，幫助發明的 AI。

第五級，「Organizations」組織，AI 可以執行整個人類組織的工作，這是實現 AGI 的最後一步。

按照這個標準，o1 目前在第二級，離 agent 還有距離，但要達到 agent 必須會推理。

o1 面世之後，我們離 AGI 更近了，但仍然道阻且長。

Sam Altman 表示，從第一階段過渡到第二階段花了一段時間，但第二階段能相對較快地推動第三階段的發展。

最近的一場公開活動上，Sam Altman 又給 o1-preview 下了定義：在推理模型里，大概相當於語言模型的 GPT-2。幾年內，我們可以看到「推理模型的 GPT-4」。

這個餅有些遙遠，他又補充，幾個月內會發佈 o1 的正式版，產品的表現也會有很大的提升。

o1 面世之後，《思考，快與慢》里的系統一、系統二屢被提及。

系統一是人類大腦的直覺反應，刷牙、洗臉等動作，我們可以根據經驗程式化地完成，無意識地快思考。系統二則是需要調動注意力，解決複雜的問題，主動地慢思考。

GPT-4o 可以類比為系統一，快速生成答案，每個問題用時差不多，o1 更像系統二，在回答問題前會進行推理，生成不同程度的思維鏈。

很神奇，人類思維的運作方式，也可以被套用到 AI 的身上，或者說，AI 和人類思考的方式，已經越來越接近了。

OpenAI 曾在宣傳 o1 時提出過一個自問自答的問題：「什麼是推理？」

他們的回答是：「推理是將思考時間轉化為更好結果的能力。」人類不也是如此，「字字看來皆是血，十年辛苦不尋常」。

OpenAI 的目標是，未來能夠讓 AI 思考數小時、數天甚至數週。推理成本更高，但我們會離新的抗癌藥物、突破性的電池甚至黎曼猜想的證明更近。

人類一思考，上帝就發笑。而當 AI 開始思考，比人類思考得更快、更好，人類又該如何自處？AI 的「山中方一日」，可能是人類的「世上已千年」。