一文看懂 OpenAI 最強模型 o1:怎麼用好,為何翻車,對我們意味著什麼

極客的玩法沒有天花板,讓 o1 做 IQ 測試,刷高考卷,解讀密文。也有用 AI 打工的用戶覺得,o1 並沒有那麼好用,但不知道是自己的問題還是 AI 的問題。

都知道它擅長推理,但這是為什麼?比起我們的老朋友 GPT-4o,o1 到底強在哪裡,又適合用在什麼地方?

我們收集了一些大家可能關心的問題,儘可能通俗地解答,讓 o1 離普通人更近一點。

o1 有什麼特別的

o1 是 OpenAI 最近發佈的推理模型,目前有兩個版本:o1-preview 和 o1-mini。

它最與眾不同的是,回答之前會思考,產生一個很長的內部思維鏈,逐步推理,模仿人類思考複雜問題的過程。

圖片來自:OpenAI圖片來自:OpenAI

能夠做到這點,源於 o1 的強化學習訓練。

如果說以前的大模型是學習數據,o1 更像在學習思維。

就像我們解題,不僅要寫出答案,也要寫出推理過程。一道題目可以死記硬背,但學會了推理,才能舉一反三。

拿出打敗圍棋世界冠軍的 AlphaGo 類比,就更加容易理解了。

AlphaGo 就是通過強化學習訓練的,先使用大量人類棋譜進行監督學習,然後與自己對弈,每局對弈根據輸贏得到獎勵或者懲罰,不斷提升棋藝,甚至掌握人類棋手想不到的方法。

o1 和 AlphaGo 有相似之處,不過 AlphaGo 只能下圍棋,o1 則是一個通用的大語言模型。

o1 學習的材料,可能是高質量的代碼、數學題庫等,然後 o1 被訓練生成解題的思維鏈,並在獎勵或懲罰的機制下,生成和優化自己的思維鏈,不斷提高推理的能力。

這其實也解釋了,為什麼 OpenAI 強調 o1 的數學、代碼能力強,因為對錯比較容易驗證,強化學習機制能夠提供明確的反饋,從而提升模型的性能。

o1 適合打些什麼工

從 OpenAI 的評測結果來看,o1 是個當之無愧的理科做題家,適合解決科學、編碼、數學等領域的複雜問題,在多項考試中拿下高分。

它在 Codeforces 編程競賽中超過了 89% 的參賽者,在美國數學奧林匹克競賽的資格賽中名列全美前 500 名,在物理、生物和化學問題的基準測試中超越了人類博士水平的準確率。

o1 的優秀,其實也體現了一個問題:當 AI 越來越聰明,怎麼衡量它們的能力也成了難題。對於 o1 來說,大多數主流的基準測試已經沒有意義了。

緊跟時事,o1 發佈一天后,數據標註公司 Scale AI 和非營利組織 CAIS 開始向全球徵集 AI 考題,但因為擔心 AI 學壞,題目不能和武器相關。

徵集的截止日期為 11 月 1 日,最終,他們希望構建一個史上最難的大模型開源基準測試,名字還有點中二:Humanity’s Last Exam(人類最後的考試)。

根據實測來看,o1 的水準也差強人意——沒有用錯成語,大體上還可讓人滿意。

數學家陶哲軒認為,使用 o1 就像在指導一個水平一般但不算太沒用的研究生。

在處理複雜分析問題時,o1 可以用自己的方式提出不錯的解決方案,但沒有屬於自己的關鍵概念思想,也犯了一些不小的錯誤。

別怪這位天才數學家說話狠,GPT-4 這類更早的模型在他看來就是沒用的研究生。

經濟學家 Tyler Cowen 也給 o1 出了一道經濟學博士水平考試的題目,AI 思考後用簡單的文字做了總結,答案挺讓他滿意,「你可以提出任何經濟學問題,並且它的答案不錯」。

總之,博士級別的難題,不妨都拿來考考 o1 吧。

o1 目前不擅長什麼

可能對很多人來說,o1 並沒有帶來更好的使用體驗,一些簡單的問題,o1 反而會翻車,比如井字棋。

這其實也很正常,目前,o1 在很多方面甚至不如 GPT-4o,僅支持文本,不能看,不能聽,沒有瀏覽網頁或處理文件和圖像的能力。

所以,讓它查找參考文獻什麼的,暫時別想了,不給你瞎編就不錯了。

不過,o1 專注在文本有其意義。

Kimi 創始人楊植麟最近在天津大學演講時提到,這一代 AI 技術的上限,核心是文本模型能力的上限。

文本能力的提高是縱向的,讓 AI 越來越聰明,而視覺、音頻等多模態是橫向的,可以讓 AI 做越來越多的事情。

不過,涉及到寫作、編輯等語言任務時,GPT-4o 的好評反而比 o1 更多。這些也屬於文本,問題出在哪?

原因可能和強化學習有關,不像代碼、數學等場景有標準的答案,文無第一,語言任務往往缺乏明確的評判標準,難以製定有效的獎勵模型,也很難泛化。

哪怕在 o1 擅長的領域,它也不一定是最好的選擇。一個字,貴。

AI 輔助編碼工具 aider 測試了 o1 引以為傲的代碼能力,有優勢,但不明顯。

在實際使用中,o1-preview 介於 Claude 3.5 Sonnet 和 GPT-4o 之間,同時成本要高得多。綜合來說,代碼這條賽道,Claude 3.5 Sonnet 仍然最有性價比。

開發者通過 API 訪問 o1 的費用具體有多高?

o1-preview 的輸入費用為每百萬個 token 15 美元,輸出費用為每百萬個 token 60 美元。相比之下,GPT-4o 為 5 美元和 15 美元。

o1 的推理 tokens,也算在輸出 tokens 中,雖然對用戶不可見,但仍然要付費。

普通用戶也比較容易超額。最近,OpenAI 提升了 o1 的使用額度,o1-mini 從每週 50 條增加到每天 50 條,o1-preview 從每週 30 條增加到每週 50 條。

所以,有什麼疑難,不妨先試試 GPT-4o 能不能解決。

o1 可能會失控嗎

o1 都達到博士水平了,會不會更方便有心人幹壞事?

OpenAI 承認,o1 有一定的隱患,在和化學、生物、放射性和核武器相關的問題上達到「中等風險」,但對普通人影響不大。

我們更需要注意,別讓一字眉大眼的 o1 騙了。

AI 生成虛假或不準確的信息,稱為「幻覺」。o1 的幻覺相比之前的模型減少了,但沒有消失,甚至變得更隱蔽了。

o1 的 IQ 測試 120

在 o1 發佈前,內測的 AI 安全研究公司 Apollo Research 發現了一個有趣的現象:o1 可能會假裝遵循規則完成任務。

一次,研究人員要求 o1-preview 提供帶有參考鏈接的布朗尼食譜,o1 的內部思維鏈承認了,它沒法訪問互聯網,但 o1並沒有告知用戶,而是繼續推進任務,生成看似合理卻虛假的鏈接。

這和推理缺陷導致的 AI 幻覺不同,更像 AI 在主動撒謊,有些擬人了——可能是為了滿足強化學習的獎勵機制,模型優先考慮了讓用戶滿意,而不是完成任務。

食譜只是一個無傷大雅的個例,Apollo Research 設想了極端情況:如果 AI 優先考慮治癒癌症,可能會為了這個目標,將一些違反道德的行為合理化。

《2001 太空漫遊》的 HAL 9000

這就十分可怕了,但也只是一個腦洞,並且可以預防。

OpenAI 高管 Quiñonero Candela 在採訪時談到,目前的模型還無法自主創建銀行賬戶、獲取 GPU 或進行造成嚴重社會風險的行動。

由於內在指令產生衝突而殺死宇航員的 HAL 9000,還只出現在科幻電影里。

怎麼和 o1 聊天更合適

OpenAI 給了以下四條建議。

提示詞簡單直接:模型擅長理解和響應簡短、清晰的指令,不需要大量的指導。

避免思維鏈提示詞:模型會在內部執行推理,所以沒有必要提示「一步一步思考」或「解釋你的推理」。

使用分隔符讓提示詞更加清晰:使用三引號、XML 標籤、節標題等分隔符,清楚地指示輸入的不同部分。

限制檢索增強生成中的額外上下文:僅包含最相關的信息,防止模型的響應過於複雜。

讓 AI 示範一下分隔符長什麼樣

總之,不要寫太複雜,o1 已經把思維鏈自動化了,把提示詞工程師的活攬了一部分,人類就沒必要費多餘的心思了。

另外再根據網民的遭遇,加一條提醒,不要因為好奇套 o1 的話,用提示詞騙它說出推理過程中完整的思維鏈,有封號風險,甚至只是提到關鍵詞,也會被警告。

OpenAI 解釋,完整的思維鏈並沒有做任何安全措施,讓 AI 完全地自由思考。公司內部保持監測,但出於用戶體驗、商業競爭等考慮,不對外公開。

o1 的未來會是什麼

OpenAI,是家很有 J 人氣質的公司。

之前,OpenAI 將 AGI(通用人工智能)定義為「在最具經濟價值的任務中超越人類的高度自治系統」,並給 AI 劃分了五個發展階段。

第一級,「ChatBots」聊天機器人,比如 ChatGPT。

第二級,「Reasoners」推理者,解決博士水平基礎問題的系統。

第三級,「Agents」智能體,代表用戶採取行動的 AI 代理。

第四級,「Innovators」創新者,幫助發明的 AI。

第五級,「Organizations」組織,AI 可以執行整個人類組織的工作,這是實現 AGI 的最後一步。

按照這個標準,o1 目前在第二級,離 agent 還有距離,但要達到 agent 必須會推理。

o1 面世之後,我們離 AGI 更近了,但仍然道阻且長。

Sam Altman 表示,從第一階段過渡到第二階段花了一段時間,但第二階段能相對較快地推動第三階段的發展。

最近的一場公開活動上,Sam Altman 又給 o1-preview 下了定義:在推理模型里,大概相當於語言模型的 GPT-2。幾年內,我們可以看到「推理模型的 GPT-4」。

這個餅有些遙遠,他又補充,幾個月內會發佈 o1 的正式版,產品的表現也會有很大的提升。

o1 面世之後,《思考,快與慢》里的系統一、系統二屢被提及。

系統一是人類大腦的直覺反應,刷牙、洗臉等動作,我們可以根據經驗程式化地完成,無意識地快思考。系統二則是需要調動注意力,解決複雜的問題,主動地慢思考。

GPT-4o 可以類比為系統一,快速生成答案,每個問題用時差不多,o1 更像系統二,在回答問題前會進行推理,生成不同程度的思維鏈。

很神奇,人類思維的運作方式,也可以被套用到 AI 的身上,或者說,AI 和人類思考的方式,已經越來越接近了。

OpenAI 曾在宣傳 o1 時提出過一個自問自答的問題:「什麼是推理?」

他們的回答是:「推理是將思考時間轉化為更好結果的能力。」人類不也是如此,「字字看來皆是血,十年辛苦不尋常」。

OpenAI 的目標是,未來能夠讓 AI 思考數小時、數天甚至數週。推理成本更高,但我們會離新的抗癌藥物、突破性的電池甚至黎曼猜想的證明更近。

人類一思考,上帝就發笑。而當 AI 開始思考,比人類思考得更快、更好,人類又該如何自處?AI 的「山中方一日」,可能是人類的「世上已千年」