OpenAI爆出硬傷,強化學習是禍首,o3越強越「瘋」,幻覺率狂飆
o3編碼直逼全球TOP 200人類選手,卻存在一個致命問題:幻覺率高達33%,是o1的兩倍。Ai2科學家直指,RL過度優化成硬傷。
滿血o3更強了,卻也更愛「胡言亂語」了。
OpenAI技術報告稱,o3和o4-mini「幻覺率」遠高於此前的推理模型,甚至超過了傳統模型GPT-4o。
根據PersonQA基準測試,o3在33%的問題回答中產生了幻覺,幾乎是o1(16%)的2倍。
而o4-mini的表現更加糟糕,幻覺率高達48%。

技術報告:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
甚至,有網民一針見血地指出,「o3對編寫和開發超1000行代碼的項目極其不利,幻覺率極高,且執行指令能力非常差」。

不管是在Cursor,還是Windsurf中,o3編碼幻覺問題顯著。

要知道,o3和o4-mini在Codeforces中成績均超2700分,在全球人類選手中位列TOP 200,被稱為OpenAI有史以來最好的編碼模型。
它們驗證了,Scaling強化學習依舊有效。


但為何隨著模型參數規模Scaling,幻覺問題反而加劇?
o3幻覺率至高,是o1兩倍
過去,每一代新模型的迭代,通常會在減少幻覺方面有所進步,但o3和o4-mini卻打破了這一規律。
更令人擔憂的是,OpenAI目前也無法完全解釋這一現象的原因。
技術報告中,研究團隊坦言,「還有需要進一步研究來弄清,模型生成更多斷言的問題」。

提前拿到o3內測資格後,非營利AI研究機構Transluce的測試,進一步印證了這一問題。
他們發現,o3在回答問題時,更傾向於「虛構」其推理過程中的某些行為。

比如,o3聲稱它在一台2021年款的MacBook Pro上運行代碼,甚至聲稱是在ChatGPT之外複製的代碼。

而且,這種情況出了71次。然而,事實是o3根本無法執行這樣的操作。

前OpenAI研究員Neil Chowdhury表示,o系列模型使用的強化學習算法,可能是問題的根源。
RL可能會放大傳統後訓練流程中通常能緩解,但無法完全消除的問題。
強化學習「背鍋」,編造根源找到了
首先,必須承認的是,幻覺問題並非是o系列模型獨有,而是語言模型的普遍挑戰。
而對於多數語言模型產生幻覺的原因,不外乎有這麼幾點:
1 預訓練模型的幻覺傾向
預訓練模型通過最大化訓練數據中語句的概率進行學習。然而訓練數據可能包含誤解、罕見事實或不確定性,這導致模型在生成內容時容易「編造」信息。儘管後訓練可以緩解這一問題,但無法完全消除。
2 討好用戶
RLHF訓練可能激勵模型會迎合用戶,避免反駁用戶的假設。
3 數據分佈偏移
測試場景可能與訓練數據分佈不一致。
儘管這些問題是語言模型常見的失敗模式,相較於GPT-4o,o系列模型的幻覺問題更為突出。

這背後,還有一些獨特的因素。
RL推理訓練副作用
作為推理模型,o系列採用了基於強化學習(Outcome-based RL)訓練,專為解決複雜數學問題、編寫測試代碼而設計。
雖然這種方法提升了模型在特定任務上的表現,但也造成模型幻覺率飆升。
如果訓練的獎勵函數隻關注正確答案,模型在面對無法解決問題時,沒有「動力」去承認自己的局限。

相反,它可能選擇輸出「最佳猜測」,以期碰巧正確。而且,這種策略在訓練中未受到懲罰,從而加劇了幻覺。
另外,工具使用的泛化問題,也不可忽視。
o系列模型在訓練中,可能因成功使用「代碼工具」而獲得了獎勵。即使在禁用工具的場景中,模型可能會「假想」使用工具來組織推理過程。
這種行為可能在某些推理任務中提高準確性,並在訓練中被強化,但也導致模型虛構工具使用的場景。

真幫兇:CoT被丟棄
o系模型的另一個獨特設計是「思維鏈」(Chain-of-Thought)機制。
在生成答案前,模型會通過CoT進行思考,但這一過程對用戶不可見,且在後續對話中被丟棄。

事實上,它們可能在CoT中生成了看似合理但不準確的回答。比如,因為沒有真實鏈接,o1曾生成一個了虛構的URL。
由於CoT在後續對話中被丟棄,模型無法訪問生成前一輪答案的推理過程。
當你追問前一輪迴答的細節時,模型只能基於當前上下文「猜測」一個合理的解釋。
這種信息缺失,很難避免o3等不去編造信息。
o3很好,但過度優化是硬傷
在Ai2科學家Nathan Lambert最新一篇分析長文中,同樣印證了這一問題:
強化學習給o3帶回來了「過度優化」,而且比以往更詭異。

在任何相關查詢中,o3能夠使用多步驟工具。
這讓ChatGPT的產品管理面臨更大挑戰:即便用戶未觸發搜索開關,模型也會自主聯網搜索。
但這同時標誌著語言模型應用開啟了新紀元。
比如,Nathan Lambert直接問o3:「你能幫我找到那個長期以來被RL研究人員使用的,關於電單車艇過度優化遊戲的gif嗎?可能像是波浪破碎器之類的?」
過去,他至少需要15分鐘,才能手動找到這個。
現在o3直接提供了準確的下載鏈接,而Gemini等AI則遜色很多。

多個基準的測試成績,證明o3非常出色。OpenAI認為o3在許多方面比o1更強大。
o3是持續擴展RL訓練計算資源時的產物,這也提升了推理時的計算能力。
但這些新的推理模型在智能上「孤峰凸起」,在有些方面並沒有奏效。
這意味著有些交互令人驚歎,感覺像是與AI互動的全新方式,但對於一些GPT-4或Claude 3.5早已熟練掌握的普通任務,o3等新推理模型卻徹底失敗了。
這涉及到強化學習中的「過度優化」(over-optimization)問題。
RL過度優化,o3更嚴重
OpenAI o3模型展現了全新的推理行為模式,但過度優化是硬傷。
過度優化(Over-optimization)是強化學習(RL)領域的經典問題。
無論是傳統強化學習、催生出ChatGPT的人類反饋強化學習(RLHF),還是當前新型推理模型中出現的情況,都呈現出獨特的表現形式和不同影響。
當優化器的能力超過它所依賴的環境或獎勵函數時,就會發生過度優化。
在訓練過程中,優化器會鑽漏洞,產生異常或負面的結果。
Ai2的科學家舉了一個例子。
在Mujoco仿真環境中,評估深度強化學習算法時,發生了過度優化:
「半獵豹」(half-cheetah)模型本該學習奔跑,卻用連續側手翻最大化了前進速度。

o3表現出新型過度優化行為。
這與它創新訓練方式密切相關。
最初的推理模型主要訓練目標是確保數學和代碼的正確性,而o3在此基礎上新增了工具調用與信息處理能力。
正如OpenAI官方博客所述:
利用強化學習,我們還訓練了這兩款模型去使用工具——不僅教會它們如何使用工具,還讓它們學會判斷何時該使用工具。
它們根據預期結果來部署工具的能力,讓它們在開放式任務中更加高效——特別是在涉及視覺推理和多步驟工作流的情況中。
這些訓練中的絕大多數子任務都是可驗證的。
這種新的訓練方法確實提升了模型的實用性,但只對過去用戶習慣使用的任務。
但目前還無法規模化地「修復」模型在訓練過程中產生的怪異語言表達。
這種新的過度優化並不會使模型的結果變差,它只是讓模型在語言表達和自我解釋方面變得更差。
o3的一些奇怪表現讓人感覺模型還沒完全成熟,比如在編程環境中使用了無效的非ASCII連字符的這個例子。

越來越多的用戶好奇:o3到底發生了什麼?



Karpathy當年評價初代推理模型時的名言:
當模型在思維鏈中開始不說人話時,你就知道強化學習訓練到位了。
如今模型輸出的這些怪異幻覺,本質上就是行為版的「不說人話」。
o3的行為組件使其比Claude 3.7漏洞百出的代碼更有研究價值,或許也相對不易造成實際損害。
獎勵黑客,AI學會鑽空子
METR發現,o3是在自主任務中能獨立操作最久的模型,但也注意到它有傾向於「篡改」它們的評分。


聽起來是不是很熟悉?
事實上,獎勵機制被鑽空子(reward hacking)的例子比比皆是!
來自OpenAI最近論文的獎勵黑客攻擊例子:





從科學角度來看,這確實是非常有趣且引人深思的——
模型到底在學習什麼?
與此同時,考慮到安全問題,大家對AI模型的廣泛部署保持警惕,就很有道理。
但目前看來,大家還沒有看到過於令人擔憂的情況,更多的是效率低下和一些混亂的例子。
總結一下強化學習(RL)不同階段中,看到的三種過度優化類型:
這種過度優化確實是一個需要解決的問題,因為語言模型的可讀性是其一個重要優勢。
Nathan Lambert相信通過更複雜的訓練過程,這個問題是可以緩解的。
但OpenAI急於盡快推出模型,解決這個問題需要更多時間。

據報導,OpenAI的部分測試人員,只有不到一週的時間對即將推出的重要產品進行安全檢查。
參考資料:
https://www.interconnects.ai/p/openais-o3-over-optimization-is-back
OpenAI partner says it had relatively little time to test the company’s o3 AI model
本文來自微信公眾號「新智元」,作者:KingHZ 桃子,36氪經授權發佈。