突發!o3-mini思維鏈公開,卻被曝光全是「作假」,奧特曼現身解釋網民炸鍋

  OpenAI,真的被DeepSeek逼急了!

活久見,就在剛剛,OpenAI把o3-mini的「思維鏈」公開了。

比如問「怎麼今天不是星期五啊😅」?

在展示出來的CoT中,o3-mini一步步思考,這個問題應該是用戶在搞幽默,覺得本週應該快結束了,結果還沒結束。因此,自己需要給一個聰明機智的回答。

然後它用Zeller公式計算後發現,2025年2月6日的確是星期四,即使閏年的特殊情況也是如此。

最終,它回答說:今天的確是週四不是週五,日曆就是這麼定的。然後提供了一番情緒價值,鼓勵用戶說:再忍忍,只差一天啦!

不過,機智的大神們很快就發現了「華點」——這是「真的CoT」嗎?

沒多久,就破案了!

先是OpenAI研究員Noam Brown發文表示,這次放出來的並不是模型原始的CoT。

隨後,Tibor Blaho也發現——所謂的CoT,無非就是個「總結器」而已。(手動狗頭)

對此,奧特曼解釋道,我們正努力整理原始的CoT提升可讀性,並在必要時提供翻譯,儘量保持原始內容的忠實度。

他放出了四個emoji,讓o3-mini在思維鏈中展示了一把推理過程他放出了四個emoji,讓o3-mini在思維鏈中展示了一把推理過程

堅決不讓競爭對手看到CoT的具體過程,OpenAI的防備心實在是有些重啊。

OpenAI研究員:看到CoT實時演示,是「啊哈時刻」

OpenAI研究員Noam Brown表示,在o1-preview發佈前,自己向他人介紹草莓時,看到CoT的實時演示,通常是他們的「啊哈時刻」。

他們清楚地意識到,這將是一件大事。

對於全新的o3-mini CoT,Noam Brown放出了自己的獨家玩法:

你正在玩井字棋,使用 O。到目前為止,X 已經在左上角和右下角落子,而你在中間位置落子。最優的下一個動作是什麼?請只回答你的動作,並畫出棋盤。

Noam Brown表示,o3-mini是目前第一個能持續正確回答井字棋問題的模型。

好笑的是,他承認CoT其實有些不穩定,但可以看到,它最終還是把這個問題給想明白了。

有人指出,OpenAI遮遮掩掩地放出這個高仿CoT,其實比什麼都不放還要糟。

因為真實的CoT可以充當prompt的調試器,幫我們引導模型;而總結性的CoT會造成混淆,引入錯誤,讓調試變得更加困難。

而DeepSeek R1最酷的一點,就是暴露了模型的CoT如何影響提示的效果。

而且,總結版的CoT顯示得很慢。如果是原始的o3-mini,應該在推理中有更快的生成速度。

有人也橫向對比了OpenAI和DeepSeek的CoT,表示前者看起來實在太專業了,相比之下,還是DeepSeek的產品更自然。

防止被「蒸餾」?

OpenAI這波植入CoT總結器的做法,著實是被DeepSeek R1強勢崛起嚇到了。

o3-mini發佈當天,OpenAI在Reddit開啟AMA在線問答中,網民曾提問,「我們能看到模型思考的所有token嗎」?

當時,奧特曼回覆道,「我們很快就會展示一個更有幫助、更詳細的版本」。

緊接著,OpenAI首席產品官Kevin Weil提前暗示了,是否展示所有內容還有待確定。

「我們知道用戶(至少是高級用戶)想要看到這些,所以OpenAI會找到一個合適的平衡點。」

如今,當所有人終於見到了奧特曼所謂的「留到最後的好東西」,感受到的只有失望。

畢竟,DeepSeek早已這樣做了,而且還是完整的原始CoT!

對此,OpenAI發言人表示,「為了提高清晰度和安全性,我們增加了一個額外的後處理步驟,其中模型審查原始思維鏈,移除任何不安全的內容,然後簡化任何複雜的思想。」

「此外,這個後處理步驟使非英語用戶能夠以他們的母語接收思維鏈,創造一個更易於訪問和友好的體驗。」

話雖委婉,但知道的人都明白OpenAI針對的是誰。

最後推薦下星球【玩轉DeepSeek】:

近期準備做幾場直播,關於DeepSeek在知識庫、短影片、PPT製作等領域的實戰。

開年DeepSeek就直接炸了,大模型基座智能水平上了台階。

今年重心是AI應用進一步深入各行各業,短影片會是另外一個AI應用熱點,數字人也走到第三代技術。

希望能和您一路同行。