別再把o1滿血版當聊天模型了!SpaceX前工程師公開全新使用秘籍:從討厭它到每天依賴它

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI

蘋果&SpaceX前工程師分享o1使用心得,奧特曼、Brockman都轉發了。

劃重點:

o1已經不是聊天模型了,需要全新的使用方法。

奧特曼還跑去挖墳作者Ben Hylak數天前的「自我打臉」評論,稱「觀察o1的口碑變化、以及人們學習如何使用它很有趣」。

Ben Hylak曾任SpaceX軟件工程師、蘋果VisionOS人機交互設計師,目前在創業為AI產品提供分析服務。

具體來說,Ben在o1 pro推出滿血$200/月版本的第一天就交錢了,整整測試了一天后得出結論:它真的很糟糕!

  • 每次提問都要等待5分鐘

  • 會輸出自相矛盾的建議

  • 沒有要求但總是會回覆架構圖+優勢/劣勢列表

Ben把糟糕的體驗發在網上後,很多人表示同感。但有趣的是,也有人強烈反對。

他開始與持不同觀點的討論,然後意識到原來是自己的方法完全錯了。

我還在把o1當聊天模型來用,但o1已經不是聊天模型了。

現在,Ben已經從討厭o1,轉變成了每天都在用它解決最重要的問題。

像對待新員工一樣對待o1

如果說o1不是聊天模型了,那它現在是什麼?

Ben認為它就像一個「報告生成器」。如果你給它足夠的上下文,並告訴它你想要輸出什麼,它通常會一次性找到解決方案。

OpenAI官方其實給了一個簡單的o1使用建議,但並不完善。

Ben的建議包括:

提供海量背景信息

不管你現在是怎麼理解「海量」的,再乘以10倍。

當使用GPT-4o或Claude 3.5等聊天模型時,通常會從一個簡單的問題和一些背景信息開始。如果模型需要更多背景信息,它通常會要求你繼續提供。

這就是聊天模型的本質,從一來一回的交互中不斷完善輸出。

但o1只會從表面上回答你提出的問題,不會試圖從你那裡獲取背景信息。所以需要反過來將儘可能多的上下文主動發給它。

即使只是問一個簡單的代碼工程問題,應該提供:

  • 解釋所有你嘗試過但不起作用的方案

  • 一份完整的數據庫schemas

  • 解釋一下你的公司是做什麼的,規模多大,定義內部術語

總而言之,就像對待新員工一樣對待o1。

描述你想要什麼,而不是指導它如何做

對於大多數聊天模型,我們都會告訴模型希望他如何回覆模式,比如「扮演一位軟件工程專家,請仔細思考」。

但在o1上有效的方法正相反,告訴它你需要什麼,而不是指導它如何去做。

Ben把o1的提示詞模板分成4部分:

  • 目標放在最前面

  • 詳細指定輸出格式

  • 可以附加需要檢查的注意事項

  • 海量相關的背景信息

最後,o1的輸出有一種學術/商業報告的風格。Ben認為太多的推理token讓它很難擺脫這種風格

他曾試圖讓o1來完成這篇文章,但經過多次嘗試,只能得到非常平淡的學生作業。

One More Thing

在奧特曼的轉發推文中,有人套出了最新消息:

o3暫時還不會向用戶開放,o3-mini會先推出,而且時間不遠了。

o3-mini會先提供給Plus訂閱用戶使用,API的定價OpenAI內部還沒確定,但不會很貴。

參考鏈接:

[1]https://www.latent.space/p/o1-skill-issue

[2]https://x.com/sama/status/1877814065088663763

[3]https://x.com/gdb/status/1878489681702310392