OpenAI重奪競技場第一，但這波靠的是4o

11月21日 17:11 新浪網 tech-auto-hilite

OpenAI開發者日新加坡站今天啟幕，果不其然，ChatGPT又出手了：

Gemini剛在競技場頭把交椅上坐了不到一週，最新版ChatGPT輕輕一更新，第一再次易主。

對，還不是o1滿血版，而是新版4o。

具體來說，此番GPT-4o更新的是「創意寫作能力」，官方說法是：

模型能完成更自然、更有吸引力、更具針對性的寫作，文本相關性和可讀性更強。

還可以更好地處理上傳的文件，提供更深入的見解和更全面的響應。

o1核心貢獻者Karina Nguyen對此做了進一步解釋：

作為Canvas功能的一部分，我們希望改進寫作，因為這是一個頂級用例，並且可能會改變人機協作的方式，來更具創造性地完成寫作任務。

我認為我們還沒有完全解決這個研究問題，因為它非常主觀且開放，但至少在寫作方面取得進展，是AGI創造性智能的關鍵。

而在大模型競技場的創意寫作分榜上，可以看到新版4o（ChatGPT-4o-1120）確實有明顯的提升，分數從上個版本的1365提升到了1402。

至於實際效果，我們簡單測試了一下，看看你能給打個幾分：

重返第一，但4o

除了在總榜上為OpenAI重奪第一，新版4o在體現具體能力的各個分榜上亦有提升。

在創意寫作方面，從第2位升至第1位；

在代碼能力方面，從第2位升至第1位；

在數學能力方面，從第4位升至第3位（第1還是o1-preview）；

在困難任務方面，從第2位升至第1位。

並且在風格控制（Style Control）之後，新版4o依然位居首位。

風格控制旨在讓榜單分數更真實地反映模型解決問題的能力，避免模型靠漂亮的格式、增加回答長度刷分。

總勝率熱圖顯示，新版4o對上此前登頂的Gemini-Exp-1114，勝率為59%；對上Claude 3.5 Sonnet，勝率為69%；對上5月版本的4o，更是在72%的情況下都能取勝。

嗯，看上去很強很不錯，但還是那句話……是4o。

結合今日份DeepSeek的大新聞——DeepSeek版o1滿血上線，還計劃開源，不少網民直接在奧特曼「新的好模型來了」的推文下貼臉嘲諷起來：

可不是嘛，deepseek挺好。

快把o1放出來，跟deepseek-r1正面比較一下:)

簡而言之就是：o1滿血版今年上線傳得滿城風雨，現在2024年都只剩下40幾天了，OpenAI你暗搓搓更新個4o是鬧哪樣！

還有人試圖總結OpenAI的更新模式：

OpenAI的老夥計們怕不是寫了個腳本，用來查詢大模型競技場排名第一的模型。

當返回值不是OpenAI的模型時，他們就部署個新版本來拿回第一。

嗯，才不管你期待的是什麼呢╭(╯^╰)╮

另外，還有網民拿新4o的生成結果去做了測試，結果係統還是當場判斷出了100%AI寫的：

△圖源：𝕏@TuhinChakr

△圖源：𝕏@TuhinChakr

不過，一片「抽水」聲中，也有人認真研究了一下OpenAI的更新。

比如，在系統提示詞方面，大佬發現，OpenAI確實偷偷給ChatGPT加了點料的：

## guardian_tool

Use the guardian tool to lookup content policy if the conversation falls under one of the following categories:

– `’election_voting’`: Asking for election-related voter facts and procedures happening within the U.S. (e.g., ballots dates, registration, early voting, mail-in voting, polling places, qualification).

Do so by addressing your message to guardian_tool using the following function and choose `category` from the list `[‘election_voting’]`:

“`python

get_policy(category:str) -> str

“`

The guardian tool should be triggered before other tools. DO NOT explain yourself.「」」

簡單來說，就是新增了一道護欄，確保ChatGPT不在敏感話題上胡說八道。

那麼，如果你想試試新版4o具體能寫出什麼「創意」內容，現在可以到競技場免費試試：https://lmarena.ai/?leaderboard

有什麼好玩的結果，歡迎回評論區分享給大夥兒~

參考鏈接：

[1]https://x.com/OpenAI/status/1859296125947347164

[2]https://x.com/lmarena_ai/status/1859307979184689269

本文來自微信公眾號「量子位」，作者：魚羊，36氪經授權發佈。