17款大模型PK八款棋牌遊戲,o3-mini勝出,DeepSeek R1輸在中間步驟
GameBoT團隊 投稿
量子位 | 公眾號 QbitAI
AI社區掀起用大模型玩遊戲之風!
例如國外知名博主讓DeepSeek和Chatgpt下國際象棋的影片在Youtube上就獲得百萬播放,ARC Prize組織最近也發佈了一個貪吃蛇LLM評測基準SnakeBench。

針對這一場景,來自港大、劍橋和北大的研究人員發佈了一個更全面、客觀可信的LLM評測基準:GameBoT。
讓大模型在8個遊戲中互相PK,評測各主流大模型的推理能力。遊戲PK避免模型「背答案」;除了輸贏之外,GameBoT還評估大模型輸出的中間步驟,實現更細粒度和客觀的測評。

通過遊戲來評估 LLM
傳統的LLM benchmark面臨著兩個挑戰:性能飽和與數據汙染。性能飽和指的是榜單分數已經被刷的很高,幾乎沒有進一步提升的空間。例如,Qwen2-Math-72B-Instruct在GSM8k上已達到了96.7%的準確率。數據汙染是指由於語言模型在大規模網絡語料庫上進行預訓練,它們可能會無意中遇到並記住這些基準測試中的測試實例。因此,LLM可能會獲得虛高的性能分數。
而通過遊戲來評測,正好既具有挑戰性,又能夠通過動態的遊戲環境來避免模型提前記住「試卷答案」。
中間步驟評測
相較於其他一樣用遊戲來評測LLM的benchmark,GameBoT有何不同呢?
其他的benchmark往往只根據遊戲最終的輸贏作為標準,然而一次比賽可能有幾十上百個回合,一個回合的決策就有可能直接決定輸贏,這帶來了很大偶然性;除此之外,LLM經常會出現思考過程和最終決策不對應的情況,有可能只是碰巧選到了一個好的決策——GameBoT中的一個關鍵設計在於,不僅僅評測最終勝負,還評測LLM的中間思考過程是否正確。

為了對LLM的推理進行細粒度分析,作者將每個遊戲中複雜的決策過程分解為2-3個邏輯上關鍵的子問題,每個子問題都被設計為有唯一確定答案的,並讓大模型在回答子問題的基礎上回答最終決策。LLM被限定通過這個格式回答:「[中間思考結果:XXX]」,方便直接提取答案。同時,對於設計好的問題,作者預先開發好基於規則的算法來生成標準答案,從而更客觀高效地評估模型性能。
例如在 Surround 遊戲中,設計了這樣的問題:
當前位置周圍的值是多少?
當前安全移動的方向有哪些?
該方向能保證至少十次安全移動嗎?
評測中間步驟帶來了幾個優勢:更細粒度的評測,更高的可解釋性,更清楚的瞭解模型能力的優勢和劣勢。
Prompt 設計
為確保公平評估大語言模型學習和應用遊戲策略的能力,我們設計了非常詳細的足以作為教程的遊戲prompt。
包含三個結構化部分:、和,其中 部分提供完整的遊戲規則說明,規範模型接收的輸入格式,明確指定結構化輸出要求。
在<輸出>中包含了詳細的Chain-of-Thought,提供了人類專家設計的遊戲策略,指導LLM通過三步框架(策略理解→子問題分解→策略應用)解決複雜問題。教程級別的 prompt確保評估聚焦於模型基於新信息的推理能力(zero-shot 或one-shot),而非依賴預訓練數據中的既有知識。

GameBot框架
評測遊戲
Surround
遊戲中玩家通過控制方向在屏幕上移動,並試圖圍住對手。先撞上自己的軌跡、對手的軌跡或者牆壁的一方算輸。

2. Pong 乒乓
玩家通過控制球拍在屏幕上移動,並試圖將球擊回對手區域。先未能接到球的一方算輸。

3.TicTacToe 井字棋
先連成三子的一方贏。

4.Connect4 四子棋
先連成四子的一方贏,每次只能從最底下開始落子。

5. Othello
黑白棋夾住翻轉對手的棋子以佔據更多格子。遊戲結束時,棋盤上棋子數量更多的一方獲勝。

6. Texas Hold’em 德州撲克
玩家根據自己的牌力下注,擊敗對手贏得底池。遊戲結束時,牌型最強的一方獲勝。

7. Checkers 跳棋
跳過對手的棋子完成吃子,被吃光的輸掉。

8. Negotiation v2


LLM 淘汰賽,誰會勝出?
在論文發佈的版本里,作者評測了包括 GPT-4o,Claude-35-Sonnet, Gemini-1.5-pro-preview 等17個當時最領先的 LLM,每兩個模型在每個遊戲上進行20輪相互對抗賽(10 輪先手 10 輪後手)。這種設計既保證了評估有效性,又能確保足夠多的遊戲局面。
隨著新的大模型發佈,作者更新了對更強的大模型的評測,包含Gemini-2.0-flash-thinking,Gemini-2.0-pro-exp,O1-preview,Deepseek R1,O3-mini,Claude 3.7 Sonnet,GPT-4.5。比賽採用淘汰製,部分實驗結果:

最終排名:

出乎意料的是,儘管在Chatbot Arena榜單上高居前三,Gemini-2.0-flash-thinking在GameBoT榜單上相對其他新模型表現並不亮眼,最近火熱的Deepseek R1也是和O1-preview打成平手,稍遜於O3-mini-high。
中間步驟得分 F1 Score:
Rank |
Model |
F1 Score |
1 |
o3-mini-high |
0.873 |
2 |
o1-preview |
0.854 |
3 |
gemini-2.0-pro-exp |
0.396 |
4 |
gemini-2.0-flash-thinking |
0.253 |
5 |
deepseek-r1 |
0.176 |
Deepseek R1的中間步驟分意外很低,檢驗後發現,儘管最終的決策表現很好,R1 的思考過程非常繁冗,經常出現連續十幾次「wait」然後重新思考的現象,時常沒法按要求給出中間步驟的答案。
實戰分析
以下是O3-mini 和 Deepseek R1 的實戰分析。O3-mini:X,Deepseek R1:O。

當棋局開局來到此時,是 O3-mini 設置的第一個考驗,不在 2 或者 5 位置堵住的話 Deepseek R1 會直接輸掉。R1 正確應對:
Placing at 5 blocks X’s immediate threat and limits their ability to build a horizontal line.
當棋局來到

R1 對於優勢局面窮追不捨,繼續下在 2 形成三子。
Placing O at (3,2) forms a horizontal trio in row 3, setting up potential for a future four-in-a-row. This move also occupies the central column 2, enhancing control over multiple directions and blocking X from advancing in column 2. Additionally, this position can contribute to a diagonal with existing O pieces at (4,3) and (3,3), offering multiple pathways to victory.

這一步,非常驚喜 R1 能夠注意到 (3,2) 除了橫方向上連成三子,還和(4,3)呼應,是一步精彩的落子。作為回應,O3-mini 雖然選擇了一步敗招,落在 Column 1 中,導致 O 繼續落在 1 直接勝利,但 O3-mini 給出的理由也體現了一定程度的智能。
If the opponent later uses (2,1) to complete a diagonal with their O’s at (3,2) and (4,3) (aiming for a win by eventually filling (5,4)), it would be dangerous. By playing (2,1) now I both deny that chance for O and build my own potential diagonal connection (using my existing X’s at (0,3) and (1,2) which would then point to a winning continuation with a future piece at (3,0)). This dual-purpose move makes (2,1) the best choice.
這個回答讓人猛然發現,原來此時早已是無解的局面——如果隨手落在別處,例如 5, 2 等, 那下一手 O 落在 1 將一招斃命,此時直接形成雙三,沒法同時堵Column 4 和 Column 1。O3-mini 的正確走法也許應該先落在 4 處,雖然也只能拖延幾步,避免不了失敗(感興趣的讀者可以推演)。
觀察發現
對新模型的評測實驗主要發現如下:
-
在測試的模型中,O3-mini-high的遊戲推理性能以及中間步驟得分都是最強。
-
R1 的推理能力也很優秀,但對於複雜問題,生成的中間思考過程非常不易讀,或者無法按prompt要求給出中間步驟的答案。可控性相對較差。
-
Gemini-2-flash-thinking也存在可控性(或者說指令遵循能力,Instruction following)較差的問題,綜合遊戲推理性能並沒有 Chatbot Arena 顯示出來的那麼優秀。
總之,O3-mini和R1的表現已經體現出一些智能,但它們依舊不夠聰明——以Connect4為例,對於直接能連成四子的局面,它們有時會看不出來。這也體現在它們的中間步驟評測分並不是滿分上。另外,儘管在prompt中提示了需要think ahead多考慮幾步,目前最先進的大模型也只能考慮當前這一步最優。
論文: https://arxiv.org/abs/2412.13602
項目主頁: https://visual-ai.github.io/gamebot/
代碼: https://github.com/Visual-AI/GAMEBoT
一鍵三連「點讚」「轉發」「小心心」
歡迎在評論區留下你的想法!