GPT-4o 能玩《黑神話：悟空》：精英怪勝率超人類，無強化學習純大模型方案

09月22日 15:06 新浪網 news-china-auto-hilite

AI 玩黑神話，第一個精英怪牯護院輕鬆拿捏啊。

有方向感，視角也沒有問題。

躲閃劈棍很絲滑。

甚至在打鴉香客和牯護院時，AI 的勝率已經超過人類。

而且是完全使用大模型玩，沒有使用強化學習。

阿里巴巴的研究人員們提出了一個新型 VARP（視覺動作角色扮演）智能體框架。它能直接將遊戲截圖作為輸入，通過視覺語言模型推理，最終生成 Python 代碼形式的動作，以此來操作遊戲。

以玩《黑神話・悟空》為例，該智能體在 90% 簡單和中等水平戰鬥場景中取勝。

GPT-4o、Claude 3.5 都來迎戰

研究人員以《黑神話・悟空》為研究平台，一共定義了 12 個任務，75% 與戰鬥有關。

他們構建了一個人類操作數據集，包含鍵鼠操作和遊戲截圖，一共 1000 條有效數據。

他們構建了一個人類操作數據集，包含鍵鼠操作和遊戲截圖，一共 1000 條有效數據。

每個操作都是由原子命令的各種組合組成的序列。原子命令包括輕攻、閃避、重攻擊、回血等。

然後，他們提出了 VARP 智能體框架。主要包含動作規劃系統和人類引導軌跡系統。

其中動作規劃系統由情境庫、動作庫和人類引導庫組成，利用 VLMs 進行動作推理和生成，引入分解特定任務的輔助模塊和自我優化的動作生成模塊。

人類引導軌跡系統利用人類操作數據改進智能體性能，對於困難任務，通過查詢人類引導庫獲取相似截圖和操作，生成新的人類引導動作。

同時 VARP 還包含 3 個庫：情景庫、動作庫和人工引導庫。這些庫中存儲了 agent 自我學習和人類指導的內容，可以進行檢索和更新。

動作庫中，「def new_func_a ()」表示動作計劃系統生成的新動作，「def new_func_h ()」表示人導軌跡系統生成的動作。「def pre_func ()」代表預定義的動作。

動作案例研究和相應的遊戲截圖。第一行和第二行中的操作是預定義的函數。第三行動作由人工製導軌跡系統生成。

SOAG 會在玩家角色與敵人的每次戰鬥互動後總結第四行和第五行中的新動作，並將其存儲在動作庫中。

框架分別使用了 GPT-4o（2024-0513 版本）、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。

對比人類和 AI 的表現結果，可以看到小怪部分 AI 們的表現達到人類玩家水平。

到了牯護院時，Claude 3.5 Sonnet 敗下陣來，GPT-4o 勝率最高。

但是對於新手玩家普遍頭疼的幽魂，AI 們也都束手無策了。

另外研究還提到，由於 VLMs 推理速度受到限制，是無法實時輸入每一幀畫面的。它只能間隔輸入關鍵幀，這也會導致 AI 在一些情況下錯過 boss 攻擊的關鍵信息。

以及由於遊戲中沒有明確的道路引導且存在很多空氣牆，在沒有人類引導下，智能體也不能自已找到正確的路線。

如上研究來自阿里團隊，一共有 5 位作者。

後續相關代碼和數據集有發佈計劃，感興趣的童鞋可以蹲下。

One More Thing

AI 打遊戲並不是一個新鮮事了，比如 AI 基於強化學習方法打《星際爭霸 II》已經可以擊敗人類職業高手。

利用強化學習方案，往往需要輸入大量對局。商湯此前訓練的 DI-star（監督學習 + 強化學習），就用了「16 萬場錄像」和「1 億局對戰」。

但是純大模型也能打遊戲，還是很出乎意料的。在本項研究中，數據集中的有效數據為 1000 條。

論文地址：

https://arxiv.org/abs/2409.12889

項目地址：

https://varp-agent.github.io/

本文來自微信公眾號：微信公眾號（ID：QbitAI），作者：小明，原標題《GPT-4o 能玩《黑神話》！精英怪勝率超人類，無強化學習純大模型方案》

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。