ICML Spotlight | MCU:全球首個生成式開放世界基準,革新通用AI評測範式

該工作由通用人工智能研究院 × 北京大學聯手打造。第一作者鄭欣悅為通用人工智能研究院研究員,共同一作為北京大學人工智能研究院博士生林昊葦,通訊作者為北京大學助理教授梁一韜和通用人工智能研究院研究員鄭子隆。

開發能在開放世界中完成多樣任務的通用智能體,是AI領域的核心挑戰。開放世界強調環境的動態性及任務的非預設性,智能體必須具備真正的泛化能力才能穩健應對。然而,現有評測體系多受限於任務多樣化不足、任務數量有限以及環境單一等因素,難以準確衡量智能體是否真正理解任務,或僅是記住了特定解法。

為此,我們構建了 Minecraft UniverseMCU ——一個面向通用智能體評測的生成式開放世界平台。MCU 支持自動生成無限多樣的任務配置,覆蓋豐富生態系統、複雜任務目標、天氣變化等多種環境變量,旨在全面評估智能體的真實能力與泛化水平。該平台基於高效且功能全面的開發工具 MineStudio構建,支持靈活定製環境設定,大規模數據集處理,並內置 VPTsSTEVE-1 等主流 Minecraft 智能體模型,顯著簡化評測流程,助力智能體的快速迭代與發展。

  • 論文地址:https://arxiv.org/pdf/2310.08367

  • 代碼開源:https://github.com/CraftJarvis/MCU

  • 項目主頁:https://craftjarvis.github.io/MCU

  • MineStudiohttps://github.com/CraftJarvis/MineStudio

🚨開放世界AI,亟需理想的評測基準!

傳統測試基準包含有標準答案的任務(如代碼、推理、問答),但開放世界任務 Minecraft 有著完全不同的挑戰:

  • 目標開放多樣:任務沒有唯一解,策略可以千變萬化;

  • 環境狀態龐雜:狀態空間近乎無限,還原真實世界複雜度;

  • 長週期任務挑戰:關鍵任務持續數小時,智能體需長期規劃。

在這樣的環境中,我們需要的不只是一個評分系統,而是一個維度豐富、結構多元的綜合評測框架。

🌌MCU:為開放世界 AI 打造的全方位試煉場

當前已有不少 Minecraft 的測試基準,但它們普遍面臨「三大瓶頸」:

  • 任務單一:局限於如挖鑽石、製造材料等少數幾個場景的循環往複。

  • 脫離現實:部分建模任務甚至超出了普通人類玩家的能力範疇。

  • 依賴人工評測:效率低下,導致評測難以規模化推廣。

與之前 

與之前 

minecraft 測試基準對比示意圖。

針對以上痛點,MCU 實現了以下三大核心突破:

一:3,452 個原子任務 × 無限組合生成,構築海量任務空間

MCU 構建了一個覆蓋真實玩家行為的超大任務庫:

  • 11 大類 × 41 子類任務類型:如挖礦、合成、戰鬥、建造等;

  • 每個任務都是原子級粒度可獨立測試控制、規劃、推理、創造等能力;

  • 支持 LLM 動態擴展任務,比如:用鑽石劍擊敗殭屍、雨天徒手採集木材、

在沙漠中建一座水上屋

🔁任意組合這些原子任務,即可生成無限的新任務,每一個都對 AI 是全新挑戰!

模擬多樣化真實世界挑戰。

模擬多樣化真實世界挑戰。

任務全自動生成 × 多模態智能評測,革新評估效率

GPT-4o 賦能,一句話生成複雜世界:

  • 自動生成完整的任務場景(包括天氣、生物群系、初始道具等)。

  • 智能驗證任務配置的可行性,有效避免如「用木鎬挖掘鑽石」這類邏輯錯誤型任務。

VLM(視覺語言模型)驅動,徹底改變了傳統人工打分的低效模式:

  • 基於 VLM 實現對任務進度、控制策略、材料利用率、執行效率、錯誤檢測及創造性六大維度的智能評分。

  • 模型自動生成詳盡的評估文本,評分準確率高達 91.5%

  • 評測效率相較人工提升 8.1 倍,成本僅為人工評估的 1/5

任務生成 

任務生成 

多模態評測流程圖。

三:高難度 × 高自由度的試金石任務設計,深度檢驗泛化能力

MCU 支持每個任務的多種難度版本,如:

  • 「白天在草原擊殺羊」VS「夜晚在雨林躲避怪物並擊殺羊」;

  • 「森林里造瀑布」VS「熔岩坑邊緣建造瀑布」。

這不僅考驗 AI 是否能完成任務,更深度檢驗其在複雜多變環境下的泛化與適應能力。

📉打破「模型表現良好」的幻象:現有 SOTA 模型能否駕馭 MCU 

我們將當前領域頂尖的 Minecraft 智能體引入 MCU 進行實戰檢驗:GROOT:影片模仿學習代表;STEVE-I:指令執行型控製器;VPT(BC/RL):基於 YouTube 行為複製訓練而成的先驅。結果發現,這些智能體在簡單任務上表現尚可,但在面對組合任務和陌生配置場景時,完成率急劇下降,且錯誤識別與創新嘗試是其短板。

SOTA 
SOTA 
SOTA 
SOTA 

SOTA 

模型在 MCU 上的測試結果。

研究團隊引入了更細粒度的任務進度評分指標(Task Progress,區別於傳統 0/1 式的任務完成率,它能動態刻畫智能體在執行過程中的階段性表現,哪怕任務失敗,也能反映其是否在朝正確方向推進。

實驗發現,當前主流模型如 GROOTSTEVE-IVPT-RL,在原子任務中尚有可圈可點的表現,但一旦面對更具組合性和變化性的任務,其成功率便會驟降。甚至對環境的微小改動也會導致決策混亂。比如在房間內睡覺這個看似簡單的任務,僅僅是將床從草地搬到屋內,就讓 GROOT 頻繁誤把箱子當床點擊,甚至轉身離開現場——這揭示了現有模型在空間理解與泛化上的明顯短板。

更令人警醒的是,智能體在建造、戰鬥類任務中的創造性得分錯誤識別能力幾乎全面落後。這說明它們尚未真正具備人類那種發現問題、調整策略的自主意識,而這正是通用智能邁向下一個階段的關鍵。

MCU 的評測結果首次系統性地揭示了當前開放世界智能體在「泛化、適應與創造這三大核心能力上存在的鴻溝,同時也為未來的研究指明了方向:如何讓 AI 不僅能高效完成任務,更能深刻理解任務的本質,並創造性地解決複雜問題