Claude 自動玩崩鐵清日常,NUS 新論文完整測評 AI 電腦操控

Claude 操控電腦,究竟可以做到什麼程度?

新加坡國立大學團隊在 20 多個場景下做了全面測試,其中最引人矚目的是:AI 可以自動玩手遊清日常任務了!

研究中選用了米赫洛域遊《崩壞:星穹鐵道》,可以跟它說」幫我完成今天的模擬宇宙」,然後,Claude 就會立即依次打開遊戲菜單、找到星穹里的」黃金花萼」、自動設置 6 次挑戰次數:

甚至還可以啟動自動戰鬥、等待戰鬥結束後退出,這一套組合操作簡直行雲流水……

而且注意哦,這不僅是傳統遊戲外掛那樣的機械操作,Claude 還能智能理解遊戲規則和目標,根據界面上不同的任務進行調整。

這下好了,人類只能在一旁乾瞪眼了。

除了更多測試場景外,論文還提出了一個開箱即用的自動 GUI 框架

有網民看到影片後評論說:以後我去上學的時候,就可以讓 Claude 幫我玩每日任務了。

還可以自動完成很多辦公任務

Claude Computer Use 的潛能還遠遠沒有被人類發掘 ——

研究團隊還測試了很多日常辦公場景下它的性能:

1.網頁搜索

它可以在 Amazon 和 Apple 官方網站上成功完成下單購物的任務,選擇顏色配置、填寫地址都輕鬆拿捏。

2.工作流程

模型還成功完成了在 Apple Music 添加歌曲、編輯 Excel 數據、在 App Store 安裝應用等自動任務。

雖然界面設計和跳轉邏輯更加複雜,它還是能智能地理解任務的最終目標,真是一個成熟的好 AI(欣慰)!

3.. 辦公生產力軟件

此外,它還可以在 Outook 中轉發郵件、調整 Word 佈局、設置 PowerPoint 背景設置和插入三角形形狀等等,這下真的可以大大增強生產力了(AI 無用論 -1)。

4.還可以玩其他遊戲

除了《崩壞:星穹鐵道》,模型也可以自動玩《爐石傳說》,包括創建和重命名牌組、使用英雄技能等等。

Claude Computer Use API + 自動化 GUI 框架

你可能會好奇,強如 Claude Computer Use,是怎麼做到自動完成任務的呢?

下面我們就一起來看看背後的框架設計 ——

具體來說,團隊基於 Claude Computer Use 的 API 設計了一個自動化 GUI 框架,主要分為以下 6 個部分:

1.系統提示

Claude Computer Use 的系統提示包括環境概述、可用函數和參數描述。用戶可以通過編寫塊來調用這些函數,例如計算機交互、Bash Shel 命令和文件編輯工具。

2.狀態觀察

Claude Computer Use 通過實時截圖觀察環境,不依賴元數據或 HTML。每個時間步長過後,模型都會保留歷史截圖,幫助生成下一步的動作。

3.推理範式

Claude Computer Use 採用了一種推理-行動範式,通過觀察環境來決定下一步的動作。這種範式可以讓模型在高度動態的 GUI 環境中生成更可靠的動作。

4.工具使用

Claude Computer Use 提供了三種工具:計算機工具、文本編輯器工具和 Bash 工具,它們可以幫助模型與計算機進行交互,執行各種任務。

5.GUI 動作空間

GUI 動作空間內置了所有原始的鼠標和鍵盤動作,如鼠標移動、點擊、按鍵組合、拖放和截圖等。模型會根據需要自行組合。

6.歷史視覺上下文維護

模型在每個時間步長都會保留歷史截圖,以輔助動作生成過程。具體公式如下:

性能測試

為了更加廣泛地測試 Claude Computer Use 和 GUI 框架聯合後的性能效果,團隊還設計了詳盡的測試實驗,包括

1.數據收集:實驗設計包括在 Windows 和 macOS 上通過 ComputerUse Out-of-the-Box 平台進行評估。評估任務覆蓋了廣泛的應用領域,包括網頁搜索、工作流程、辦公生產力軟件和影片遊戲等。

2.樣本選擇:選擇了 20 個任務,涵蓋 12 個軟件或網站,分為以下三個領域:網頁搜索、工作流程、辦公生產力和影片遊戲。具體的任務可以查看下表:

3.參數配置:系統分辦率設置為 Windows 的(1366,768)和 macOS 的(1344,756)。過程中還加入了人類評審和評估用於監控和審查過程,確保任務的順利完成。

雖然 Claude Computer Use 在之前的例子中表現都非常厲害,但當網頁或軟件的頁面過於複雜時,模型也出現了一些失敗案例:

1.精細網頁操作失敗:在 Fox Sports 訂閱任務中失敗,錯誤原因主要在於模型沒有正確導航到」Account」選項卡。

2.辦公軟件失敗:在 Word 中更新簡曆模板、和在 PPT 中插入編號符號兩個任務中失敗,錯誤原因在於模型未能準確選擇和定位文本字段。

不過整體來說,Claude Computer Use 已經很棒了,而且這功能也剛剛發佈沒多久,未來可期!

團隊還公開了所有測試用例的具體信息,感興趣的小夥伴可以點 GitHub 項目鏈接查看更多消息~

Claude 老師,以後我的 PPT 和 Steam 就拜託你了(bushi)

參考資料:

  • https://arxiv.org/pdf/2411.10323

  • https://github.com/showlab/computer_use_ootb

本文來自微信公眾號:量子位(ID:QbitAI),作者:奇月,原標題《Claude 自動玩崩鐵清日常,NUS 新論文完整測評 AI 電腦操控:GUI 智能體的黎明》

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。