Claude 自動玩崩鐵清日常,NUS 新論文完整測評 AI 電腦操控
Claude 操控電腦,究竟可以做到什麼程度?
新加坡國立大學團隊在 20 多個場景下做了全面測試,其中最引人矚目的是:AI 可以自動玩手遊清日常任務了!
研究中選用了米赫洛域遊《崩壞:星穹鐵道》,可以跟它說」幫我完成今天的模擬宇宙」,然後,Claude 就會立即依次打開遊戲菜單、找到星穹里的」黃金花萼」、自動設置 6 次挑戰次數:
甚至還可以啟動自動戰鬥、等待戰鬥結束後退出,這一套組合操作簡直行雲流水……
而且注意哦,這不僅是傳統遊戲外掛那樣的機械操作,Claude 還能智能理解遊戲規則和目標,根據界面上不同的任務進行調整。
這下好了,人類只能在一旁乾瞪眼了。
除了更多測試場景外,論文還提出了一個開箱即用的自動 GUI 框架。
有網民看到影片後評論說:以後我去上學的時候,就可以讓 Claude 幫我玩每日任務了。
還可以自動完成很多辦公任務
Claude Computer Use 的潛能還遠遠沒有被人類發掘 ——
研究團隊還測試了很多日常辦公場景下它的性能:
1.網頁搜索
它可以在 Amazon 和 Apple 官方網站上成功完成下單購物的任務,選擇顏色配置、填寫地址都輕鬆拿捏。
2.工作流程
模型還成功完成了在 Apple Music 添加歌曲、編輯 Excel 數據、在 App Store 安裝應用等自動任務。
雖然界面設計和跳轉邏輯更加複雜,它還是能智能地理解任務的最終目標,真是一個成熟的好 AI(欣慰)!
3.. 辦公生產力軟件
此外,它還可以在 Outook 中轉發郵件、調整 Word 佈局、設置 PowerPoint 背景設置和插入三角形形狀等等,這下真的可以大大增強生產力了(AI 無用論 -1)。
4.還可以玩其他遊戲
除了《崩壞:星穹鐵道》,模型也可以自動玩《爐石傳說》,包括創建和重命名牌組、使用英雄技能等等。
Claude Computer Use API + 自動化 GUI 框架
你可能會好奇,強如 Claude Computer Use,是怎麼做到自動完成任務的呢?
下面我們就一起來看看背後的框架設計 ——
具體來說,團隊基於 Claude Computer Use 的 API 設計了一個自動化 GUI 框架,主要分為以下 6 個部分:
1.系統提示
Claude Computer Use 的系統提示包括環境概述、可用函數和參數描述。用戶可以通過編寫塊來調用這些函數,例如計算機交互、Bash Shel 命令和文件編輯工具。
2.狀態觀察
Claude Computer Use 通過實時截圖觀察環境,不依賴元數據或 HTML。每個時間步長過後,模型都會保留歷史截圖,幫助生成下一步的動作。
3.推理範式
Claude Computer Use 採用了一種推理-行動範式,通過觀察環境來決定下一步的動作。這種範式可以讓模型在高度動態的 GUI 環境中生成更可靠的動作。
4.工具使用
Claude Computer Use 提供了三種工具:計算機工具、文本編輯器工具和 Bash 工具,它們可以幫助模型與計算機進行交互,執行各種任務。
5.GUI 動作空間
GUI 動作空間內置了所有原始的鼠標和鍵盤動作,如鼠標移動、點擊、按鍵組合、拖放和截圖等。模型會根據需要自行組合。
6.歷史視覺上下文維護
模型在每個時間步長都會保留歷史截圖,以輔助動作生成過程。具體公式如下:
性能測試
為了更加廣泛地測試 Claude Computer Use 和 GUI 框架聯合後的性能效果,團隊還設計了詳盡的測試實驗,包括
1.數據收集:實驗設計包括在 Windows 和 macOS 上通過 ComputerUse Out-of-the-Box 平台進行評估。評估任務覆蓋了廣泛的應用領域,包括網頁搜索、工作流程、辦公生產力軟件和影片遊戲等。
2.樣本選擇:選擇了 20 個任務,涵蓋 12 個軟件或網站,分為以下三個領域:網頁搜索、工作流程、辦公生產力和影片遊戲。具體的任務可以查看下表:
3.參數配置:系統分辦率設置為 Windows 的(1366,768)和 macOS 的(1344,756)。過程中還加入了人類評審和評估用於監控和審查過程,確保任務的順利完成。
雖然 Claude Computer Use 在之前的例子中表現都非常厲害,但當網頁或軟件的頁面過於複雜時,模型也出現了一些失敗案例:
1.精細網頁操作失敗:在 Fox Sports 訂閱任務中失敗,錯誤原因主要在於模型沒有正確導航到」Account」選項卡。
2.辦公軟件失敗:在 Word 中更新簡曆模板、和在 PPT 中插入編號符號兩個任務中失敗,錯誤原因在於模型未能準確選擇和定位文本字段。
不過整體來說,Claude Computer Use 已經很棒了,而且這功能也剛剛發佈沒多久,未來可期!
團隊還公開了所有測試用例的具體信息,感興趣的小夥伴可以點 GitHub 項目鏈接查看更多消息~
Claude 老師,以後我的 PPT 和 Steam 就拜託你了(bushi)
參考資料:
-
https://arxiv.org/pdf/2411.10323
-
https://github.com/showlab/computer_use_ootb
本文來自微信公眾號:量子位(ID:QbitAI),作者:奇月,原標題《Claude 自動玩崩鐵清日常,NUS 新論文完整測評 AI 電腦操控:GUI 智能體的黎明》
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。