Claude自動玩崩鐵清日常,NUS新論文完整測評AI電腦操控:GUI智能體的黎明
奇月 發自 凹非寺
量子位 | 公眾號 QbitAI
Claude操控電腦,究竟可以做到什麼程度?
新加坡國立大學團隊在20多個場景下做了全面測試,其中最引人矚目的是:AI可以自動玩手遊清日常任務了!
研究中選用了米赫洛域遊《崩壞:星穹鐵道》,可以跟它說」幫我完成今天的模擬宇宙」,然後,Claude就會立即依次打開遊戲菜單、找到星穹里的」黃金花萼」、自動設置6次挑戰次數:
甚至還可以啟動自動戰鬥、等待戰鬥結束後退出,這一套組合操作簡直行雲流水……
而且注意哦,這不僅是傳統遊戲外掛那樣的機械操作,Claude還能智能理解遊戲規則和目標,根據界面上不同的任務進行調整。
這下好了,人類只能在一旁乾瞪眼了。
除了更多測試場景外,論文還提出了一個開箱即用的自動GUI框架。
有網民看到影片後評論說:以後我去上學的時候,就可以讓Claude幫我玩每日任務了。
還可以自動完成很多辦公任務
Claude Computer Use的潛能還遠遠沒有被人類發掘——
研究團隊還測試了很多日常辦公場景下它的性能:
1.網頁搜索
它可以在Amazon和Apple官方網站上成功完成下單購物的任務,選擇顏色配置、填寫地址都輕鬆拿捏。
2.工作流程
模型還成功完成了在Apple Music添加歌曲、編輯Excel數據、在App Store安裝應用等自動任務。
雖然界面設計和跳轉邏輯更加複雜,它還是能智能地理解任務的最終目標,真是一個成熟的好AI(欣慰)!
3..辦公生產力軟件
此外,它還可以在Outook中轉發郵件、調整Word佈局、設置PowerPoint背景設置和插入三角形形狀等等,這下真的可以大大增強生產力了(AI無用論 -1)。
4.還可以玩其他遊戲
除了《崩壞:星穹鐵道》,模型也可以自動玩《爐石傳說》,包括創建和重命名牌組、使用英雄技能等等。
Claude Computer Use API + 自動化GUI框架
你可能會好奇,強如Claude Computer Use,是怎麼做到自動完成任務的呢?
下面我們就一起來看看背後的框架設計——
具體來說,團隊基於Claude Computer Use的API設計了一個自動化GUI框架,主要分為以下6個部分:
1.系統提示
Claude Computer Use的系統提示包括環境概述、可用函數和參數描述。用戶可以通過編寫 塊來調用這些函數,例如計算機交互、Bash Shel命令和文件編輯工具。
2.狀態觀察
Claude Computer Use通過實時截圖觀察環境,不依賴元數據或HTML。每個時間步長過後,模型都會保留歷史截圖,幫助生成下一步的動作。
3.推理範式
Claude Computer Use採用了一種推理-行動範式,通過觀察環境來決定下一步的動作。這種範式可以讓模型在高度動態的GUI環境中生成更可靠的動作。
4.工具使用
Claude Computer Use提供了三種工具:計算機工具、文本編輯器工具和Bash工具,它們可以幫助模型與計算機進行交互,執行各種任務。
5.GUI動作空間
GUI動作空間內置了所有原始的鼠標和鍵盤動作,如鼠標移動、點擊、按鍵組合、拖放和截圖等。模型會根據需要自行組合。
6.歷史視覺上下文維護
模型在每個時間步長都會保留歷史截圖,以輔助動作生成過程。具體公式如下:
性能測試
為了更加廣泛地測試Claude Computer Use和GUI框架聯合後的性能效果,團隊還設計了詳盡的測試實驗,包括
1.數據收集:實驗設計包括在Windows和macOS上通過ComputerUse Out-of-the-Box平台進行評估。評估任務覆蓋了廣泛的應用領域,包括網頁搜索、工作流程、辦公生產力軟件和影片遊戲等。
2.樣本選擇:選擇了20個任務,涵蓋12個軟件或網站,分為以下三個領域:網頁搜索、工作流程、辦公生產力和影片遊戲。具體的任務可以查看下表:
3.參數配置:系統分辦率設置為Windows的(1366,768)和macOS的(1344,756)。過程中還加入了人類評審和評估用於監控和審查過程,確保任務的順利完成。
雖然Claude Computer Use在之前的例子中表現都非常厲害,但當網頁或軟件的頁面過於複雜時,模型也出現了一些失敗案例:
1.精細網頁操作失敗:在Fox Sports訂閱任務中失敗,錯誤原因主要在於模型沒有正確導航到」Account」選項卡。
2.辦公軟件失敗:在Word中更新簡曆模板、和在PPT中插入編號符號兩個任務中失敗,錯誤原因在於模型未能準確選擇和定位文本字段。
不過整體來說,Claude Computer Use已經很棒了,而且這功能也剛剛發佈沒多久,未來可期!
團隊還公開了所有測試用例的具體信息,感興趣的小夥伴可以點GitHub項目鏈接查看更多消息~
Claude老師,以後我的PPT和Steam就拜託你了(bushi)
參考資料:
https://arxiv.org/pdf/2411.10323
https://github.com/showlab/computer_use_ootb