Claude自動玩崩鐵清日常,NUS新論文完整測評AI電腦操控:GUI智能體的黎明

奇月 發自 凹非寺

量子位 | 公眾號 QbitAI

Claude操控電腦,究竟可以做到什麼程度?

新加坡國立大學團隊在20多個場景下做了全面測試,其中最引人矚目的是:AI可以自動玩手遊清日常任務了!

研究中選用了米赫洛域遊《崩壞:星穹鐵道》,可以跟它說」幫我完成今天的模擬宇宙」,然後,Claude就會立即依次打開遊戲菜單、找到星穹里的」黃金花萼」、自動設置6次挑戰次數:

甚至還可以啟動自動戰鬥、等待戰鬥結束後退出,這一套組合操作簡直行雲流水……

而且注意哦,這不僅是傳統遊戲外掛那樣的機械操作,Claude還能智能理解遊戲規則和目標,根據界面上不同的任務進行調整。

這下好了,人類只能在一旁乾瞪眼了。

除了更多測試場景外,論文還提出了一個開箱即用的自動GUI框架

有網民看到影片後評論說:以後我去上學的時候,就可以讓Claude幫我玩每日任務了。

還可以自動完成很多辦公任務

Claude Computer Use的潛能還遠遠沒有被人類發掘——

研究團隊還測試了很多日常辦公場景下它的性能:

1.網頁搜索

它可以在Amazon和Apple官方網站上成功完成下單購物的任務,選擇顏色配置、填寫地址都輕鬆拿捏。

2.工作流程

模型還成功完成了在Apple Music添加歌曲、編輯Excel數據、在App Store安裝應用等自動任務。

雖然界面設計和跳轉邏輯更加複雜,它還是能智能地理解任務的最終目標,真是一個成熟的好AI(欣慰)!

3..辦公生產力軟件

此外,它還可以在Outook中轉發郵件、調整Word佈局、設置PowerPoint背景設置和插入三角形形狀等等,這下真的可以大大增強生產力了(AI無用論 -1)。

4.還可以玩其他遊戲

除了《崩壞:星穹鐵道》,模型也可以自動玩《爐石傳說》,包括創建和重命名牌組、使用英雄技能等等。

Claude Computer Use API + 自動化GUI框架

你可能會好奇,強如Claude Computer Use,是怎麼做到自動完成任務的呢?

下面我們就一起來看看背後的框架設計——

具體來說,團隊基於Claude Computer Use的API設計了一個自動化GUI框架,主要分為以下6個部分:

1.系統提示

Claude Computer Use的系統提示包括環境概述、可用函數和參數描述。用戶可以通過編寫 塊來調用這些函數,例如計算機交互、Bash Shel命令和文件編輯工具。

2.狀態觀察

Claude Computer Use通過實時截圖觀察環境,不依賴元數據或HTML。每個時間步長過後,模型都會保留歷史截圖,幫助生成下一步的動作。

3.推理範式

Claude Computer Use採用了一種推理-行動範式,通過觀察環境來決定下一步的動作。這種範式可以讓模型在高度動態的GUI環境中生成更可靠的動作。

4.工具使用

Claude Computer Use提供了三種工具:計算機工具、文本編輯器工具和Bash工具,它們可以幫助模型與計算機進行交互,執行各種任務。

5.GUI動作空間

GUI動作空間內置了所有原始的鼠標和鍵盤動作,如鼠標移動、點擊、按鍵組合、拖放和截圖等。模型會根據需要自行組合。

6.歷史視覺上下文維護

模型在每個時間步都會保留歷史截圖,以輔助動作生成過程。具體公式如下:

性能測試

為了更加廣泛地測試Claude Computer Use和GUI框架聯合後的性能效果,團隊還設計了詳盡的測試實驗,包括

1.數據收集:實驗設計包括在Windows和macOS上通過ComputerUse Out-of-the-Box平台進行評估。評估任務覆蓋了廣泛的應用領域,包括網頁搜索、工作流程、辦公生產力軟件和影片遊戲等。

2.樣本選擇:選擇了20個任務,涵蓋12個軟件或網站,分為以下三個領域:網頁搜索、工作流程、辦公生產力和影片遊戲。具體的任務可以查看下表:

3.參數配置:系統分辦率設置為Windows的(1366,768)和macOS的(1344,756)。過程中還加入了人類評審和評估用於監控和審查過程,確保任務的順利完成。

雖然Claude Computer Use在之前的例子中表現都非常厲害,但當網頁或軟件的頁面過於複雜時,模型也出現了一些失敗案例:

1.精細網頁操作失敗:在Fox Sports訂閱任務中失敗,錯誤原因主要在於模型沒有正確導航到」Account」選項卡。

2.辦公軟件失敗:在Word中更新簡曆模板、和在PPT中插入編號符號兩個任務中失敗,錯誤原因在於模型未能準確選擇和定位文本字段。

不過整體來說,Claude Computer Use已經很棒了,而且這功能也剛剛發佈沒多久,未來可期!

團隊還公開了所有測試用例的具體信息,感興趣的小夥伴可以點GitHub項目鏈接查看更多消息~

Claude老師,以後我的PPT和Steam就拜託你了(bushi)

參考資料:

https://arxiv.org/pdf/2411.10323

https://github.com/showlab/computer_use_ootb