Google版賈維斯即將問世，最強Gemini 2.0加持！AI自主操控電腦時代來臨

10月27日 12:28 新浪網 news-china-auto-hilite

新智元報導

編輯：桃子 LRS

【新智元導讀】科幻中的賈維斯，已經離我們不遠了。Claude 3.5接管人類電腦掀起了人機交互全新範式，爆料稱Google同類Project Jarvis預計年底亮相。AI操控電腦已成為微軟、蘋果等巨頭，下一個發力的戰場。

AI接管人類電腦，就是下一個未來！

幾天前，Anthropic向所有人展示了，Claude 3.5自主看屏幕操作光標完成複雜任務，足以驚掉下巴。

剛剛，Information獨家爆料稱，Google正開發同類新項目「Project Jarvis」，能將Chrome網頁任務自動化。

Google「賈維斯」將由未來版Gemini 2.0驅動，預計在12月亮相。

起這個名字，是為了向鐵甲奇俠中的J.A.R.V.I.S致敬。

無獨有偶，微軟團隊悄悄放出的OmniParser，也在篤定AI智能體操控屏幕的未來。

論文地址：https://arxiv.org/pdf/2408.00203

OmniParser主要是一個屏幕解析的工具，可以將截圖轉化為結構化數據，幫助AI精準理解用戶意圖。

不僅如此，OpenAI內部已有了AI智能體雛形，可以操控計算機完成在線訂餐、自動查詢解決編程難題等任務。

包括蘋果在內，預計在明年發佈跨多個APP屏幕識別能力。最新迭代的Ferret-UI 2，就是通用UI模型。

可見，「Computer use」已經成為科技大廠們，重點發力的下一個戰場。

Google「賈維斯」年底出世，最強Gemini 2加持

代號為Jarvis Project項目，本質上是一個大動作模型（LAM），也是Google一直以來在做的大模型方向。

它專門針對GoogleChrome瀏覽器，進行了優化。

具體操作原理，與Claude 3.5類似，通過截屏、解析屏幕內容，然後自動點擊按鈕，或輸入文本，最終幫助人們完成基於網頁的日常任務。

不論是收集研究信息、購物，或是預定航班等任務，Google「賈維斯」均可實現。

不過，它在執行不同操作時，中間會有幾秒鍾的思考時間。

因此，在終端設備中運行還不太現實，仍然需要雲上操作。

5月的GoogleI/O大會上，GoogleCEO劈柴曾展示了，Gemini和Chrome如何協同工作的樣貌。

如前所述，Google「賈維斯」將由Gemini 2.0加持，也就意味著年底我們可以看到進步版Gemini模型。

儘管Sam Altman否認了Orion模型的發佈，但外媒猜測，預計年底OpenAI也將放出新核彈

微軟OmniParser也下場了

緊接著Claude「計算機使用」發佈之後，微軟就開源了AI框架OmniParser。

假設你想要去拜斯峽穀國家公園，不知是否需要訂票入園，這時OmniParser可以帶你查詢。

它會解析屏幕後，自動點擊「permits」按鈕，然後再截屏找到「拜斯峽穀國家公園」，最後就可以完成用戶任務。

可見，想要把類似GPT-4V的多模態大模型應用於操作系統上，模型還需要具備強大的屏幕解析能力，主要包括兩方面：

1、準確地識別用戶界面中的可交互圖標；

2、理解屏幕截圖中各種元素的語義，並準確將預期動作與屏幕上的相應區域關聯起來。

基於上述思路，微軟最新提出的OmniParser模型，可以將用戶界面截圖解析為結構化元素，顯著增強了GPT-4V在對應界面區域預測行動的能力。

方法

一個複雜的操作任務通常可以分解成多個子行動步驟，在執行過程中，模型需要具備以下能力：

1、理解當前步驟的用戶界面，即分析屏幕內容中大體上在展示什麼、檢測到的圖標功能是什麼等；

2、預測當前屏幕上的下一個動作，來幫助完成整個任務。

研究人員發現，將這兩個目標分解開，比如在屏幕解析階段只提取語義信息等，可以減輕GPT-4V的負擔；模型也能夠從解析後的屏幕中利用更多信息，動作預測準確率更高。

因此，OmniParser結合了微調後的可交互圖標檢測模型、微調後的圖標描述模型以及光學字符識別（OCR）模塊的輸出，可以生成用戶界面的結構化表示，類似於文檔對象模型（DOM），以及一個疊加潛在可交互元素邊界框的屏幕截圖。

可交互區域檢測（Interactable Region Detection）

從用戶界面屏幕中識別出「可交互區域」非常關鍵，也是預測下一步行動來完成用戶任務的基礎。

研究人員並沒有直接提示GPT-4V來預測屏幕中操作範圍的xy坐標值，而是遵循先前的工作，使用標記集合方法在用戶界面截圖上疊加可交互圖標的邊界框，並要求GPT-4V生成要執行動作的邊界框ID。

為了提高準確性，研究人員構造了一個用於可交互圖標檢測的微調數據集，包含6.7萬個不重覆的屏幕截圖，其中所有圖像都使用從DOM樹派生的可交互圖標的邊界框進行標記。

為了構造數據集，研究人員首先從網絡上公開可用的網址中提取了10萬個均勻樣本，並從每個URL的DOM樹中收集網頁的可交互區域的邊界框。

除了可交互區域檢測，還引有一個OCR模塊來提取文本的邊界框。

然後合併OCR檢測模塊和圖標檢測模塊的邊界框，同時移除重疊度很高的框（閾值為重疊超過90%）。

對於每個邊界框，使用一個簡單的算法在邊框旁邊標記一個ID，以最小化數字標籤和其他邊界框之間的重疊。

整合功能的局部語義（Incorporating Local Semantics of Functionality）

研究人員發現，在很多情況下，如果僅輸入疊加了邊界框和相關ID的用戶界面截圖可能會對GPT-4V造成誤導，這種局限性可能源於GPT-4V無法「同時」執行「識別圖標的語義信息」和「預測特定圖標框上的下一個動作」的復合任務。

為瞭解決這個問題，研究人員將功能局部語義整合到提示中，即對於可交互區域檢測模型檢測到的圖標，使用一個微調過的模型為圖標生成功能描述；對於文本框，使用檢測到的文本及其標籤。

然而，目前還沒有專門為用戶界面圖標描述而訓練的公共模型，但這類模型非常適合目標場景，即能夠為用戶界面截圖提供快速準確的局部語義。

研究人員使用GPT-4o構造了一個包含7000對「圖標-描述」的數據集，並在數據集上微調了一個BLIP-v2模型，結果也證明了該模型在描述常見應用圖標時更加可靠。

實驗評估

SeeAssign任務

為了測試GPT-4V模型正確預測邊界框描述所對應的標籤ID的能力，研究人員手工製作了一個名為SeeAssign的數據集，其中包含了來自3個不同平台（移動設備、桌面電腦和網絡瀏覽器）的112個任務樣本，每個樣本都包括一段簡潔的任務描述和一個屏幕截圖。

根據難度，任務被分為三類：簡單（少於10個邊界框）、中等（10-40個邊界框）和困難（超過40個邊界框）。

GPT-4V不帶局部語義的提示：

Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘ Box with label ID: [xx]‘‘‘\n

帶局部語義的提示：

Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘Box with label ID: [xx]‘‘‘\n

從結果來看，GPT-4V經常錯誤地將數字ID分配給表格，特別是當屏幕上有很多邊界框時；通過添加包括框尼雲本和檢測到的圖標的簡短描述在內的局部語義，GPT-4V正確分配圖標的能力從0.705提高到0.938