OpenAI重磅推出Operator-旗下首款AI智能體正式亮相

OpenAI於2025年1月24日發佈了其首款AI智能體Operator,這是一款能夠在瀏覽器上執行簡單在線任務的網絡應用,如預訂音樂會門票、在線訂購雜貨等。

Operator由基於GPT-4o構建的新模型Computer-Using Agent(CUA)提供支持,目前僅對註冊ChatGPT Pro(每月200美元高級服務)的美國用戶開放,未來計劃向其他用戶推出。

Operator之所以如此強大,得益於其背後的Computer-Using Agent(CUA)模型。這一模型以GPT-4o為基礎構建,通過與圖形用戶界面(GUI)進行交互,展現出令人驚歎的能力。

CUA模型擁有像人類一樣的視覺能力(通過屏幕截圖「看到」界面元素)和通過強化學習得來的先進推理能力。

可以像人一樣操作,「看到」瀏覽器界面上的按鈕、菜單和文本框,熟練地運用鼠標和鍵盤與之互動。

CUA建立在多年多模態理解和推理交叉領域的基礎研究之上,尤其執行任務過程中,CUA模型的自我糾錯能力是一大亮點。

當遇到難題或者出現錯誤時,它能依靠推理能力自我調整; 

若遇到無法解決的狀況,則會禮貌地將控制權交還給用戶,實現人機協作間的流暢轉換。 

值得一提的是,Operator在安全性和隱私保護方面表現不錯。 

OpenAI明確表示,Operator在運行期間,絕不會利用用戶之前與ChatGPT共享的數據,全方位嗬護用戶隱私。 

而且,名為「接管模式」的功能為其安全保駕護航,在輸入支付信息或登錄憑據等關鍵操作時,會要求用戶手動完成。

同時,OpenAI提到, 雖然CUA仍處於早期階段並且存在局限性,但它設定了新的最先進基準結果,在OSWorld上實現了38.1%的全計算機使用任務成功率,在WebArena上為58.1%。 在WebVoyager上為87%。 

這些結果突顯了CUA使用單一通用動作空間在各種環境中導航和操作的能力。 

Computer-Using Agent(CUA)如何運作?

CUA根據用戶的指令,通過一個集成感知、推理和行動的迭代循環進行操作:

簡單總結一下,CUA模型實現與GUI(圖形用戶界面)交互主要技術:

視覺感知

屏幕截圖分析:CUA模型具備類似人類的視覺能力,它首先會對屏幕進行截圖。然後,利用圖像識別技術分析截圖中的各種元素,例如識別出按鈕的位置、顏色、形狀,菜單的結構以及文本框的內容等。這就如同人類用眼睛觀察屏幕一樣,是交互的基礎。

元素定位與分類:在識別出屏幕元素後,CUA模型會對這些元素進行定位和分類。它確定每個元素在屏幕坐標系中的位置,並且根據元素的類型(如可點擊按鈕、輸入文本框等)進行分類,以便後續準確地與之交互。

操作規劃

任務分解:當接收到一個需要在GUI上完成的任務時,CUA模型會將這個複雜任務分解成多個小的子任務。例如,如果要在一個電商網站上完成商品購買,子任務可能包括搜索商品、選擇商品規格、點擊購買按鈕等。

操作序列生成:根據任務分解的結果,CUA模型會生成一個操作序列。它會考慮到各個元素之間的關係以及操作的先後順序,比如先點擊某個菜單展開選項,再在彈出的列表中選擇特定的項目。

執行操作

鼠標和鍵盤模擬:CUA模型通過模擬人類使用鼠標和鍵盤的操作來實現與GUI的交互。對於識別出的可點擊按鈕,它會模擬鼠標點擊操作;對於需要輸入內容的文本框,它會模擬鍵盤輸入相應的字符。

實時反饋與調整:在執行操作的過程中,CUA模型會持續關注屏幕的變化,獲取實時反饋。如果操作沒有達到預期的效果,例如點擊按鈕沒有響應或者出現了錯誤提示,它會根據反饋信息調整操作策略,重新規劃後續的操作步驟。

自我糾錯與學習

錯誤檢測與回溯:如果在執行任務過程中出現錯誤,CUA模型能夠檢測到問題所在。它可能會回溯到上一個操作步驟,重新評估情況,並嘗試不同的操作方式。

強化學習優化:CUA模型利用強化學習技術不斷優化其與GUI的交互策略。通過不斷地嘗試不同的操作方式並根據結果得到獎勵或懲罰信號,模型逐漸學會更高效、準確地完成任務。

今天OpenAI的Operator的亮相,也標誌著AI發展的下一步,使模型能夠使用人類日常依賴的相同工具,為大量新應用打開了大門……

本文來自微信公眾號 「億歐網」(ID:i-yiou),作者:不寒,36氪經授權發佈。