可聯網自主完成任務!OpenAI發佈智能體Operator,給AI Agent又添了把火!

作者|Jessica郵箱|Jessica@pingwest.com
AI Agent現在究竟有多火?2025剛開年,OpenAI已迫不及待入局。
今天淩晨,Sam Altman在毫無預告的情況下開啟直播,正式發佈了OpenAI首款智能體產品:Operator(預覽版)。

Operator是一個能夠像人類一樣使用計算機的AI智能體。它基於OpenAI最新研發的 Computer-Using Agent (CUA) 模型,通過觀察屏幕並使用虛擬鼠標和鍵盤來完成任務,而無需依賴專門的API接口。這種設計使其可以適配任何為人類設計的軟件界面,帶來極高的靈活性。
技術實現上,CUA採用了一個精心設計的感知-推理-行動循環。具體的工作原理是:每次行動後,它會重新捕獲屏幕畫面,先將屏幕截圖添加到模型上下文,通過GPT-4o的視覺能力準確理解界面內容,再依靠強化學習的推理能力(chain-of-thought)製定下一步計劃,最後使用虛擬鼠標和鍵盤,精確執行點擊、滾動或輸入的界面操作,直到任務完成或需要用戶輸入。

也就是說,無論訂餐、買票、網上購物、還是預約清潔工,只需下達一句指令,Operator都能自動在後台替你完成。
只不過目前的預覽版尚未全面開放,僅供每月付費200美元的美國Pro用戶體驗,地址在:https://operator.chatgpt.com/。
Operator實例展示:靈活智能的多任務助手
直播中,OpenAI團隊展示了幾個令人印象深刻的Operator使用場景:
場景一:智能餐廳預訂
當用戶輸入”在Beretta訂一個今晚7點的雙人餐位”後,Operator立即啟動了一個遠程瀏覽器會話。有趣的是,系統顯示出了類似人類的地理感知能力——當OpenTable預設顯示維珍尼亞的結果時,它立即根據用戶設定的舊金山位置信息自動進行了更正。發現7點沒有空位後,Operator又主動提議7:45的替代時間,並在確認前徵求用戶意見,展示了靈活的決策能力。
場景二:智能購物助理
在購物演示中,Operator展現了強大的多模態理解能力。它可以直接識別手寫購物清單圖片,精確提取出”雞蛋、菠菜、蘑菇、雞腿肉、辣醬”等信息,並在Instacart上自動搜索對應商品。系統採用了一個清晰的工作流程:首先理解每個商品的具體需求,然後搜索最相關的商品,做出合理的數量和規格選擇。當用戶通過”take control”功能手動增加雞蛋數量時,Operator也能夠理解並繼續完成賸餘訂單。
場景三:多任務並行處理
而最引人注目的還是Operator的多任務並行處理能力。它可以一邊在StubHub搜索勇士隊比賽門票,一邊處理網球場預訂、尋找清潔服務和DoorDash訂餐。這得益於其遠程瀏覽器架構,每個任務都在獨立的會話中進行,確保互不幹擾。在門票預訂過程中,系統也展現出細緻的判斷力,能分析不同座位區域的優劣(如發現374美元的第一排座位優於260美元的普通座位)。同時,在涉及支付等敏感操作時,也會自動切換到隱私模式,確保用戶信息安全。
性能表現
CUA在各項基準測試中表現不俗:WebArena(測試網頁導航能力)上達到58.1%的成功率,在網頁任務評測WebVoyager上達到87%的高分。雖然在操作系統導航測試OSWorld上的38.1%成功率與人類水平(72.4%)仍有差距,但已超越了其他公開發佈的結果。官方表示,這些數據證明CUA在網頁任務處理上已達到實用水平,但在複雜的操作系統交互方面仍需改進。

多層保護機制確保安全
安全性是Operator的另一大注重點。為確保實際操作可控,Operator構建了全面的多層保護體系,包括:
-
用戶確認機制:關鍵操作前必須獲得用戶批準
-
實時監控:自動檢測和預防可疑行為
-
網站限制:預設黑名單,阻止訪問違規網站
-
隱私保護:敏感操作自動切換隱私模式
-
用戶控制:”take control”功能確保用戶可隨時接管操作權限
「2025是AI Agents之年」
目前,Operator的功能仍有一定限制:不支持銀行交易等高風險操作,部分敏感網站需用戶實時監督。地域上僅面向美國Pro用戶開放,歐洲等地區可能需較長等待時間。但OpenAI已製定明確擴展計劃:兩週內將向開發者開放CUA模型API,後續會集成到ChatGPT並更廣泛提供。
為確保產品體驗,OpenAI已與OpenTable、Allrecipes、StubHub、Uber、Thumbtack、DoorDash、eBay、Target等多家品牌建立合作夥伴關係,共同探索AI Agent在各垂直領域的應用潛力,力求引領AI Agent領域進入全新的發展階段。Operator發佈後,OpenAI總裁Greg Brockman也隨即轉發表示:「2025年是AI Agents之年」。

Operator亮相的同一週期,AI Agent領域競爭也日趨激烈。
而OpenAI今年這第一步棋也下得思路清晰:一方面與各類三方頭部平台合作,確保在高頻場景的優質體驗;另一方面通過API開放和ChatGPT整合雙管齊下,既吸引開發者構建應用,又通過超級應用入口觸達用戶。將使用權限限定在Pro用戶,也能在確保產品穩定性的同時,測試其它用戶的付費意願——一切都在為未來Agent經濟的商業化探索奠定基礎。
