剛剛,OpenAI正式放出智能體Operator!能推理、聯網自主執行任務

機器之心報導

編輯:杜偉、Panda

大概香港時間昨天下午五點左右,繼上次的星際之門項目之後,OpenAI 再次成為 AI 社區的熱門關鍵詞,因為有 ChatGPT Pro 用戶發現其用戶界面中多了一個叫做 Operator 的選項。這是 OpenAI 的 Computer Use 智能體要來了嗎?

大概是因為這個消息,ChatGPT 訪問量突然暴增,大量用戶上線想要一探究竟,讓 ChatGPT 承受不住,直接投降了。

宕機大概持續了 3 小時。

淩晨 2 點,直播開始,Operator 與 Agents 發佈。

我們終於看到了 Operator 的真身,它是一個研究預覽(research preview)版本的智能體,可以訪問互聯網來為用戶自動執行各種任務。OpenAI 表示希望很快將它集成到ChatGPT中。目前,Operator 只供美國的 Pro 用戶使用。

雖然 computer use 類智能體早已經不新鮮,畢竟 Anthropic 早在去年 10 月就已經發佈了自己的 computer use 功能。而就在昨日,國內大模型廠商智譜的電腦智能體 GLM-PC 也開放了體驗,它能像人類一樣「觀察」和「操作」計算機,協助用戶高效完成各類電腦任務。並且現在市面上還有不少開源實現,但 Operator 發佈後還是引起了社交網絡一片沸騰 —— 畢竟這是 OpenAI。

OpenAI 總裁 Greg Brockman 再次重申了他的觀點:2025 年是智能體之年。

也已經有動作快的 Pro 用戶分享了自己的使用案例,像是根據圖片和菜譜訂購晚餐食材、根據 Reddit 上分享的冷門景點規劃週末旅行、研究加密貨幣投資等等。

又或者,通過用戶點評找到斯德哥爾摩最好的酒店。

當然,吐嘈調侃 OpenAI 的網民也有不少。

Operator 功能演示與技術概覽

Operator 的用戶界面如下:

OpenAI 表示,Operator 由一個名為「計算機使用智能體」(Computer-Using Agent,CUA)的新模型提供支持。CUA 將 GPT-4o 的視覺功能與通過強化學習獲得的高級推理相結合,經過訓練可以與圖形用戶界面 (GUI,即人們在屏幕上看到的按鈕、菜單和文本字段)進行交互。

就其功能來說,Operator 可以「查看」(通過屏幕截圖)和「交互」(使用鼠標和鍵盤允許的所有操作)瀏覽器,從而使其無需自定義 API 集成即可在 Web 上採取行動。

同時,如果遇到挑戰或犯錯,Operator 可以利用其推理能力進行自我糾正。當 Operator 卡住並需要幫助時,它只需將控制權交還給用戶,確保流暢的協作體驗。

我們來看幾個 Operator 的演示功能,比如幫你預訂餐廳:

再比如上傳一張圖片(手寫購物單),上面有你想要買的各種東西,直接讓 Operator 幫你買。它會首先給你建議並執行操作:

Operator 還能幫你訂票,期間用戶可以隨時接管,並在調整後讓它繼續工作:

而 Operator 背後的模型 CUA 建立在多模態理解和推理交叉領域多年的基礎研究基礎之上,通過將高級 GUI 感知與結構化問題求解相結合,它可以將任務分解為多步驟規劃,並在出現挑戰時自適應地自我糾正。此功能標誌著 AI 開發的下一步,允許模型使用人類日常使用的工具,並為大量新應用開啟新的大門。

CUA 的工作原理

CUA 可通過處理原始像素數據來瞭解屏幕上發生的事情,並使用虛擬鼠標和鍵盤完成操作。CUA 可以導航多步驟任務、處理錯誤並適應意外變化,這使其能夠在廣泛的數字環境中運行,執行填寫表格瀏覽網站等任務,而無需專門的 API。

具體地,根據用戶的指令,CUA 通過集成感知(Perception)推理(Reasoning)行動(Action)的迭代循環進行操作:

感知:計算機的屏幕截圖被添加到模型的上下文中,提供計算機當前狀態的視覺快照;
  • 感知:計算機的屏幕截圖被添加到模型的上下文中,提供計算機當前狀態的視覺快照;

  • 推理:使用思路鏈推理後續步驟,同時考慮當前和過去的屏幕截圖和操作。這種「內心獨白」通過使模型評估其觀察結果、跟蹤中間步驟並動態調整來提高任務性能;

  • 行動:執行操作(單擊、滾動或鍵入),直到它決定任務已完成或需要用戶輸入。雖然它會自動處理大多數步驟,但 CUA 會尋求用戶確認敏感操作,例如輸入登錄詳細信息或響應 CAPTCHA 表單。

OpenAI 也表示,CUA 仍處於早期階段且存在局限性。不過,CUA 仍然取得了全新的 SOTA 基準測試結果,其中在 OSWorld(真實計算機環境中開放式任務的多模式智能體基準測試) 上實現 38.1% 的完整計算機使用任務成功率,在 WebArena(用於構建自主智能體的真實網絡環境) 上實現了 58.1% 的成功率,在 WebVoyager(大型多模態網絡智能體基準) 上實現 87% 的 Web 端任務。

這些結果證明了 CUA 使用單一通用操作空間在不同環境中導航和操作的能力。

使用方式

根據描述,Operator 的使用方法很簡單。用戶只需描述想要完成的任務,然後 Operator 就可以自己完成。用戶也可以隨時接管其遠程瀏覽器,Operator 也可以根據當前任務執行情況主動向用戶請求登錄、錄入付款詳細信息或解決驗證碼等任務。

用戶可以在 Operator 中通過添加自定義指令來個性化自己的工作流程,無論是針對所有網站還是特定網站,比如可以在航班預訂網站設置自己偏好的航空公司。Operator 允許用戶在主頁上保存快速訪問的提示詞,這非常適合完成一些重覆任務,比如購買日常消耗品。類似於在瀏覽器上使用多個頁面,用戶可以通過創建新對話讓 Operator 同時運行多個任務,例如在一個網站上訂購個性化搪瓷杯,同時在另一個網站上預訂露營地。

生態系統與用戶

OpenAI 表示:「Operator 可將 AI 從被動工具轉變為數字生態系統的積極參與者。它將簡化用戶的任務,並為那些希望獲得創新客戶體驗並希望提高轉化率的公司帶來智能體的好處。」OpenAI 也宣佈了當前的一些合作企業與服務,包括 DoorDash、Instacart、OpenTable、Uber 等。同時,OpenAI 還在努力改善 Operator 在公共部門應用中的適用性,為此他們還與史托頓市等組織建立了合作關係。

安全和隱私

在很多用戶關心的安全問題上,OpenAI 也進行了說明。該公司表示 Operator 採用了 3 層保護機制,可以防止該工具被濫用同時確保用戶掌控。

第一層,Operator 可以確保使用它的用戶總是具有控制權,並會在關鍵時刻請求用戶輸入。這涉及到四個方面:

  • 接管模式:在向瀏覽器輸入敏感信息時,Operator 會請求用戶接管。在接管模式下,Operator 不會收集或截取用戶輸入的信息。

  • 用戶確認:在完成任何重要操作(例如提交訂單或發送電子郵件)之前,Operator 會徵求批準。

  • 任務限制:Operator 會拒絕某些敏感任務,例如銀行交易或需要高風險決策的任務,例如決定一份工作申請。

  • 監視模式:在特別敏感的網站上,例如電子郵件或金融服務,Operator 會要求密切監督其行為,從而可讓用戶直接發現任何潛在的錯誤。

第二層,OpenAI 簡化了 Operator 的數據隱私管理方式。

  • 退出訓練:用戶可在 ChatGPT 設置中關閉「為所有人改進模型」,這樣其 Operator 中的數據就不會用於訓練模型。

  • 透明的數據管理:用戶可以在 Operator 設置的「隱私」部分下一鍵刪除所有瀏覽數據並退出所有網站。Operator 中的過去對話也可以一鍵刪除。

第三層,針對可能試圖通過隱藏提示、惡意代碼或網絡釣魚嘗試誤導 Operator 的惡意網站,OpenAI 也建立了一些防禦措施:

  • 謹慎導航:Operator 在設計時就考慮了檢測和忽視提示詞注入攻擊。

  • 監控:有一個專門的「監控模型」來監視可疑行為,如果出現異常,可以暫停任務。

  • 檢測管道:OpenAI 部署了一個持續識別新威脅並快速更新保障措施的自動和人工審核流程。

OpenAI 表示:「我們知道壞人可能會試圖濫用這項技術,因此我們將 Operator 設計為可以拒絕有害請求和阻止不允許的內容。我們的審核系統可以對重覆違規行為發出警告甚至撤銷訪問權限,並且我們集成了其他審核流程來檢測和解決濫用問題。」

未來計劃

OpenAI 在博客中簡單公佈了對 Operator 的未來計劃。

  • 通過 API 使用 CUA:OpenAI 表示很快就會通過 API 揭示驅動 Operator 的模型,以便開發者可以使用它來構建自己的 computer use 智能體。

  • 增強功能:還將繼續提高 Operator 處理更長、更複雜工作流程的能力。

  • 讓更多人可用:OpenAI 還計劃將 Operator⁠ 擴展到 Plus、Team 和 Enterprise 用戶。並且該公司還表示,一旦在安全性與大規模可用性方面建立信心後,就會將該功能直接集成到 ChatGPT 中,從而實現無縫的實時和異步任務執行。

項目貢獻者

OpenAI 也在博客中發佈了相關貢獻者名單。

參考鏈接:
參考鏈接:

參考鏈接:

https://openai.com/index/introducing-operator/

https://openai.com/index/computer-using-agent/