OpenAI突發Operator!完全自主玩轉瀏覽器,奧特曼:Level 3時代開啟

明敏 魚羊 發自 凹非寺

量子位 | 公眾號 QbitAI

OpenAI熱炒已久的智能體,剛剛正式發佈!

OpenAI官方介紹:

Operator是我們的首批智能體之一。這些AI能夠獨立為你完成工作——只需給它一個任務,它就會執行

be like,給它一個購物清單,Operator就能完全自主地幫你買好東西。

可以看到操作老哥的雙手已經離開鍵盤,屏幕上的所有操作都是Operator自己完成。

還能讓它來預定餐廳:

這邊奧特曼直播剛結束,OpenAI總裁Brockman就迫不及待地宣佈:

2025是智能體之年。

並且這一次,Operator官宣即上線——只不過,暫時只面向Pro用戶,對,就是一個月200刀(約合人民幣1458元)的那個大會員。

看罷直播,網民們還是非常興奮的,直呼「瘋狂星期四」。

但是嘛……

嗯,Operator很香,但要是開源就更棒了,DeepSeek、Meta快捲起來(doge)。

玩轉瀏覽器,無需人類輔助

口說無憑,咱們還是先通過官方Demo,來看看Operator到底有多「獨立自主」。

它幾乎可以使用任何網站,無需人類的操作輔助。

比如從Allrecipes上找到一份蛤蜊扁麵條的食譜,然後把所有的食材都放到我instacart的購物車里?

它操作這一切的邏輯和人類一樣,看到了哪些圖片、該點擊哪些按鈕。

這和其他使用API或者基於編程接口的Agent不同,它是基於文本的思維鏈進行推理。

確認好菜單後,去哪個店下單買菜呢?

人類進一步給出指令,使用Gus’s,然後Operator就會到對應的網站開始下單。

遇到登錄、支付等操作時,Operator會將操作權交還給用戶。

在用戶實測中,有博主發現如果Operator被Reddit牆了,它還會自己在搜索時就加入「Reddit」關鍵詞以找到相關帖子。

用戶也可以通過添加自定義指令,獲得個性化體驗。比如設置訂機票時的首選航司。

Operator允許用戶保存提示,以便在主頁上快速訪問,非常適合重覆任務,如在購物網站上補貨。

Operator也能同時運行多個任務,就像是打開多個網頁那樣,比如讓它在Etsy上訂購個性化的搪瓷馬克杯,同時在Hipcamp上預訂露營地。

Operator的底層使用了一個全新的模型Computer-Using-Agent(CUA)

通過將GPT-4o的視覺能力和高級推理強化學習相結合,CUA可以進行GUI交互。

Operator可以看到網頁界面的內容,使用鼠標、鍵盤允許的所有操作。由此它可以自動操作,而無需自定義的API集成。

如果遇到問題或者出現錯誤,Operator可以利用推理能力自我糾錯。並在它卡住需要幫助時,將控制權交還給用戶。

CUA在WebArena和WebVoyager兩個基準測試中都取得了SOTA。

目前,美區的Pro會員已經可以通過operator.chatgpt.com來使用Operator。Plus、Team、Enterprise等付費用戶和其他地區的胖友們,還得再等等,但OpenAI承諾未來會將這些功能集成到ChatGPT中。

OpenAI邁入「Level 3」

2024年7月,OpenAI發佈了「從AI到AGI的五步過程」:

  • Level 1:Chatbots,AI可以以對話的方式與人互動。

  • Level 2:Reasoners,AI科技解決人類水平的問題。

  • Level 3:Agents,AI可以作為系統執行一些行動任務。

  • Level 4:Innovators,AI可以開發創新性的AI。

  • Level 5:Organizations,AI可以完成一個組織完成的工作。

在當時的定義和規劃中,OpenAI表示自己還只處於Level 1階段,正在靠近Level 2。

而現在,隨著Operator的發佈,奧特曼宣佈:

這是我們進入Level 3的開始。

值得注意的是,就像開頭提到,OpenAI悄悄畫了個重點:Operator還只是「首批」而非唯一智能體。

在直播中,奧特曼也預告了:

我們還將在未來幾週和幾個月內推出更多智能體。

One More Thing

就在OpenAI今天這場直播之前,還有一個小小的花絮。

Operator發佈2小時前,OpenAI發了一條推文,表示修復了ChatGPT和API錯誤率高的問題。

又虛晃了網民們一槍(doge)。

另一個好消息是,奧特曼還預告,ChatGPT免費版就能用上o3-mini。