OpenAI首個智能體Operator大測評,你也能擁有24小時私人管家
【導讀】今天發佈的Operator無疑是AI圈最大的亮點,本文為大家帶來了關於Operator的全面評測。這款AI智能體能夠自動處理一系列任務,像是演唱會購票、家政服務預訂、AI新聞查找等。
演唱會搶票終於不用自己蹲守了,公司訂餐也可以直接「無腦託管」,這就是OpenAI今天發佈的Operator。
顧名思義,Operator就是能幫你端到端處理任務的AI智能體。
比較有趣的是,OpenAI針對Operator新開了一個網頁operator.chatgpt.com,而不是像之前發佈的功能都直接統一內置在ChatGPT中。

Operator的頁面與ChatGPT大致相似,只是輸入框的提示詞從「我能幫您什麼嗎?」變為了「我能幫您做什麼嗎?」
顯然Operator多了個「做」字,而就是這一字之差,便已揭示了兩者的本質性區別。
Operator深度測評
這裏展示了一些Operator在OpenAI的合作夥伴網站上能為您執行的推薦任務。比如,不用半小時就能用雞肉做好的晚餐食譜。

當前,Operator的功能還比較有限,但我們相信它會快速優化。不妨想想,你每天在電腦上做的那些重覆任務,說不定一年之後,大部分都不用你親自動手了。
先來看看Operator能做哪些事情,並且到底做得怎麼樣吧!
購票
提示:幫我找兩張Jamie XX在洛杉磯舉行的下一場演出的門票。
結果:
– 調用指定合作夥伴Stubhub,成功獲取相關門票。

– 未選定合作夥伴時,因無法瀏覽被阻止的網站,未成功。
提示:找出Jamie xx的演出安排以及每場演出的門票價格。
結果:
– 調用指定合作夥伴Stubhub,失敗。過程中出現虛假信息,在多次提示後,最終取得成功。
AI新聞
提示:AI領域的最新消息是什麼?
結果:
– 調用指定合作夥伴Axios,表現尚可,返回了一篇簡短的新聞摘要。

預訂Uber
提示:現在從這裏到機場的UberX多少錢?
結果:
– 使用指定合作夥伴Uber,操作成功。
– Operator提出合理的問題,詢問「請提供接客地點,以便我為您查找從接客地點到機場的UberX費用。」以及「請指定您的目的地機場。」
– 登錄後,Operator給出答案:「從南加州大學到洛杉磯國際機場的UberX當前票價為43.47美元。您是否希望預訂此行程?」

房屋清潔
提示:我需要一名家政清潔員明天來我家做一次性清潔。
結果:
– 調用指定合作夥伴Thumbtack,失敗。
– 未詢問我的具體位置,就推薦了一名位於維珍尼亞的清潔員,可能是因為瀏覽器所在的數據中心位於該地。
Spotify Wrapped
提示:我想瞭解Spotify Wrapped成功的原因。(Spotify Wrapped是音樂流媒體平台Spotify推出的年度回顧功能。)
結果:
– 採用簡單提示時,失敗。系統卡在循環中,表現不佳,且研究資料有限。
– 採用複雜提示時,結果尚可。需要多次提示,報告質量不高。在提供了如何進行高級搜索的提示後完成了任務。期間3次請求獲取2024年的信息均被拒絕。
看完上述演示,也自然引發了一個問題:
「我們能夠隨時介入Operator的操作並做出符合自己偏好的更改嗎?」
答案是:完全可以!
事實上,在任何時候,你都可以控制其遠程瀏覽器並引導操作,比如輸入用戶名和密碼。並且如果你給出自己要求後,它還會保存重要的賬戶信息,這樣,只要你登錄一次,它就能在你的賬戶內自行操作,而無需再次打擾你。
最後,Operator將在結賬頁面停止繼續操作,返回支付請求後,再獲取您的付款詳情:

目前Operator支持自動完成通常需要15-20分鐘內的網絡任務。
值得一提的是,Operator還擁有能夠極大提高用戶體驗的「保存和共享功能」。也就是說,一旦完成任務,Operator就可以輕鬆保存工作流程。比如持續用最新的銷售數據來更新相應的報表。它甚至提供了一個流暢的會話記錄影片,支持用戶觀看並與其他人分享。
換句話說,Operator就像是一個可以不斷和你磨合,且可以持續進步,還能24小時不停按照既定流程為你工作的私人管家一樣。
但是,由於Operator才剛剛發佈,所以還是有一定的缺陷。
Operator的缺陷
正如道德經所說,「有無相生,難易相成」。Operator自身的缺陷亦是源於它的優勢本身。
它的獨特之處在於不用使用用戶本地的瀏覽器執行操作,而是OpenAI數據中心之一的一個瀏覽器,用戶可以遠程觀看並與之互動。這種設計的優點是你可以在任何地方、任何時候使用它——例如,在任意移動設備上。
但缺點是許多像Reddit這樣的網站已經阻止AI智能體瀏覽,因此它們無法被Operator訪問。並且Operator也因性能或法律原因被OpenAI阻止訪問某些資源密集型網站,如Figma或YouTube。
簡單來講,目前的Operator就像是被隔離在玻璃門外的人一樣,對於許多東西都是「看得見卻摸不著」。


像是一個外包乙方,而不是研究助理
目前的Operator實際上更像是一個能夠完成你給外包出去業務的乙方,而不是一個足夠聰明的個人研究助理。
例如,可以讓Operator閱讀《戰爭與和平》的第一章,並總結每個角色的所有細節以及他們所展現的人類心理和行為。然後,Operator在Project Gutenberg網站上找到了《戰爭與和平》並閱讀了第一章,做得非常出色。

但是其摘要卻枯燥乏味且粗糙寬泛:

在上述摘要中,它做出了正確的觀察:「角色意識到他們的社會地位,有些人,比如安娜・帕夫洛夫娜,小心翼翼地互動以保持禮儀」。但是這個摘要也有一種SparkNotes的味道,也就是不夠詳細,還無法真正理解故事情節。
如果提供相同的信息,OpenAI的o1在這項任務上會做得更好——但是o1還沒有自主執行任務的能力。也就是說,OpenAI專注於讓Operator非常適合自動執行重覆性工作流程,而不太關注其智能水平。
它確實自主,但提示很重要
關於 Operator,最令人印象深刻的一點是,它只需極少的提示就能獨自完成冗長的任務。例如,我們讓它執行一項耗時20多分鐘的任務:我們請它幫我們瞭解Spotify年度總結(Spotify Wrapped)功能這些年是如何演變的。
「它最初是什麼樣的?」
「現在又新增了哪些內容?」
它時不時需要一些提示才能繼續推進任務,但最終也成功實現了任務目標。
不可置否的是,與12個月甚至6個月前的智能體相比,這是一個重大進步,畢竟那時的智能體往往在短短幾秒鍾後就會偏離正軌。
話雖如此,用戶對Operator的提示方式仍然很關鍵。如果你向它提供更多關於如何完成任務的細節,它成功完成你交給它的任務的機率就會更高。
例如,在我們關於Spotify年度總結的例子中,我們要求它收集並總結不同年份的搜索結果數據。它一開始失敗了,因為它不知道如何按年份篩選搜索數據。但當我們告訴它使用Google的高級搜索工具(該工具提供逐年篩選搜索功能)時,它就成功完成了任務。
OpenAI:一切以消費者為中心
當前,Operator僅是一個研究預覽,而非成熟產品。但這個預覽版意義重大,要知道就連ChatGPT最初也是以研究預覽的形式問世的。
OpenAI正重拾曾經大獲成功的策略:即使產品還有很多不完善的地方,也要儘早發佈,並持續頻繁迭代。
因此OpenAI不僅推出API,還發佈了面向消費者的產品。
這一舉措與競爭對手Anthropic的做法有所不同。Anthropic雖然也有一款自主智能體Claude Computer use,但其僅以API的形式發佈,因此應用範圍相當有限。
OpenAI從ChatGPT中學到一點,AI的發佈形式對其推廣的影響,絲毫不亞於底層技術。
因此,他們將首款自主智能體產品,以面向消費者的方式發佈,即使這個產品還存在不少缺陷。
總的來說,儘管Operator目前功能有限,但可以預計它會迅速改進。對於廣大用戶來講,現在是時候梳理一下你每天在電腦上做的重覆性任務了,也許一年後你就無需再做其中的大部分工作。
參考資料:
https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
本文來自微信公眾號「新智元」,編輯:澤正 英智 ,36氪經授權發佈。