OpenAI 首個智能體 Operator 測評,你也能擁有 24 小時私人管家
今天發佈的 Operator 無疑是 AI 圈最大的亮點,本文為大家帶來了關於 Operator 的全面評測。這款 AI 智能體能夠自動處理一系列任務,像是演唱會購票、家政服務預訂、AI 新聞查找等。
演唱會搶票終於不用自己蹲守了,公司訂餐也可以直接「無腦託管」,這就是 OpenAI 今天發佈的 Operator。
顧名思義,Operator 就是能幫你端到端處理任務的 AI 智能體。
比較有趣的是,OpenAI 針對 Operator 新開了一個網頁 operator.chatgpt.com,而不是像之前發佈的功能都直接統一內置在 ChatGPT 中。

Operator 的頁面與 ChatGPT 大致相似,只是輸入框的提示詞從「我能幫您什麼嗎?」變為了「我能幫您做什麼嗎?」
顯然 Operator 多了個「做」字,而就是這一字之差,便已揭示了兩者的本質性區別。
Operator 深度測評
這裏展示了一些 Operator 在 OpenAI 的合作夥伴網站上能為您執行的推薦任務。比如,不用半小時就能用雞肉做好的晚餐食譜。

當前,Operator 的功能還比較有限,但我們相信它會快速優化。不妨想想,你每天在電腦上做的那些重覆任務,說不定一年之後,大部分都不用你親自動手了。
先來看看 Operator 能做哪些事情,並且到底做得怎麼樣吧!
購票
提示:幫我找兩張 Jamie XX 在洛杉磯舉行的下一場演出的門票。
結果:
– 調用指定合作夥伴 Stubhub,成功獲取相關門票。

– 未選定合作夥伴時,因無法瀏覽被阻止的網站,未成功。
提示:找出 Jamie xx 的演出安排以及每場演出的門票價格。
結果:
– 調用指定合作夥伴 Stubhub,失敗。過程中出現虛假信息,在多次提示後,最終取得成功。
AI 新聞
提示:AI 領域的最新消息是什麼?
結果:
– 調用指定合作夥伴 Axios,表現尚可,返回了一篇簡短的新聞摘要。

預訂 Uber
提示:現在從這裏到機場的 UberX 多少錢?
結果:
– 使用指定合作夥伴 Uber,操作成功。
– Operator 提出合理的問題,詢問「請提供接客地點,以便我為您查找從接客地點到機場的 UberX 費用。」以及「請指定您的目的地機場。」
– 登錄後,Operator 給出答案:「從南加州大學到洛杉磯國際機場的 UberX 當前票價為 43.47 美元。您是否希望預訂此行程?」

房屋清潔
提示:我需要一名家政清潔員明天來我家做一次性清潔。
結果:
– 調用指定合作夥伴 Thumbtack,失敗。
– 未詢問我的具體位置,就推薦了一名位於維珍尼亞的清潔員,可能是因為瀏覽器所在的數據中心位於該地。
Spotify Wrapped
提示:我想瞭解 Spotify Wrapped 成功的原因。(Spotify Wrapped 是音樂流媒體平台 Spotify 推出的年度回顧功能。)
結果:
– 採用簡單提示時,失敗。系統卡在循環中,表現不佳,且研究資料有限。
– 採用複雜提示時,結果尚可。需要多次提示,報告質量不高。在提供了如何進行高級搜索的提示後完成了任務。期間 3 次請求獲取 2024 年的信息均被拒絕。
看完上述演示,也自然引發了一個問題:
「我們能夠隨時介入 Operator 的操作並做出符合自己偏好的更改嗎?」
答案是:完全可以!
事實上,在任何時候,你都可以控制其遠程瀏覽器並引導操作,比如輸入用戶名和密碼。並且如果你給出自己要求後,它還會保存重要的賬戶信息,這樣,只要你登錄一次,它就能在你的賬戶內自行操作,而無需再次打擾你。
最後,Operator 將在結賬頁面停止繼續操作,返回支付請求後,再獲取您的付款詳情:

目前 Operator 支持自動完成通常需要 15-20 分鐘內的網絡任務。
值得一提的是,Operator 還擁有能夠極大提高用戶體驗的「保存和共享功能」。也就是說,一旦完成任務,Operator 就可以輕鬆保存工作流程。比如持續用最新的銷售數據來更新相應的報表。它甚至提供了一個流暢的會話記錄影片,支持用戶觀看並與其他人分享。
換句話說,Operator 就像是一個可以不斷和你磨合,且可以持續進步,還能 24 小時不停按照既定流程為你工作的私人管家一樣。
但是,由於 Operator 才剛剛發佈,所以還是有一定的缺陷。
Operator 的缺陷
正如道德經所說,「有無相生,難易相成」。Operator 自身的缺陷亦是源於它的優勢本身。
它的獨特之處在於不用使用用戶本地的瀏覽器執行操作,而是 OpenAI 數據中心之一的一個瀏覽器,用戶可以遠程觀看並與之互動。這種設計的優點是你可以在任何地方、任何時候使用它 —— 例如,在任意移動設備上。
但缺點是許多像 Reddit 這樣的網站已經阻止 AI 智能體瀏覽,因此它們無法被 Operator 訪問。並且 Operator 也因性能或法律原因被 OpenAI 阻止訪問某些資源密集型網站,如 Figma 或 YouTube。
簡單來講,目前的 Operator 就像是被隔離在玻璃門外的人一樣,對於許多東西都是「看得見卻摸不著」。


像是一個外包乙方,而不是研究助理
目前的 Operator 實際上更像是一個能夠完成你給外包出去業務的乙方,而不是一個足夠聰明的個人研究助理。
例如,可以讓 Operator 閱讀《戰爭與和平》的第一章,並總結每個角色的所有細節以及他們所展現的人類心理和行為。然後,Operator 在 Project Gutenberg 網站上找到了《戰爭與和平》並閱讀了第一章,做得非常出色。

但是其摘要卻枯燥乏味且粗糙寬泛:

在上述摘要中,它做出了正確的觀察:「角色意識到他們的社會地位,有些人,比如安娜・帕夫洛夫娜,小心翼翼地互動以保持禮儀」。但是這個摘要也有一種 SparkNotes 的味道,也就是不夠詳細,還無法真正理解故事情節。
如果提供相同的信息,OpenAI 的 o1 在這項任務上會做得更好 —— 但是 o1 還沒有自主執行任務的能力。也就是說,OpenAI 專注於讓 Operator 非常適合自動執行重覆性工作流程,而不太關注其智能水平。
它確實自主,但提示很重要
關於 Operator,最令人印象深刻的一點是,它只需極少的提示就能獨自完成冗長的任務。例如,我們讓它執行一項耗時 20 多分鐘的任務:我們請它幫我們瞭解 Spotify 年度總結(Spotify Wrapped)功能這些年是如何演變的。
「它最初是什麼樣的?」
「現在又新增了哪些內容?」
它時不時需要一些提示才能繼續推進任務,但最終也成功實現了任務目標。
不可置否的是,與 12 個月甚至 6 個月前的智能體相比,這是一個重大進步,畢竟那時的智能體往往在短短幾秒鍾後就會偏離正軌。
話雖如此,用戶對 Operator 的提示方式仍然很關鍵。如果你向它提供更多關於如何完成任務的細節,它成功完成你交給它的任務的機率就會更高。
例如,在我們關於 Spotify 年度總結的例子中,我們要求它收集並總結不同年份的搜索結果數據。它一開始失敗了,因為它不知道如何按年份篩選搜索數據。但當我們告訴它使用Google的高級搜索工具(該工具提供逐年篩選搜索功能)時,它就成功完成了任務。
OpenAI:一切以消費者為中心
當前,Operator 僅是一個研究預覽,而非成熟產品。但這個預覽版意義重大,要知道就連 ChatGPT 最初也是以研究預覽的形式問世的。
OpenAI 正重拾曾經大獲成功的策略:即使產品還有很多不完善的地方,也要儘早發佈,並持續頻繁迭代。
因此 OpenAI 不僅推出 API,還發佈了面向消費者的產品。
這一舉措與競爭對手 Anthropic 的做法有所不同。Anthropic 雖然也有一款自主智能體 Claude Computer use,但其僅以 API 的形式發佈,因此應用範圍相當有限。
OpenAI 從 ChatGPT 中學到一點,AI 的發佈形式對其推廣的影響,絲毫不亞於底層技術。
因此,他們將首款自主智能體產品,以面向消費者的方式發佈,即使這個產品還存在不少缺陷。
總的來說,儘管 Operator 目前功能有限,但可以預計它會迅速改進。對於廣大用戶來講,現在是時候梳理一下你每天在電腦上做的重覆性任務了,也許一年後你就無需再做其中的大部分工作。
參考資料:
-
https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
本文來自微信公眾號:新智元(ID:AI_era)
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。