OpenAI發佈首個AI智能體,使用前你需要知道這些細節

今天淩晨,OpenAI CEO Sam Altman宣佈了兩個重磅消息。

一個是ChatGPT用戶不僅將獲得o3-mini的免費試用機會,Plus付費訂閱會員還將享有更多使用額度。

另一個則是備受期待的首個智能體產品——Operator研究預覽版正式亮相。好消息是,它能幫你自動網購,但壞消息是,它可能比較容易「翻車」。

OpenAI總裁Greg Brockman在X平台發文稱:「Operator——一種能夠使用自己的瀏覽器為你執行任務的智能體。2025年將是智能體之年。」

OpenAI讓AI學會「用電腦」了?這是邁向AGI的第一步

作為OpenAI首款真正模擬人類操作網頁瀏覽器的AI助手,Operator能夠自動完成預訂旅行住宿、餐廳預約和在線購物等複雜任務。

用戶可以在多個類別中選擇不同的自動化任務,涵蓋購物、配送、餐飲和旅行等領域。

這項功能將率先向訂閱200美元Pro計劃的美國用戶開放,隨後逐步擴展至Plus、Team和Enterprise級別用戶。

API預計將在數週內推出。

用戶可通過operator.chatgpt.com訪問該服務,OpenAI計劃後續將其整合到ChatGPT,不過,ChatGPT在今天淩晨又雙叒叕崩了。

簡單來說,當用戶啟用Operator時,系統會彈出一個小窗口,展示專用Web瀏覽器的操作界面,並實時說明正在執行的任務。在此期間,允許用戶隨時接管控制。

技術層面,Operator採用遠程雲端瀏覽器執行任務,無需依賴網站API。

它通過截圖識別界面元素,規劃後續動作,形成「觀察-計劃-執行」的閉環,直至完成任務。系統支持多任務並行處理,運行效率高,且能保持登錄狀態。

OpenAI已與DoorDash、Instacart、Priceline、StubHub和Uber等公司建立合作。

Instacart首席產品官Daniel Danker就指出「OpenAI的Operator是一項技術突破,它使訂購雜貨等流程變得異常簡單。」

按照慣例,OpenAI也同期召開了一場發佈會。Sam Altman與Yash Kumar、Casey Chu和Reiichiro Nakano一起介紹和演示Operator。

演示涵蓋了多個實際應用場景,比如通過OpenTable為Beretta餐廳預訂雙人座位,原定7點檔位不可用後改訂7:45。

使用Instacart購物系統識別購物清單——雞蛋、菠菜、蘑菇、雞腿、薯片,並中途接管添加更多雞蛋等商品。

在StubHub上試圖搜索並選購預算500美元以下的勇士隊比賽門票;預約清潔服務;以及計劃通過DoorDash點餐,訂購燒烤披薩等。

理想很美好,現實很骨感,Operator目前最大的問題還是不夠穩定。剛開始演示時還算順利,但中後期的演示過程中遭遇連環「翻車」,甚至未能成功加載相關網頁。

或許是為了確保演示成功,眼瞅著演示人員輸入的提示詞是越來越長。

X平台大V@rowancheung也提前體驗並分享了對Operator的觀察。

比方說,Operator雖然在ChatGPT中運行,但功能完全不同,主要專注於網頁操作(點擊、滾動、輸入)而非生成長文本。目前系統仍存在限制,包括部分網站會屏蔽AI訪問,合作夥伴集成有限。

他指出Operator需要特定的使用方法來優化效果,就像GPT-4適合CoT提示一樣,但目前對Operator的最佳使用方式研究還很初步。

不過,他還是挺看好這項技術能幫助人們自動化處理枯燥工作,從而將時間用於更有價值的事務。

此前有消息稱,Operator在執行任務時使用的截圖內容可能被惡意利用,導致「提示注入攻擊」,存在嚴重的安全隱患。

因此,確保Operator的安全使用是首要任務。

根據官方博客,OpenAI主要是通過多層保護措施防止濫用並確保用戶牢牢控制Operator。

  • 接管模式:Operator在瀏覽器中輸入敏感信息(例如登錄憑據或支付信息)時要求用戶接管。在接管模式下,運營商不會收集或截圖用戶輸入的信息。

  • 用戶確認:在完成任何重大操作(例如提交訂單或發送電子郵件)之前,Operator應請求批準。

  • 任務限制:Operator經過培訓可以拒絕某些敏感任務,例如銀行交易或需要高風險決策的任務,例如對工作申請做出決定。

  • 監視模式:在特別敏感的網站上,例如電子郵件或金融服務,Operator需要對其行為進行密切監督,以便用戶能夠直接發現任何潛在的錯誤。

此外,OpenAI針對Operator實施了全面的隱私和安全保護措施。在隱私管理方面,用戶可以選擇退出模型訓練,一鍵刪除瀏覽數據和歷史對話,並註銷所有網站。

為防範惡意網站的攻擊,系統建立了多層防禦機制,包括檢測並忽略提示注入、監控可疑行為和建立威脅識別管道。同時,Operator設有審核系統來拒絕有害請求和不當內容,對違規行為發出警告或撤銷訪問權限。

「體驗報告」公佈,Operator背後的CUA技術有多強?

Computer-Using Agent(CUA)是支撐Operator的核心技術,它融合了GPT-4o的視覺識別能力和基於強化學習的高級推理功能。

CUA通過訓練掌握了與圖形用戶界面(GUI)交互的能力,能像人類一樣操作屏幕上的按鈕、菜單和文本框,無需依胡禮定的操作系統或網絡API。

據悉,其創新之處在於採用通用界面方法,讓AI能像人類般操作各類軟件工具,突破了傳統AI難以應對的眾多細分應用場景。

不過OpenAI坦言,CUA還有許多需要改進的地方,比如目前就沒法保證在所有場景下都能穩定運行。

OpenAI在Operator中部署的CUA系統展示了不同場景下的性能表現。比如它在基礎網頁操作和重覆性任務方面表現出色,如搜索篩選、創建購物清單和音樂播放列表等任務的成功率達到10/10。

在電商網站搜索商品時也保持9/10的高成功率。但在處理複雜的房產搜索等任務時,成功率降至3/10。

測試還發現,提示詞的質量會顯著影響任務成功率,例如在場地預訂任務中,添加具體時間和操作指引後,成功率從3/10提升至8/10。

系統在處理不熟悉的UI界面和文本編輯時表現欠佳,常出現試錯和低效操作,文本編輯任務的成功率僅為4/10。

為了更好地量化Operator的性能指標,發佈會上的演示人員也提到了OS World測試和Web Arena測試。

OS World用於評估AI智能體在Linux等操作系統上的導航能力,Operator得分38.1%,高於其他公開系統,但低於人類水平(72.4%)

Web Arena則是用於測試評估AI智能體在電商網站和社交論壇等網站的導航能力,Operator得分58.1%,同樣超過其他公開AI系統,但未達人類水平。

安全方面,演示環節介紹了三個主要的安全考慮方向。首先是系統拒絕執行有害任務,使用審核模型和後續檢測,並屏蔽特定網站。

其次對於模型可能存在的錯誤,系統在進行購買、預訂等關鍵操作前必須獲得用戶確認,限制高風險任務如銀行交易,並在敏感網站啟用觀察模式。

特別是針對網站對抗性攻擊(如提示注入、越獄和釣魚),系統設計了謹慎導航機制識別並忽略提示注入,實時監控模型檢測可疑內容,並建立檢測管道快速識別可疑訪問模式。

最後系統設有注入監控器(prompt injection monitor),類似防病毒軟件,實時監控模型檢測可疑內容,發現可疑行為時會暫停執行。

考慮到無法預見所有安全隱患,OpenAI只能先從小規模部署開始,通過持續收集反饋來完善安全機制。

ChatGPT的崛起已經證明,偉大的產品往往誕生於無數次「不完美」的嘗試。

OpenAI也坦然承認,目前由CUA支持的Operator只是一項早期技術,雖然在特定場景已證明有用,但仍需通過用戶反饋持續改進。

並且,他們計劃提高系統在不熟悉界面的適應能力,增強文本編輯精確度,優化對不同提示詞的理解能力,並擴展可靠任務的範圍。

Altman曾在月初的博客文章中表示,OpenAI已經有信心構建通用人工智能(AGI),並預測2025年第一批AI智能體將「加入勞動力大軍」。

包括智譜昨天也宣佈推出了GLM-PC。

這是基於智譜多模態大模型CogAgent,全球首個面向公眾、回車即用的電腦智能體(agent)。它能像人類一樣「觀察」和「操作」計算機,協助用戶高效完成各類電腦任務。

可預見的是,這些智能體在未來將具備強大的自主決策和任務執行能力,能夠處理複雜任務,甚至在某些領域替代人類工作,並從根本上改變企業的生產方式和產出。

在OpenAI的五級AGI路線圖中,智能體處於L3級別,其特點是不僅能思考,還能代表用戶採取行動,執行複雜任務。

這樣看來,Operator不僅是OpenAI智能體邁出的第一步,也將是邁向AGI的重要一步。