OpenAI發佈首個電腦智能體

淩晨薅起來學習論文,你受得了嗎?

深夜,OpenAI展示了他們的首個智能體:Operator,這可不是普通的AI,它能像人類一樣操作電腦,更厲害的是,它可以直接和網頁交互,無論是打字、點擊還是滾動,都能一氣嗬成。

01

Operator是什麼,它有什麼能力呢?簡單講,它是OpenAI最新推出的一款創新型AI模型,像一個會自己操作電腦的「數字助手」。

我們平時用電腦時,得自己點鼠標、敲鍵盤、得盯著屏幕找東西,但Operator不一樣,它能自己搞掂這些,能自己和電腦界面打交道。 

OpenAI為什麼要開發這麼個東西呢? 

動機有三個方面: 一,從用戶需求層面來看,現代社會中存在大量重覆性、機械化的數字操作任務。

以日常辦公場景為例,表單填寫、數據整理、信息檢索等操作不僅耗時耗力,而且容易出錯,Operator的開發想解決這一痛點,通過AI自動化提升工作效率。 

二,從技術發展角度來看,當前大多數AI系統仍局限於信息處理和問答交互的範疇,缺乏實際執行能力。

Operator的創新之處在於突破了這一限制,它實現了從認知到執行的完整閉環,這種能力拓展標誌著AI技術向更高層次發展的重要一步。 

三,從長遠發展來看,Operator的開發,體現OpenAI對AI技術潛力的深入探索 ;通過賦予AI直接操作計算機的能力,為未來更複雜的智能應用奠定了基礎,具有重要的戰略意義; 所以,要做這個東西,我覺得它像一個RPA技術。 

圖示:圖示:

那麼,它的核心能力有什麼呢? 

首先,它能特別精準地理解你的指令。 你給它下命令,它能完全聽懂,還能根據你的需求去完成任務;比如,你讓它幫你買一雙運動鞋,它就能在網上找到合適的店舖,幫你下單,而且還能挑出性價比最高的那一雙。 

然後,可以自己操作網頁,不限於網頁瀏覽與信息提取、表單填寫與數據錄入、文件管理與文檔處理、郵件收發與日程安排等四個方面。 

最主要是,它有智能化決策能力。

例如:在商品採購任務中,系統能夠根據預設條件(如預算、品牌偏好等)進行智能篩選和決策;再或者,你讓它幫你訂一張機票,它就能自己搜索航班、比較價格,最後幫你下單,整個過程都不用你操心。 

而且,這個智能化包括兩個維度: 一,是複雜任務處理能力,二,持續學習與優化能力。

以會議安排為例,Operator可以協調參會人員時間、預定會議室、發送通知等,實現全流程自動化處理,甚至,它可以學習你操作過、編排過的任務然後再學習。

02

它的使用場景是什麼?報告中,有七個有趣的例子。

首先是:網上購物

想像一下,你正準備買一雙運動鞋。以前,你要自己打開購物網站,搜索款式、比較價格,還要手動填寫收貨地址和支付信息。 

現在,有了Operator,你只要告訴它:「幫我買一雙NIKE運動鞋,預算500元左右。」它就能自動完成搜索、下單,甚至還能幫你找到最划算的優惠券。這個過程完全不需要你動手,是不是很省心? 

然後是,自動填寫表單,註冊帳號、申請貸款,還是填寫各種複雜的在線表格,這些任務不僅繁瑣,還很容易出錯。但Operator可以輕鬆搞掂這些。

圖示:圖示:

再者是:信息檢索與整理

在工作和學習中,我們常常需要查找各種資料。比如,你正在寫一篇關於人工智能的論文,需要查找最新的研究進展。以前,可能要在多個網站之間來回切換,手動整理信息。 

Operator可以直接幫你搜索相關內容,把關鍵信息整理成一個簡潔的總結,甚至還能幫你找到相關的學術論文鏈接。這樣就不用把精力浪費在搜索上。 

還有日程安排

計劃下週和客戶開一個會議,要協調雙方的時間,預定會議室,還要發送會議通知。這些事情聽起來簡單,做起來卻很費時間,Operator會自動查看日程安排,找到一個雙方都方便的時間,預定會議室,甚至還能發送會議通知給所有參與者。 

我認為最有用的兩個是: 創意內容製作、文件管理

我想製作一個表情包,但又不會用複雜的圖像編輯軟件。只要告訴Operator:幫我做一個搞笑的表情包,主題是‘週一的我’。 

它就能自動找到合適的圖片,添加文字,甚至還能調整圖片的風格,最後生成一個有趣的表情包。 

至於文件夾管理上; 以前,可能需要手動搜索,甚至還要逐個打開文件查看內容,現在,Operator可以幫忙快速找到需要的文件,並且還能整理文件夾,把相似的文件歸類在一起。 

這就是它的能力,是其中一部分。 

03

既然這樣,Operator是怎麼訓練出來的呢?

一共四個步驟:先讓它「見多識廣」,然後讓它模仿(監督學習),再讓它思考(強化學習),最後通過人類反饋(讓它少走彎路)。 

首先,訓練數據的來源至關重要。

報告中顯示,OpenAI從兩個主要渠道收集數據: 一是公開數據集 ,包括行業標準的機器學習數據集、網絡爬取的數據,這些數據為模型提供了廣泛的任務場景,涵蓋從簡單的網頁瀏覽到複雜的文件管理等操作。 

二是由人類訓練員創建的數據集 ,這些數據集展示了如何在計算機上解決各種任務,例如點擊按鈕、填寫表單、滾動頁面等。通過這些數據,Operator學會了如何模擬人類的操作行為。 

在監督學習階段, Operator學習基本的計算機操作能力,如視覺感知和輸入控制。

這一階段的任務主要是為了讓模型掌握基本的操作技能,例如在網頁上點擊鏈接、填寫表單,或者在文件管理器中打開文件夾。 

強化學習階段的目標是賦予模型更高級的能力,如推理和錯誤糾正。 在這一階段,Operator學會了根據任務需求製定執行策略,適應意外事件,並在執行任務時做出智能決策。 

例如:當用戶要求「幫我買一雙運動鞋」時,模型會自動搜索、比較價格,並選擇最合適的商品。此外,Operator還學會了錯誤糾正;如果模型在填寫表單時出錯,它會重新嘗試或提示用戶確認。 

同時,Operator能夠適應意外事件,例如:當網頁加載緩慢或界面發生變化時,模型能夠調整策略,繼續完成任務。 

值得注意的是,Operator的訓練數據與GPT-4有所不同。

圖示:圖示:

GPT-4的訓練數據,主要集中在文本理解和生成上,而Operator的訓練數據,則更偏向於視覺和交互任務,這種差異使得Operator在處理圖形界面和複雜操作時表現更出色,但純文本任務上不如GPT-4靈活。 

最後,通過人類反饋,Operator能夠進一步優化其性能。 人類訓練員的反饋幫助模型在實際應用中少走彎路,提高其在真實場景下的適應性和效率。 

總的來說,思路就是:先有數據、讓它模仿、開始思考,人類使用再進化。

04

除了這些,風險意識測試,倫理安全問題也少不了,報告中顯示,開發Operator的過程中,OpenAI始終將安全性放在首位。

畢竟,讓一個AI模型操作計算機,就像賦予它一雙無形的手, 因此,OpenAI在設計和訓練Operator時,採取了一系列多層次的防護措施。

我看了下,有三點: 

一,它會主動拒絕高風險的任務。 比如,當你要求它購買違禁品或執行其他潛在有害的操作時,模型會直接說「不」。 

根據OpenAI的內部評估,Operator對高風險任務的拒絕率高達97%,這種機制有效防止了模型被濫用或執行不當操作。 

二,Operator在執行高風險操作時,會主動要求用戶確認。 比如,在發送重要郵件或完成購買之前,它會先展示相關內容,並詢問用戶是否確認繼續,這種機制確保了用戶對關鍵操作的控制權,減少了模型錯誤帶來的風險。 

在一些敏感網站(如郵箱、銀行網站)上,它會自動進入「監控模式」;如果離開頁面或長時間未操作,模型會暫停任務執行,直到用戶返回並確認繼續。 

另外,為了全面評估Operator的風險,它們邀請了來自全球20個國家的紅隊成員,使用多種語言對Operator進行了測試。

圖釋:圖釋:

紅隊成員的任務,是嘗試繞過模型的安全措施,例如: 

通過提示注入攻擊或惡意指令誤導模型,儘管測試環境受到限制(例如使用模擬網站和數據庫),但,紅隊測試仍然發現了關鍵漏洞,這些發現幫助OpenAI進一步完善了模型的安全性。 

報告中,也顯示了Operator也面臨的一些挑戰。

目前,它擅長處理短任務和重覆性操作,但在複雜任務(如幻燈片製作、日曆管理)上表現不佳。 

例如: 

讓它處理多步驟任務,模型可能會因為界面變化或意外事件而失敗。還有,在處理長DNA序列、隨機字符串(如API密鑰)或複雜代碼時,Operator的光學字符識別(OCR)系統表現不佳。 

這是因為任務超出了訓練數據的範圍,導致模型在識別和操作內容時,容易出錯 ;而且,儘管OpenAI已經採取了多種措施來防止提示注入攻擊和惡意指令,但Operator在面對新型對抗性攻擊時仍可能表現出脆弱性。 

總的來說,OpenAI對Operator的未來發展充滿信心,它說,要在三個方面下功夫: 

一,具體的真實場景;二,更多代碼編輯和終端操作;三,將繼續優化安全防禦性能,為真正實現AGI之路而奮鬥。

目前,Operator AI Agent已經上線,但目前僅面向Pro用戶;要200美刀,紮心;看完這個報告,我只想說:這難道不是RPA技術用到電腦上了嗎?國內前段時間流行的手機點單和這不一樣的嗎? 

希望國內大模型趕緊跟上,彎道超車它。

本文來自微信公眾號 「王智遠」(ID:Z201440),作者:王智遠,36氪經授權發佈。