OpenAI 的 Agent 路線圖:Operator 和 Deep Research 之後卷什麼?

OpenAI 開啟 AGI 第三層 -Agent 時代,AI 從「解放」人類到「解僱」人類也許不會太久。
作者丨桑基韜
2025年剛開始,OpenAI 就用 Operator 和 Deep Research 兩個產品宣告了 AGI 第三層 -Agent 的到來。
其實,在此之前,OpenAI 還發了一個名為 ChatGPT tasks 的 Agent 產品,支持日程提醒、更新等功能,類似一個代辦助手。
當然,這些發佈說是產品,其實更像功能預覽。Sam Altman 在介紹 Operator 時就強調這是一個「research preview」版本。而根據這兩天對 Deep Research 的試用,發現它擅長總結和發現,但分析能力還不夠強:生成的報告 intelligence 有餘、insight 不足。現階段仍然只適合做專業人士的助手。
這說,至少在現在,Agent 的作用還是把人類從重覆、低級的工作中「解放」出來,讓人類把時間和精力放在更高階的價值創造上。只是,從「解放」到「解僱」,也許不會太久。
這些發佈再次讓我們看到了AI有多卷。Deep Research 發佈才一天,Github 就出來好幾個開源項目。不過用的並不是推理模型,實現的是此前總結的 ReAct 工作流方式,類似 Kimi 探索版和Google版的 Deep Research。
對 OpenAI 版的 Deep Research 複現並不容易,它依賴模型的強大推理能力,而且需要針對搜索等工具能力使用進行微調。
Operator 和 Deep Research 兩個產品很有代表性。Operator 代表的Computer use 旨在自動化、負責現實世界執行,Deep Research 代表的 Knowledge research 旨在智能化、負責異步信息處理。
一個執行、一個思考,像是人的手和大腦,結合起來實現 OpenAI 對 Agent 的定位:獨立執行複雜任務。
Operator 是此前很早就預告過的。而「deep research feature」其實也出現在了 Sam Altman 的新年願望清單里。
值得注意的是,Sam Altman 在清單的下面配文是「many great updates we have coming were mentioned not at all or very little!」

這呼應了 Operator 的發佈會開頭,Sam Altman 說」we have more agents to launch in the coming weeks and months」。Deep Research 顯然就是這些計劃中 agent 的一個。
負責演示 Operator 的員工自稱來自「computer use agent team」。不禁讓人聯想,OpenAI 還有多少 agent team?
OpenAI 向我們公開了它 AGI 五層路線圖,短短四個月時間,就從 o1 代表的第二層 Reasoner 到了 Operator 和 Deep Research 代表的第三層 Agent。
站在 Agent 元年的開始,我們一起來看一看,第三層Agent內的路線圖可能是什麼樣子?

1
短期:應用落地
Agentic RPA
Computer use 的一個直接應用是企業辦公流程自動化,可以認為是「雙十二」發佈會中 ChatGPT Desktop 在企業端應用的延續,是對現有基於預設流程 RPA 的自然升級。
傳統 RPA 依賴預定義的規則和流程,適用於高度結構化和流程固定的任務,在處理非結構化數據或動態變化的環境時,效果並不好。
Agentic RPA 具備學習、推理和適應新場景的能力,使其能夠處理更複雜的任務。通過整合到 ERP 或 CRM 系統中,可以適應不斷變化的業務需求,為企業提供了更靈活的自動化解決方案。
Personal assistant
這個方向呼應的是「雙十二」發佈會中的 ChatGPT in Siri。相比 Agentic RPA,更側重移動端,且更為個性化。
除了 AI 手機的常見功能,personal assistant 還可以幫助用戶完成日程提醒、任務管理、行程規劃與預訂,以及在社交媒體平台、郵件系統、即時通信工具中進行自動化的消息回覆等。
Personal assistant 未來的拓展包括主動和多模態上下文。主動是指從被動響應用戶指令到主動預測需求;多模態上下文是指感知和解析用戶環境,更好地理解用戶行為和需求。這和最近傳言的 OpenAI 在開發的 AI 設備密切相關。
Domain analyst
Deep Research 目前存在著開放域信息來源受限和專業知識缺乏分析深度不足兩個問題。OpenAI 研究副總裁 Mark Chen 在發佈會上說,未來將接入企業數據庫。
針對法律、醫療、科研等專業領域,除了訪問專有數據,還需要通過強化微調等方式融合專業知識,以提高專業分析準確度和深度,才能實現從 information 到 insight 的跨越,支持實際生產環境中的分析諮詢和輔助決策。
Coding agent
除了對已發佈的 computer use 和 knowledge research 功能的升級和應用,類似 Delvin 的軟件工程自動化可能是另一個重要方向。Coding Agent 模仿經驗豐富的程序員,自動完成代碼編寫、調試甚至項目管理。
由於 Claude 3.5 Sonnet 和 Cursor 優秀的編程表現,相對忽視了 OpenAI 在這個方向的進展。據傳,OpenAI 內部將「自動化工程師」作為現階段「最具經濟價值」的 AI 應用。
相信無論是內部自己使用,還是作為產品發佈,Coding Agent 都是 OpenAI 的 agent 路線圖上的重要基礎和關鍵的一環。
2
中期:能力拓展
從兩個方面來看 Agent 的中期發展:(1)Computer use 代表的任務執行,通過訪問更多的輸入/輸出接口,成為「更強大的手腳」(action executor);(2)Knowledge research 代表的信息處理,通過使用更多工具,成為「更全面的大腦」(insight seeker)。
Action executor
除了接入更多的軟件應用 API,Agent 任務執行將從軟件操作延伸到現實世界,需要同時增強輸入感知和輸出執行的接口。
典型的輸入是 IoT 設備接口,通過接入智能家居和智能工廠中的 IoT 設備,可以感知周圍環境、理解人類行為和需求,拓展 agent 自動化任務執行的應用場景。OpenAI 新研發的 AI 設備也將提供更多的輸入接口和用戶環境上下文信息。
輸出執行接口會涉及智能設備的遠程操作控制,如指揮智能家居、自動化工廠。如果結合 OpenAI 投資的機器人公司,這一方向還可能接入機械執行系統。
Insight seeker
Mark Chen 在介紹 Deep Research 名字的來曆時提到,」Deep」是指去掉了時間限制,而搜索只是第一步,希望未來接入更多工具,讓 agent 能夠「自主發現新的知識」。
可能的工具包括用於增強信息獲取能力的垂域搜索引擎、專業數據庫和內部知識庫訪問、爬蟲和解析工具等,以及用於增強信息分析能力的推理規劃器、圖譜構建、數學計算和建模、實驗仿真和預測專業軟件等。
信息處理不再始於用戶的明確需求,形式也不再是簡單的問答。角色將發生轉換:我們為 Agent 提供數據、實驗資料、仿真環境,然後看著它自主探索、分析、推演,最終得出新發現。
結合 action executor 和 coding agent 的繼續發展,insight seeker 有希望進一步邁向第四層 -innovator。
3
長期:生態構建
在中短期的 agent 路線中,有些問題是需要長期、持續解決的。比如輸入/輸出訪問和工具使用中的 agent 協議問題,包括任務執行的設備通信協議和信息處理的數據接口協議等。Anthropic 正在推進的模型上下文協議(MCP, Model Context Protocol)就是這方面的代表。此外,符合協議標準的向量數據庫和工具庫的建設也至關重要。
將信息處理看成 CPU,而將任務執行看成 I/O,那麼 Agent 將向著 Agent OS 的方向演進。這其實是 OpenAI 自 Plugins 和 GPTs 以來一直的目標,只是當時 LLM 能力有限,而且具有標準接口的多樣化的向量數據庫與工具庫也沒建立起來。
當然,Agent OS 還有很多底層技術待解決。正如馮諾依曼架構依賴程序與數據的統一存儲以及完備的指令集,Agent 計算架構也要解決多模態I/O和工具、記憶的統一表示,以及針對 Agent 的指令集構建等問題。這對當前標準 Transformer 基於 token 的序列化表示,以及基於自然語言的指令體系提出了挑戰。
Agent OS 的發展還依賴新的生態系統。比如基於大模型能力構建 Agent 平台,由第三方貢獻向量數據庫和工具庫,並允許開發者在平台上構建定製化的Agent。
隨著 Agent 生態的完善,將出現多個 Agent 之間的協同工作。不同 Agent 在大型項目中可以互相調用、共享中間結果,將像一個高效的組織一樣動態分工、相互協作。
這個階段,Agent 將演化出更強的協作能力與自治能力,從單點智能向集體智能發展。這也許是第五層- organization 的雛形。
4
後記
2025 年被稱為 Agent 元年,將見證 AI 的大規模應用落地。DeepSeek 事件發生在 2024 到 2025 之際,正是從模型走嚮應用和 Agent 發展的關鍵節點,其意義深遠。
如果說 GPT-4 和 o1 相當於紐卡門蒸汽機,首次向世界展示了 AI 的巨大潛力;DeepSeek-V3 和 R1 就像是瓦特蒸汽機,通過優化效率降低了技術使用門檻,讓 AI 得以服務大眾,進入真正的規模化應用時代。而 Operator 和 Deep Research 展示的,則是這些技術未來可能的使用方式:動態規劃、自主使用工具、異步處理和自動執行。
要承認,OpenAI 仍然是技術引領者,仍然承擔著推動前沿的角色。它不僅在基礎模型的研發上持續突破,在 Agent 生態的構建上也走在前沿。它對 Agent 的理解、技術佈局,和未來的發展方向,值得持續關注和思考。