Codex 實測:OpenAI 的雲端 Coding Agent

昨晚,OpenAI 上了個新功能:Codex,雲端的 Coding Agent

Codex 簡要概述這東西,由 3 部分組成:codex-1 模型、雲端沙盒、GitHub 接口封裝

不錯的產品,交互很讚但不能自主裝依賴,目前幹不了活

這個 Agent 的功能大概包含:

  • • 問答 Git 上的項目

  • • 跑現成的代碼

  • • 修代碼,提 PR(修改代碼,然後提交上去)

按 OpenAI 員工的說法,他們部分時候也會拿這個處理代碼

總評:非常沒用
總評:非常沒用

總評:非常沒用

用例實測

我必須再次說:這東西目前限制很多,包括不僅限於:

  • • ❌ 不能聯網(不能訪問外部 API、網站)

  • • ❌ 不能臨時裝依賴(如 pip install 無效)

  • • ✅ 只能用你倉居里已有的代碼 + 你事先配置好的環境

所以這東西,只能做縫補,幾乎幹不了重活

我能想到的幾個典型場景:

  • • QA 大佬們的代碼

  • • 寫一點不需要配環境的代碼

QA DeepEP

DeepEP 是之前 DeepSeek 開源的 Infra 框架,我先把它丟進去,選擇「詢問」就好了

寫 Verilog

我本職專業,是EE。

Verlog 這東西,和常規環境沒什麼關係,但非常依賴 AI 對整體項目的理解,而且完全不能依賴 Rag 代碼。

效果是不錯的,改改能用(畢竟 o3)。

背後的實現

說真的,這東西的實現並不複雜,相信很快就會有一堆類似的。

分為三塊:模型、雲端沙盒、打通 GitHub,分別來說說

模型

Codex 背後的模型是 codex-1,通過 o3 調出來的,讓風格更貼近「人寫的代碼」,並且準確性也提升了一些。

以及,發了一個同源的模型:codex-mini-latest,輸入 $1.5,輸出 $6 每百萬 token,比 o4-mini 貴了 30%左右。

在代碼場景下,效果比 o3 更好一點在代碼場景下,效果比 o3 更好一點

調的方法,叫做 Reinforcement Learning, 強化微調,之前介紹過:👉 OpenAI 新貨詳解:強化微調

雲端沙盒

Codex 的代碼是跑在雲端的,會為每個任務啟動一個獨立的雲端沙盒環境,這環境里:

  • • 預先拉好你選的 GitHub 倉庫(只讀)

  • • 跑你配置好的構建腳本、測試命令、lint 等

  • • 不聯網,也沒辦法 pip install

大致就是「開了一台幹淨的服務器」,只裝你確認過的東西,它再在裡面開始「幹活」。

在代碼場景下,效果比 o3 更好一點在代碼場景下,效果比 o3 更好一點

注意:所有修改都只在這個沙盒里完成,Codex 不能直接動你線上倉庫的代碼,最終得你點按鈕發 PR 或下載補丁。

打通 GitHub

Codex 需要你授權 GitHub

  • • 你點「Connect GitHub」之後,它會拿到你的倉庫只讀權限(或者寫權限,如果你開了)

  • • 如果你是團隊賬戶,還要選組織、設定權限範圍

  • • 需要啟用 MFA(多因素認證),畢竟你讓 AI 有權限提 PR,可以用 Google Auth 或者任何,這裏我用的 OnePass

走個流程走個流程

可以吹,別過分

老實講…這些任務,不用 Codex 也能完成

這個東西全名叫 Codex Research Preview,單純 Preview 已經不夠了,還得加上 Research,畢竟什麼活也幹不了,不要有太高的期待

但是,方向是很讚的。

假想一下你幹活幹到一半去吃法了,AI 無縫接管了你的環境,繼續完成你的工作

總結一下

Codex 是 ChatGPT 新加的遠程代碼助手。它:

  • • 產品設計確實不錯,放心也很穩

  • • 雲上跑,隔離安全

  • • 模型可靠(codex-1 微調自 o3)

  • • 流程清晰,輸出可追溯(log、diff、測試結果)

但:

  • • 不能聯網

  • • 不能裝包

  • • 只能在你給定的框架里改點東西

保持關注這個東西全名叫 Codex Research Preview,單純 Preview 已經不夠了,還得加上 Research,目前不要有太高的期待

👉 chatgpt.com/codex