OpenAI 最強競品大更新,一句話模擬人類用電腦,AI 智能體覺醒前的重大突破

天下苦 OpenAI 擠牙膏久矣。

環顧宇內,能夠與 OpenAI 抗衡的對手屈指可數,Anthropic 旗下的 Claude 模型算是一個可靠的勁敵。

盼星星,盼月亮,沒有等到「超大杯」Opus 的亮相,但好在也等來了全新升級的大杯 Claude 3.5 Sonnet。

X 網民 @skirano 梗圖X 網民 @skirano 梗圖

簡單總結這次更新的亮點:

拳打 GPT-4o,腳踢 Gemini 1.5 Pro,新版 Claude 3.5 Sonnet 表現遙遙領先

Claude 3.5 Haiku 響應速度最快,性能媲美 GPT-4o mini

構建 API,教 Claude 怎麼玩電腦

教 Claude 玩電腦,AI 鍵盤俠來了?

這次更新的重頭戲其實不是新模型,而是怎麼教 AI 玩電腦。

Anthropic 推出了一個公開測試的革命性功能「computer use」:通過 API 教 Claude 像個人一樣操作電腦,能看屏幕、動光標、點按鈕、打字……

簡單說就是,Claude 現在能用人類設計的標準工具和軟件了。而開發者可以借此解放一些枯燥的重覆性流程任務,甚至進行開放式任務,如研究。

為了讓 Claude 具備這種技能,Anthropic 專門打造了一個 API,並使得 Claude 能夠感知並與計算機界面產生交互。

具體來說,開發者在交互過程中集成這一 API,讓 Claude 將指令(比如:「用我電腦上的數據,結合網上信息填個表」)翻譯成計算機指令(比如:檢查個表格,動動鼠標打開個瀏覽器,導航到相關網頁,然後用網上的數據把表格填滿)。

OSWorld 是一個用於測試多模態智能體在真實計算機環境中執行開放式任務的能力的基準測試平台,通常用來評估 AI 模型是否具備像人類一樣使用計算機的能力。

Claude 3.5 Sonnet 在僅用截圖的測試類別中得分 14.9%,遠超第二名的 7.8%。在允許使用更多步驟時,Claude 的得分為 22.0%。

一些公司的產品已經提前用上了這一功能。

例如,Replit 正在利用 Claude 3.5 Sonnet 的計算機操作與界面導航能力,為其 Replit 智能體產品開發一項關鍵功能,用於評估正在構建中的應用程序。

當然,這種做法其實並不新鮮。

因為在此之前,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經開始探索這些可能性,執行需要幾十甚至上百步的任務。

不過,理想很豐滿,現實很骨感。

官方也坦誠,當前這一功能仍處於實驗階段,在操作計算機時速度較慢,並且經常會出現錯誤。一些簡單的操作——比如滾動、拖動、縮放,看似人類一揮手就能搞掂的事情,對 Claude 來說依然是個不小的挑戰。

在錄製這些演示的過程中,我們遇到了一些有趣的插曲。有一次,Claude 不小心終止了一個正在進行的長時間屏幕錄製,結果所有的錄像素材都丟失了。 之後,Claude 在我們的編碼演示間隙休息了一下,開始欣賞黃石國家公園的照片。

此外,Claude 通過截取屏幕的靜態圖像,然後將這些圖像組合起來,以理解屏幕上發生的事情,但也正因此,它可能無法捕捉到屏幕上的短暫動作或通知,比如彈出窗口或快速變化的圖標。

官方也說了,之所以提前發佈這項功能,是為了獲取開發者的反饋,預計這功能隨著時間會逐漸有所改進。

案例展示,由 APPSO 簡單編譯案例展示,由 APPSO 簡單編譯

Anthropic 開發者關係主管 Alex Albert 還分享了一個有趣的經歷。

在開發「computer use 」功能時,他們組織了一次工程故障排查會,目的是找出 API 中所有潛在的問題。

幾位工程師聚在一個房間里工作了幾個小時,但自然很快就餓了。

其中一位工程師發出的第一個「computer use 」請求,就是讓 Claude 導航到外賣平台 DoorDash 並訂購足夠的食物來喂飽大家。

Claude 思考了大約一分鐘後, 最後給工程師們訂了幾份披薩。

網民也很快挖出了 computer use 功能拒絕做的清單:

在社交媒體或其他平台上創建賬戶

發送電子郵件或消息

在社交媒體上發佈評論

進行購買

訪問私人信息

完成驗證碼(CAPTCHA)

生成、編輯或修改圖片

打電話

訪問受限內容

執行需要個人身份驗證的操作

真·推理模型之王,新模型編碼遙遙領先

再來看看升級版 Claude 3.5 Sonnet 交出的成績單。

儘管現在大模型榜單的公信力已不如往日,但基於同一套考題的邏輯下,我們仍然能對新發佈的模型有個初步瞭解。

拳打 GPT-4o,腳踢 Gemini 1.5 Pro,Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基準測試中表現亮眼,可謂是遙遙領先。

特別是在編碼領域,Claude 3.5 Sonnet 更是進一步拉大了領先優勢。或許你會好奇,為什麼榜單里沒有出現與 OpenAI o1 模型的對比。

別急,Anthropic 預判了你的預判,官方給出的解釋是:

我們的評估表格中之所以沒有包含 OpenAI 的 o1 模型系列,是因為它們在響應前需要大量的計算時間,這與大多數模型不同。這種本質上的區別使得進行性能比較變得複雜。

翻譯一下就是,我們想比但也不好比。

不過,在 SWE-bench Verified 的編碼測試中,Claude 3.5 Sonnet 的表現從 33.4% 提升到 49.0%,超過了包括 OpenAI o1-preview 在內等推理模型,以及各種智能體編碼系統。

Claude 3.5 Sonnet 真·推理模型之王。

此外,在 TAU-bench 智能體工具測試中,Claude 3.5 Sonnet 也表現不俗。

TAU-bench 主要提供一個更接近真實世界應用場景的評估環境。 面對零售領域問題,Claude 3.5 Sonnet 得分從 62.6% 提高至 69.2%,而面對航空方面的問題,其成績也從 36.0% 上升至 46.0%。

更重要的是,這些改進並未提高價格或降低速度,Claude 3.5 Sonnet 仍保持了與前代相同的性價比。

官方博客中提到,編碼能力的改進是 Claude 3.5 Sonnet 的最大亮點。

GitLab 測試發現其推理能力提升了 10%,無額外延遲,非常適合多步驟的軟件開發流程。

The Browser Company 也指出,Claude 3.5 Sonnet 在自動化網頁工作流程方面的表現超越了他們之前測試的所有模型。

作為追求極高安全係數的模型公司,Anthropic 自然也對 Claude 3.5 Sonnet 進行了災難性風險評估,結果符合 ASL-2 標準。

ASL-2 指的是顯示出危險能力早期跡象的系統(例如能夠給出如何製造生物武器的指令),但這些信息由於可靠性不足或無法超越搜索引擎能提供的信息而沒有太多用處。

簡言之,Claude 3.5 Sonnet 再強,也還沒有到威脅人類的地步。

聊完性能最強的模型,接下來登場的是,響應速度最快的全新升級模型——Claude 3.5 Haiku。

光看紙面參數,中杯 Claude 3.5 Haiku 幾乎不遜色於 GPT-4o mini,甚至可以說,它已經可以小贏一把,整體表現也與前代 Claude 3 Opus 表現持平。

但價格沒變,響應速度也沒減,有種「加量不加價」的錯位體驗。

類似地,Claude 3.5 Haiku 在編碼任務的表現也尤為突出。

它在 SWE-bench Verified 上的得分為 40.6%,超過了很多所謂的最先進智能體,包括 Claude 3.5 Sonnet(舊版)和 GPT-4o。

低延遲、改進的指令執行能力以及更精準的工具使用能力,這些特性都讓 Claude 3.5 Haiku 尤其適用於需要個性化服務的場景中。

例如,根據你以前買東西的習慣來推薦商品,或者幫你決定商品的價格,甚至是幫你管理倉居里的存貨。

最後,升級版的 Claude 3.5 Sonnet 現已面向所有用戶開放。而 Claude 3.5 Haiku 將於本月晚些時候發佈,初期只支持文本輸入,圖像輸入功能隨後推出。

實際上,如果你最近關注 AI 圈,你會發現行業里的幾位重要人物都當起了「預言家」。

Demis Hassabis、Sam Altman 和 Anthropic 的 Dario Amodei,都宣稱 AGI 將在未來幾年或幾千天內實現。

他們畫了一張又一張堪比烏托邦的 AGI 藍圖,如治癒大多數疾病、解決氣候問題、消除貧困等。

如果彙總那幾篇長文的核心思想,AI 幾乎成了包治百病的神藥。 但話說回來,信心還得是靠實實在在的產品來證明。

在沒有可靠、可持續的商業模式下,行業只能靠對 AGI 的「盲信」來維持高昂的投資和支出,就好像掛在驢前面的那根晃蕩的蘿蔔。

換個角度說,今天發佈的 Claude 模型等一系列產品功能也是在讓我們重拾信心, 而 按照以往的產品發佈節奏,OpenAI 預計也快要出手了。

不同之處在於,OpenAI 的武器庫顯然更豐富,靠近年底,下一個亮相的會是 OpenAI o1 的正式版,還是「期貨」Sora 呢?

接下來,我們就拭目以待,看 OpenAI 如何「亮劍」了。

本文來自微信公眾號「APPSO」,作者:APPSO,36氪經授權發佈。