OpenAI最強競品大更新,一句話模擬人類用電腦

天下苦OpenAI擠牙膏久矣。環顧宇內,能夠與OpenAI抗衡的對手屈指可數,Anthropic旗下的Claude模型算是一個可靠的勁敵。

盼星星,盼月亮,沒有等到「超大杯」Opus的亮相,但好在也等來了全新升級的大杯Claude 3.5 Sonnet。

X網民@skirano梗圖X網民@skirano梗圖

簡單總結這次更新的亮點:

  • 拳打GPT-4o,腳踢Gemini 1.5 Pro,新版Claude 3.5 Sonnet表現遙遙領先

  • Claude 3.5 Haiku響應速度最快,性能媲美GPT-4o mini

  • 構建API,教Claude怎麼玩電腦

教Claude玩電腦,AI鍵盤俠來了?

這次更新的重頭戲其實不是新模型,而是怎麼教AI玩電腦。

Anthropic推出了一個公開測試的革命性功能「computer use」:通過API教Claude像個人一樣操作電腦,能看屏幕、動光標、點按鈕、打字……

簡單說就是,Claude現在能用人類設計的標準工具和軟件了。而開發者可以借此解放一些枯燥的重覆性流程任務,甚至進行開放式任務,如研究。

為了讓Claude具備這種技能,Anthropic專門打造了一個API,並使得Claude能夠感知並與計算機界面產生交互。

具體來說,開發者在交互過程中集成這一API,讓Claude將指令(比如:「用我電腦上的數據,結合網上信息填個表」)翻譯成計算機指令(比如:檢查個表格,動動鼠標打開個瀏覽器,導航到相關網頁,然後用網上的數據把表格填滿)

OSWorld是一個用於測試多模態智能體在真實計算機環境中執行開放式任務的能力的基準測試平台,通常用來評估AI模型是否具備像人類一樣使用計算機的能力。

Claude 3.5 Sonnet在僅用截圖的測試類別中得分14.9%,遠超第二名的7.8%。在允許使用更多步驟時,Claude的得分為22.0%。

一些公司的產品已經提前用上了這一功能。

例如,Replit正在利用Claude 3.5 Sonnet的計算機操作與界面導航能力,為其Replit智能體產品開發一項關鍵功能,用於評估正在構建中的應用程序。

當然,這種做法其實並不新鮮。

因為在此之前,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company已經開始探索這些可能性,執行需要幾十甚至上百步的任務。

不過,理想很豐滿,現實很骨感。

官方也坦誠,當前這一功能仍處於實驗階段,在操作計算機時速度較慢,並且經常會出現錯誤。一些簡單的操作——比如滾動、拖動、縮放,看似人類一揮手就能搞掂的事情,對Claude來說依然是個不小的挑戰。

在錄製這些演示的過程中,我們遇到了一些有趣的插曲。有一次,Claude不小心終止了一個正在進行的長時間屏幕錄製,結果所有的錄像素材都丟失了。

之後,Claude在我們的編碼演示間隙休息了一下,開始欣賞黃石國家公園的照片。

此外,Claude通過截取屏幕的靜態圖像,然後將這些圖像組合起來,以理解屏幕上發生的事情,但也正因此,它可能無法捕捉到屏幕上的短暫動作或通知,比如彈出窗口或快速變化的圖標。

官方也說了,之所以提前發佈這項功能,是為了獲取開發者的反饋,預計這功能隨著時間會逐漸有所改進。

案例展示,由APPSO簡單編譯案例展示,由APPSO簡單編譯

Anthropic開發者關係主管Alex Albert還分享了一個有趣的經歷。

在開發「computer use」功能時,他們組織了一次工程故障排查會,目的是找出API中所有潛在的問題。幾位工程師聚在一個房間里工作了幾個小時,但自然很快就餓了。

其中一位工程師發出的第一個「computer use」請求,就是讓Claude導航到外賣平台DoorDash並訂購足夠的食物來喂飽大家。Claude思考了大約一分鐘後,最後給工程師們訂了幾份披薩。

網民也很快挖出了computer use功能拒絕做的清單:

  • 在社交媒體或其他平台上創建賬戶

  • 發送電子郵件或消息

  • 在社交媒體上發佈評論

  • 進行購買

  • 訪問私人信息

  • 完成驗證碼(CAPTCHA)

  • 生成、編輯或修改圖片

  • 打電話

  • 訪問受限內容

  • 執行需要個人身份驗證的操作

真·推理模型之王,新模型編碼遙遙領先

再來看看升級版Claude 3.5 Sonnet交出的成績單。

儘管現在大模型榜單的公信力已不如往日,但基於同一套考題的邏輯下,我們仍然能對新發佈的模型有個初步瞭解。

拳打GPT-4o,腳踢Gemini 1.5 Pro,Claude 3.5 Sonnet在GPQA、MMLU Pro、HumanEVal等一系列基準測試中表現亮眼,可謂是遙遙領先。

特別是在編碼領域,Claude 3.5 Sonnet更是進一步拉大了領先優勢。或許你會好奇,為什麼榜單里沒有出現與OpenAI o1模型的對比。

別急,Anthropic預判了你的預判,官方給出的解釋是:

我們的評估表格中之所以沒有包含OpenAI的o1模型系列,是因為它們在響應前需要大量的計算時間,這與大多數模型不同。這種本質上的區別使得進行性能比較變得複雜。

翻譯一下就是,我們想比但也不好比。

不過,在SWE-bench Verified的編碼測試中,Claude 3.5 Sonnet的表現從33.4%提升到49.0%,超過了包括OpenAI o1-preview在內的推理模型,以及各種智能體編碼系統。

此外,在TAU-bench智能體工具測試中,Claude 3.5 Sonnet也表現不俗。

TAU-bench主要提供一個更接近真實世界應用場景的評估環境。面對零售領域問題,Claude 3.5 Sonnet得分從62.6%提高至69.2%,而面對航空方面的問題,其成績也從36.0%上升至46.0%。

更重要的是,這些改進並未提高價格或降低速度,Claude 3.5 Sonnet仍保持了與前代相同的性價比。

官方博客中提到,編碼能力的改進是Claude 3.5 Sonnet的最大亮點。

GitLab測試發現其推理能力提升了10%,無額外延遲,非常適合多步驟的軟件開發流程。

The Browser Company也指出,Claude 3.5 Sonnet在自動化網頁工作流程方面的表現超越了他們之前測試的所有模型。

作為追求極高安全係數的模型公司,Anthropic自然也對Claude 3.5 Sonnet進行了災難性風險評估,結果符合ASL-2標準。

ASL-2指的是顯示出危險能力早期跡象的系統(例如能夠給出如何製造生物武器的指令),但這些信息由於可靠性不足或無法超越搜索引擎能提供的信息而沒有太多用處。

簡言之,Claude 3.5 Sonnet再強,也還沒有到威脅人類的地步。

聊完性能最強的模型,接下來登場的是,響應速度最快的全新升級模型——Claude 3.5 Haiku。

光看紙面參數,中杯Claude 3.5 Haiku幾乎不遜色於GPT-4o mini,甚至可以說,它已經可以小贏一把,整體表現也與前代Claude 3 Opus表現持平。

但價格沒變,響應速度也沒減,有種「加量不加價」的錯位體驗。

類似地,Claude 3.5 Haiku在編碼任務的表現也尤為突出。

它在SWE-bench Verified上的得分為40.6%,超過了很多所謂的最先進智能體,包括Claude 3.5 Sonnet(舊版)和GPT-4o。

低延遲、改進的指令執行能力以及更精準的工具使用能力,這些特性都讓Claude 3.5 Haiku尤其適用於需要個性化服務的場景中。

例如,根據你以前買東西的習慣來推薦商品,或者幫你決定商品的價格,甚至是幫你管理倉居里的存貨。

最後,升級版的Claude 3.5 Sonnet現已面向所有用戶開放。而Claude 3.5 Haiku將於本月晚些時候發佈,初期只支持文本輸入,圖像輸入功能隨後推出。

實際上,如果你最近關注AI圈,你會發現行業里的幾位重要人物都當起了「預言家」。

Demis Hassabis、Sam Altman和Anthropic的Dario Amodei,都宣稱AGI將在未來幾年或幾千天內實現。

他們畫了一張又一張堪比烏托邦的AGI藍圖,如治癒大多數疾病、解決氣候問題、消除貧困等。

如果彙總那幾篇長文的核心思想,AI幾乎成了包治百病的神藥。但話說回來,信心還得是靠實實在在的產品來證明。

在沒有可靠、可持續的商業模式下,行業只能靠對AGI的「盲信」來維持高昂的投資和支出,就好像掛在驢前面的那根晃蕩的蘿蔔。

換個角度說,今天發佈的Claude模型等一系列產品功能也是在讓我們重拾信心,而按照以往的產品發佈節奏,OpenAI預計也快要出手了。

不同之處在於,OpenAI的武器庫顯然更豐富,靠近年底,下一個亮相的會是OpenAI o1的正式版,還是「期貨」Sora呢?

接下來,我們就拭目以待,看OpenAI如何「亮劍」了。

本文來自微信公眾號:APPSO (ID:appsolution)