Anthropic 發佈Claude 3.5 Haiku 以及一項炸裂的新功能 AI可以模仿人類訪問電腦

Anthropic 宣佈推出改進版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Haiku,以及一項名為「computer use 模擬計算機使用」的新功能。

也就是Claude 能夠模仿人類的方式使用電腦,它可以自主查看屏幕、移動光標、點擊按鈕、輸入文本等。 還能夠自動化執行多個步驟的複雜任務,如填寫在線表格、搜索數據、提交報告等,從而大幅減少人工操作時間。

Claude 3.5能夠在計算機界面上導航,通過切換窗口、打開菜單、選擇選項等操作,完成多步驟的任務。

開發者可以利用這項功能自動化重覆任務、開發和測試軟件、進行開放式任務(如研究),甚至在複雜的應用場景中進行交互。

模擬人類的電腦交互

  • 屏幕查看:AI能夠「查看」計算機屏幕上的內容,識別界面元素,並根據指令進行交互。
  • 光標移動:Claude 3.5能夠模擬光標移動,準確定位目標區域,模仿人類在界面上的操作。
  • 點擊按鈕:模擬鼠標點擊,執行界面上的按鈕操作,推動任務的進一步完成。
  • 輸入文本:AI可以在文本框中輸入數據,支持表單填寫、文檔編輯等任務。

自動化複雜的多步驟任務

  • 任務自動化:AI可自動執行多個步驟的複雜任務,如填寫在線表格、數據檢索、提交報告等,減少人工操作時間。
  • 多步驟導航:能夠在計算機界面上導航,通過切換窗口、打開菜單、選擇選項等完成多步驟任務。

指令翻譯與執行

  • 指令翻譯:開發者可以給AI發出高層次的指令,例如「用電腦上的數據填寫表格」,Claude 3.5能夠將這些指令翻譯成具體的電腦操作步驟。
  • 基於UI的工作流:不僅可執行單步操作,還可在用戶界面中基於任務要求實現多步驟的工作流。

Claude 3.5 Sonnet改進

    • 該版本在多項行業基準測試中表現優異,尤其在編程和工具使用任務上有顯著提升。
    • 在編程測試(SWE-bench Verified)中表現提高到49%,在零售領域的工具使用測試(TAU-bench)中提升至69.2%,航空領域則達到了46%。
    • 新版 Sonnet 與其前代版本保持相同的價格和速度,並在多步開發過程中提高了推理和編程能力。

更強的編程能力

  • 顯著提升編程任務性能:

    • Claude 3.5 Sonnet 在 SWE-bench Verified 編程測試中的得分從 33.4% 提高到 49.0%,表現優於所有其他公開可用的模型(包括 OpenAI 的 o1-preview 和專用的編程模型)。
  • 更好的推理與工具使用:

    • 在零售領域的 TAU-bench 工具使用測試中得分從 62.6% 提升到 69.2%;在航空領域的挑戰性更大的測試中,從 36.0% 提升到 46.0%。
  • 改進的多步任務處理:

    • 新版 Sonnet 在 DevSecOps(開發與安全操作)任務中表現更優,有高達 10% 的推理能力提升,且保持與前代相同的響應速度。

廣泛適用的開發環境

  • 高效編程:

    • Claude 3.5 Sonnet 在多步軟件開發過程中表現更優,對 AI 代理、工具使用和自動化任務等應用更具優勢。
  • 企業合作測試:

    • 經過美國和英國 AI 安全研究所的聯合預部署測試,確保在關鍵場景下的性能穩定性與安全性。
  • 用於 DevSecOps 和自主 AI 評估:

    • 例如,GitLab 在測試中發現該模型在 DevSecOps 任務上推理更準確,Cognition 公司則利用其在編碼、規劃和問題解決方面的提升,用於自動 AI 評估。

Claude 3.5 Haiku發佈

Claude 3.5 Haiku 是速度最快的新一代模型,在多項測試中超越了上一代的 Claude 3 Opus,同時保持了低延遲和高指令跟隨能力。該模型適用於用戶界面任務、個性化體驗生成等需求。

  • Claude 3.5 Haiku 是目前速度最快的模型,同時在多項智能基準測試中表現超越了 Claude 3 Opus。
  • 在編程測試(SWE-bench Verified)中,Claude 3.5 Haiku 的得分為 40.6%,超過許多其他先進模型(如原版 Claude 3.5 Sonnet 和 GPT-4o)。
  • 該模型在低延遲、跟隨指令的準確性以及工具使用的精確度方面都有顯著提升。
  • 特別適用於用戶界面任務、個性化體驗生成和大規模數據處理(如購買記錄、定價或庫存記錄)。

主要功能與優勢

    • 高速度與低延遲: 該模型在響應速度上更快,保持高效的指令跟隨能力,適合各種實時應用場景。
    • 指令跟隨的改進: 能夠準確理解和執行複雜任務,包括編程、工具使用等,這使得它在多步驟任務中的表現尤為出色。
    • 適合多場景的應用: 無論是用於專門的子代理任務、用戶界面任務,還是需要處理大量個性化數據的場景,Claude 3.5 Haiku 都表現出色。

Claude 3.5 Haiku 將在本月晚些時候上線,用戶可以通過 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 訪問該模型。

初期版本將僅支持文本輸入,未來會加入圖像輸入功能,進一步擴展其應用範圍。