Anthropic 發佈Claude 3.5 Haiku 以及一項炸裂的新功能 AI可以模仿人類訪問電腦

Anthropic 宣佈推出改進版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Haiku，以及一項名為「computer use 模擬計算機使用」的新功能。

也就是Claude 能夠模仿人類的方式使用電腦，它可以自主查看屏幕、移動光標、點擊按鈕、輸入文本等。還能夠自動化執行多個步驟的複雜任務，如填寫在線表格、搜索數據、提交報告等，從而大幅減少人工操作時間。

Claude 3.5能夠在計算機界面上導航，通過切換窗口、打開菜單、選擇選項等操作，完成多步驟的任務。

開發者可以利用這項功能自動化重覆任務、開發和測試軟件、進行開放式任務（如研究），甚至在複雜的應用場景中進行交互。

模擬人類的電腦交互

自動化複雜的多步驟任務

指令翻譯與執行

Claude 3.5 Sonnet改進

- 該版本在多項行業基準測試中表現優異，尤其在編程和工具使用任務上有顯著提升。
- 在編程測試（SWE-bench Verified）中表現提高到49%，在零售領域的工具使用測試（TAU-bench）中提升至69.2%，航空領域則達到了46%。
- 新版 Sonnet 與其前代版本保持相同的價格和速度，並在多步開發過程中提高了推理和編程能力。

更強的編程能力

顯著提升編程任務性能：
- Claude 3.5 Sonnet 在 SWE-bench Verified 編程測試中的得分從 33.4% 提高到 49.0%，表現優於所有其他公開可用的模型（包括 OpenAI 的 o1-preview 和專用的編程模型）。
更好的推理與工具使用：
- 在零售領域的 TAU-bench 工具使用測試中得分從 62.6% 提升到 69.2%；在航空領域的挑戰性更大的測試中，從 36.0% 提升到 46.0%。
改進的多步任務處理：
- 新版 Sonnet 在 DevSecOps（開發與安全操作）任務中表現更優，有高達 10% 的推理能力提升，且保持與前代相同的響應速度。

廣泛適用的開發環境

高效編程：
- Claude 3.5 Sonnet 在多步軟件開發過程中表現更優，對 AI 代理、工具使用和自動化任務等應用更具優勢。
企業合作測試：
- 經過美國和英國 AI 安全研究所的聯合預部署測試，確保在關鍵場景下的性能穩定性與安全性。
用於 DevSecOps 和自主 AI 評估：
- 例如，GitLab 在測試中發現該模型在 DevSecOps 任務上推理更準確，Cognition 公司則利用其在編碼、規劃和問題解決方面的提升，用於自動 AI 評估。

Claude 3.5 Haiku發佈

Claude 3.5 Haiku 是速度最快的新一代模型，在多項測試中超越了上一代的 Claude 3 Opus，同時保持了低延遲和高指令跟隨能力。該模型適用於用戶界面任務、個性化體驗生成等需求。

Claude 3.5 Haiku 是目前速度最快的模型，同時在多項智能基準測試中表現超越了 Claude 3 Opus。
在編程測試（SWE-bench Verified）中，Claude 3.5 Haiku 的得分為 40.6%，超過許多其他先進模型（如原版 Claude 3.5 Sonnet 和 GPT-4o）。
該模型在低延遲、跟隨指令的準確性以及工具使用的精確度方面都有顯著提升。
特別適用於用戶界面任務、個性化體驗生成和大規模數據處理（如購買記錄、定價或庫存記錄）。

主要功能與優勢

- 高速度與低延遲：該模型在響應速度上更快，保持高效的指令跟隨能力，適合各種實時應用場景。
- 指令跟隨的改進：能夠準確理解和執行複雜任務，包括編程、工具使用等，這使得它在多步驟任務中的表現尤為出色。
- 適合多場景的應用：無論是用於專門的子代理任務、用戶界面任務，還是需要處理大量個性化數據的場景，Claude 3.5 Haiku 都表現出色。

Claude 3.5 Haiku 將在本月晚些時候上線，用戶可以通過 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 訪問該模型。

初期版本將僅支持文本輸入，未來會加入圖像輸入功能，進一步擴展其應用範圍。