不怪奧特曼慌,最大對手Anthropic搶先讓AI 接管人類電腦,網民怒讚並喊話OpenAI:看看人家

昨日,由多位前 OpenAI 員工建立的 AI 初創公司 Anthropic 對外推出了一項引人注目的新功能,名為「計算機使用」。這項功能讓大模型理解一切桌面應用程序並與之交互,包括模擬按鍵、點擊按鈕、鼠標手勢和輸入文本等,在計算機操作能力上已經與人類基本相當。

換句話說,Anthropic 不是為單個任務開發定製工具,而是教授模型基本計算機技能,使其能夠自然地使用與人們相同的日常軟件和工具。

升級後的 Claude 3.5 Sonnet 是第一個在公開測試版中提供「計算機使用」功能的模型,此番 Anthropic 對這套模型進行了全面改進,特別是在智能體編碼與工具使用等任務場景下表現出色。AI 驅動圖像初創公司 EverAI 的創始人 Pietro Schirano 發帖表示,Claude 3.5 Sonnet 是「世界上最好的編碼模型,將它納入日常工作流程,徹底改變了我的生活體驗。」

與此同時,Anthropic 還發佈了全新的 Claude 3.5 Haiku,成本和速度向最小體量系統看齊,但能夠重現該公司最大體量系統的性能。據介紹,Claude 3.5 Haiku 的價格將與 Claude 3 Haiku 保持一致,但在多項重要基準測試當中都有著超越更大體量 Claude 3 Opus 模型的性能表現,其中包括一項由模型完成客服任務的測試。

Anthropic 方面表示,Claude 3.5 Haiku「在編碼任務領域表現特別強勁」,同時也「非常適合支持面向用戶的產品、特定子智能體任務,以及根據大量數據(包括購買歷史、定價或者庫存記錄等)生成個性化體驗等。」

現在,開發者們可以通過 Anthropic 的 API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 平台體驗升級後的 Claude 3.5 Sonnet 。而 Claude 3.5 Haiku 將於本月晚些時候提供,最初作為純文本模型,隨後將提供圖像輸入。

當 Claude 學會用電腦

在 Anthropic 官方發佈的影片中,該公司研究人員展示了新 Claude 模型如何通過計算機使用功能從不同來源處收集信息,進而填寫表格、開發網站甚至是策劃徒步旅行。

有網民表示為 OpenAI 捏了把汗。當然,這項新功能也有局限性。一篇關於該工具的開發博文就列舉了一個測試失敗的案例:它在執行編碼任務的過程中半途放棄,轉而開始「瀏覽黃石國家公園的照片」——開玩笑講,這可能是 AI 機器人做過的最像人類的事情之一,甚至學會了拖延症。

在一項旨在測試 AI 機器人幫助完成機票操作任務(例如修改出行航班)的能力評估當中,新版 3.5 Sonnet 只成功完成了不到半數任務。而在另一項涉及申請退貨等操作任務的測試中,3.5 Sonnet 的失敗率同樣接近三分之一。

對此,Anthropic 方面承認,升級之後的 3.5 Sonnet 在滾動和縮放等常見操作方面仍存在困難,它需要通過快速連續截屏來實現操作,而無法處理實時影片流,因此可能會錯過短暫的通知或者其他變更。Anthropic 在博文中寫道,「Claude 模型的’計算機使用’功能用起來仍然比較麻煩而且容易出錯。我們鼓勵開發人員從風險較低的任務開始進行探索。」

Anthropic 方面稱,這項計算機使用功能仍處於實驗階段,他們正在對「計算機使用」功能進行測試,排查可能出現的問題,同時與開發人員合作改進功能以尋求積極的技術應用方式。目前,參與這項計算機使用功能試點的企業客戶包括 Asana、Canva、Cognition、DoorDash、Replit 以及 The Browser Company。

據悉,軟件開發平台 Replit 已經使用全新 3.5 Sonnet 模型的早期版本來創建「自主驗證器」,用以在應用程序開發過程中對項目進行評估。在另一邊,Canva 公司則表示正在探索利用這套新模型支持設計和編輯流程的可行方法。

會自我糾正並重試任務, 比微軟 UFO 更像人類?

計算機使用似乎正成為 AI 開發的下一個前沿領域,即 AI 模型不必通過定製工具進行交互,而是能夠按照指示使用基本上任何軟件。

最近被亞馬遜收購的 Adept 一直在訓練模型瀏覽網站並實現軟件導航,Twin Labs 正使用現成模型(包括 OpenAI 的 GPT-4o)來自動執行桌面操作流程,消費電子初創公司 Rabbit 在開發一款能夠執行在線購買電影票等操作的 Web 版智能體。有消息稱,OpenAI 等人工智能廠商也一直在開發類似的工具,但目前尚未公開發佈。

今年 2 月,微軟基於 OpenAI 的 GPT-4V 圖像識別模型,專為 Windows 操作系統交互設計的智能體框架 UFO(UI-Focused)更與其有「異曲同工」之妙。UFO 能夠通過對圖形用戶界面(GUI)和 Windows 應用程序的控制信息進行觀察和分析,在單個或跨多個應用程序內無縫導航和操作,滿足用戶的複雜任務請求。也就是說,有了 UFO,用戶通過一句話就可以操作應用界面,比如刪除 PPT 上的所有註釋、設計 PPT 格式、總結會議紀要併發送郵件等。

那麼,Anthropic 的方案與其他操控應用的 AI 智能體有何不同?

工作原理上,據 Anthropic 介紹,其「計算機使用」功能雖然同樣需觀看和解讀屏幕截圖,但實現操作是通過訓練 Claude 模型準確計算像素。具體來講,當開發人員要求 Claude 使用計算機軟件並授予其必要的訪問權限時,Claude 模型會查看用戶界面中的屏幕截圖,而後計算出需要垂直或者水平移動多少像素才能將光標移動至正確位置。如果沒有這種能力,模型將很難對鼠標進行準確操作。

而微軟 UFO 是通過應用程序選擇代理 (AppAgent) 和動作選擇代理 (ActAgent) 兩個 Agent 來實現自動化工作。AppAgent 負責通過分析用戶請求和桌面屏幕截圖,選擇合適的應用程序,並製定全局計劃來完成任務。而 ActAgent 則負責觀察當前應用程序窗口的截圖,從可用控制中選取合適的控制並執行動作,最後由控制交互模塊負責將 ActAgent 選擇的動作轉換為對應用程序的控制操作。

此外,Anthropic 方面宣稱,儘管沒有接受過明確訓練,但升級之後的 Claude 3.5 Sonnet 還會在遇到障礙時自我糾正並重試任務,而且正向著執行包含數十甚至數百個步驟的複雜任務目標推進。並且,Anthropic 的「計算機使用」功能還涉及到模型推理,像如何以及何時執行特定操作以響應屏幕上內容等。

AI 操控電腦存在風險? Anthropic:注意數據隔離

自動化控制應用工具這條賽道已經掀起新一輪 AI 競賽浪潮,如果這些工具按預期發展成熟,很可能在幾年之後為廠商帶來大量收入。Anthropic 方面也一直在向投資者傳達這一信息,即其打造的 AI 工具能夠以比人類更高效且更經濟的方式處理大部分辦公室工作。

不過,此類工具也引發了一些爭論。首先是擔憂「它們只是一種能讓人們工作更輕鬆的工具」,還是「會像一顆炸彈那樣讓各行各業的人們失去生存空間」。另一方面,儘管 Claude 3.5 Sonnet 模型在性能方面仍有不少短板,但其是否已經具備了造成危害的基本能力?

最近一項研究發現,無法使用桌面應用程序的現有模型(如 OpenAI 的 GPT-4o)在面對越獄技術的「攻擊」時,確實願意參與到有害的「多步驟智能體操作」中來,如從暗網上的賣家手中訂購假護照。研究人員表示,即使是那些受到過濾器和護欄機制保護的模型,越獄行為同樣在實施有害操作方面具有很高的成功率。

可以想像,具有桌面訪問權限的模型很可能會造成更大的破壞,如利用應用程序中的漏洞泄露個人信息(或者以純文本形式存儲下聊天記錄)。而除了將軟件作為操作槓桿之外,模型的網絡瀏覽與應用程序連接更可能向惡意越獄者敞開大門。

Anthropic 也並不否認新發佈的 3.5 Sonnet 存在風險,但辯稱,相較於潛在風險,該模型在受眾中的實際使用方式明顯利大於弊。該公司在博文中提到,「我們認為,讓目前這套功能較為有限、相對更加安全的模型早點訪問計算機可能更好。這意味著我們可以開始觀察並學習這套比較初級的模型會引發哪些潛在問題,同時逐步為其建立起計算機使用功能與安全緩解措施。」

Anthropic 方面還表示,他們開發了分類器以「敦促」3.5 Sonnet 遠離已知的高風險行為,例如在社交媒體上發帖、創建賬戶以及在政府網站上執行交互操作。作為一項安全預防措施,該公司將把「計算機使用」捕捉到的任何屏幕截圖至少保留 30 天。但不會利用用戶的屏幕截圖和提示詞訓練新的 3.5 Sonnet 模型,同時阻止模型在訓練期間訪問網絡。

此外,Anthropic 公司強調,「選擇使用 Claude 操作計算機的用戶也應當採取相應預防措施,從而儘量減少此類風險,包括將 Claude 與電腦上高度敏感的數據隔離開來。」

有網民這樣評價道,「兩年前的 Anthropic:我們需要阻止 AGI 摧毀世界。現在的 Anthropic:如果我們讓 AI 自由使用電腦並訓練它患有多動症會怎麼樣?」

參考鏈接:

https://www.inc.com/ben-sherry/anthropic-just-released-its-most-advanced-small-ai-model-yet/90992933

https://arstechnica.com/ai/2024/10/anthropic-publicly-releases-ai-tool-that-can-take-over-the-users-mouse-cursor/

https://www.anthropic.com/news/3-5-models-and-computer-use

Anthropic’s new AI model can control your PC

本文來自微信公眾號「AI前線」,作者:華衛、核子可樂 ,36氪經授權發佈。