智譜 AI 這次是真的國際領先了發佈AutoGLM 一句話手機自動幫你點外賣、訂酒店買東西

前天，Claude 才發佈 Computer Use，讓AI可以像人一樣操控你的電腦來幹活，已經很炸裂了。

這都還沒熱乎。

沒想到國內的智譜 AI 就搞出了個「Phone Use 」，布了他們首個產品化的智能體——AutoGLM。

簡單來說，它是一個能代替你在手機和網頁上完成各種操作的AI助手，不需要手動搞那些複雜的流程，只需要說出你的需求，AutoGLM就可以可以模擬像人類操作手機打開APP一路火花帶閃電全自動搞掂。

它可以幫你：

使用場景

假如你正在做飯、洗漱、洗澡、運動、開車、忙著工作的時候，突然有一個事情要在手機上完成，而你抽不開手，很好的解放你的雙手。

比如，看到老闆發的朋友圈想點個讚並留個評論，或者在淘寶上重覆購買之前買過的某樣東西，甚至是預訂酒店、購買火車票、叫車、導航這些瑣碎的事情？

現在只需要對著你的手說出你想要幹的事情，AutoGLM就能幫你全部搞掂。

讓我們一起來看看它有多神奇吧！

給微信好友發信息

給微信好友朋友圈點讚回覆

AutoGLM並不僅限於簡單的應用場景，它的目標是「做你在手機上能做的所有事情」。這意味著它可以幫你做任何你想做的手機操作——

從淘寶購物清空你的購物車

幫你點外賣，而且還可以自己選規格，比如咖啡的大中小杯、甜度、冰的還是熱的等

幫你訂酒店，而且還能篩選日期、位置、酒店價位、床型等各種複雜選項

AutoGLM 的核心技術創新

從瀏覽網頁到下單購物，再到訂酒店、訂機票、設置導航無所不能。

這得益於它對手機界面的深刻理解和強大的學習能力。

為了讓AutoGLM不斷學習，智譜團隊研發了「自進化在線課程強化學習框架」，這樣AutoGLM可以像人一樣，通過不斷的學習和實踐來變得越來越強大。它不僅能學會新技能，還能自我糾正和改進，保證在實際應用中能越來越好地滿足用戶的需求。

「任務規劃」和「動作執行」解耦

就像分工合作一樣，AutoGLM 把「任務規劃」（想幹什麼）和「動作執行」（怎麼操作）這兩個步驟分開處理，用自然語言作為橋樑。
這樣做的好處是：智能體能更精準地執行操作。例如，當它需要在手機上點外賣時，能更準確地點擊「提交訂單」按鈕。
這就像先列一個購物清單，然後按單子去超市找東西。AutoGLM 通過用自然語言作為中間溝通橋樑，將這兩個步驟分開進行，讓每一步都更準確。
這種設計使得智能體可以像人類一樣，通過自然語言理解界面上的按鈕、選項等元素。例如，在手機上點外賣時，它能先計劃點擊哪些按鈕，然後精準地執行點擊，確保訂單被正確提交。

自我學習和逐步提升的框架

AutoGLM 解決的關鍵挑戰

動作執行不夠精確

問題：智能體在操作屏幕時，可能會因為軌跡不準確而誤點擊，類似於你想點「支付」卻點成了「取消」。
解決方法： AutoGLM 使用瞭解耦設計，把「想做什麼」和「怎麼做」分開處理。這樣它能先想好每一步的操作，再去精準地點擊或滑動界面。這讓智能體的操作更像人類，減少了錯誤機率。

任務規劃不夠靈活

問題：面對複雜的任務（比如在一個新網站上查找特定信息），傳統的智能體可能會「卡住」，因為它缺乏靈活應對的能力。
解決方法： AutoGLM 使用了一個自進化的學習框架，它在真實環境中邊學邊做，不斷調整策略。就像你第一次用新手機時不太熟練，但用久了就變得越來越快，AutoGLM 也是這樣通過不斷適應和改進來提升自己。
此外，AutoGLM 還會根據自己的表現調整學習難度，確保在應對複雜任務時依然靈活、準確。

在多種評測基準中表現優異：

在 AndroidLab 評測基準上，AutoGLM 超越了 GPT-4o 和 Claude-3.5-Sonnet，在手機環境中的任務執行表現顯著提升。
在 WebArena-Lite 評測基準中，AutoGLM 的任務成功率相對 GPT-4o 提升了約200%，大大縮小了人類與大模型智能體在 GUI 操控上的成功率差距。