智譜 AI 這次是真的國際領先了 發佈AutoGLM 一句話手機自動幫你點外賣、訂酒店買東西

前天,Claude 才發佈 Computer Use,讓AI可以像人一樣操控你的電腦來幹活,已經很炸裂了。

這都還沒熱乎。

沒想到國內的智譜 AI 就搞出了個「Phone Use 」,布了他們首個產品化的智能體——AutoGLM。

簡單來說,它是一個能代替你在手機和網頁上完成各種操作的AI助手,不需要手動搞那些複雜的流程,只需要說出你的需求,AutoGLM就可以可以模擬像人類操作手機打開APP一路火花帶閃電全自動搞掂。

它可以幫你:

  • 在微信上「給老闆的朋友圈點讚並寫評論」……

  • 在淘寶上「購買某一款歷史訂單產品」……

  • 在攜程上預訂酒店……

  • 在 12306 上購買火車票……

  • 在美團上點個外賣……

  • 給微信好友發信息打語音電話,總結公眾號文章……
  • 小紅書自動評論點讚關注……

使用場景

假如你正在做飯、洗漱、洗澡、運動、開車、忙著工作的時候,突然有一個事情要在手機上完成,而你抽不開手,很好的解放你的雙手。

比如,看到老闆發的朋友圈想點個讚並留個評論,或者在淘寶上重覆購買之前買過的某樣東西,甚至是預訂酒店、購買火車票、叫車、導航這些瑣碎的事情?

現在只需要對著你的手說出你想要幹的事情,AutoGLM就能幫你全部搞掂。

讓我們一起來看看它有多神奇吧!

給微信好友發信息

給微信好友朋友圈點讚回覆

AutoGLM並不僅限於簡單的應用場景,它的目標是「做你在手機上能做的所有事情」。這意味著它可以幫你做任何你想做的手機操作——

從淘寶購物 清空你的購物車

幫你點外賣,而且還可以自己選規格,比如咖啡的大中小杯、甜度、冰的還是熱的等

幫你訂酒店,而且還能篩選日期、位置、酒店價位、床型等各種複雜選項

AutoGLM 的核心技術創新

從瀏覽網頁到下單購物,再到訂酒店、訂機票、設置導航無所不能。

這得益於它對手機界面的深刻理解和強大的學習能力。

為了讓AutoGLM不斷學習,智譜團隊研發了「自進化在線課程強化學習框架」,這樣AutoGLM可以像人一樣,通過不斷的學習和實踐來變得越來越強大。它不僅能學會新技能,還能自我糾正和改進,保證在實際應用中能越來越好地滿足用戶的需求。

「任務規劃」和「動作執行」解耦

  • 就像分工合作一樣,AutoGLM 把「任務規劃」(想幹什麼)和「動作執行」(怎麼操作)這兩個步驟分開處理,用自然語言作為橋樑。
  • 這樣做的好處是:智能體能更精準地執行操作。例如,當它需要在手機上點外賣時,能更準確地點擊「提交訂單」按鈕。
  • 這就像先列一個購物清單,然後按單子去超市找東西。AutoGLM 通過用自然語言作為中間溝通橋樑,將這兩個步驟分開進行,讓每一步都更準確。
  • 這種設計使得智能體可以像人類一樣,通過自然語言理解界面上的按鈕、選項等元素。例如,在手機上點外賣時,它能先計劃點擊哪些按鈕,然後精準地執行點擊,確保訂單被正確提交。

自我學習和逐步提升的框架

  • AutoGLM 有點像「學得快的小學生」:它在不斷挑戰自己,從簡單到複雜,邊學邊做,並在過程中改進自己。
  • 每次完成任務後,它能夠自我評估並找到下一步需要改進的地方。就像一個學生通過「刷題」不斷挑戰自己,從簡單題目到複雜題目,逐步提升成績。
  • 通過這個自我改進的機制,在不同的任務和環境中都能保持穩定的表現,比如在淘寶上購物、預定酒店等任務上,都能越來越得心應手。

AutoGLM 解決的關鍵挑戰

動作執行不夠精確

  • 問題: 智能體在操作屏幕時,可能會因為軌跡不準確而誤點擊,類似於你想點「支付」卻點成了「取消」。
  • 解決方法: AutoGLM 使用瞭解耦設計,把「想做什麼」和「怎麼做」分開處理。這樣它能先想好每一步的操作,再去精準地點擊或滑動界面。這讓智能體的操作更像人類,減少了錯誤機率。

任務規劃不夠靈活

  • 問題: 面對複雜的任務(比如在一個新網站上查找特定信息),傳統的智能體可能會「卡住」,因為它缺乏靈活應對的能力。
  • 解決方法: AutoGLM 使用了一個自進化的學習框架,它在真實環境中邊學邊做,不斷調整策略。就像你第一次用新手機時不太熟練,但用久了就變得越來越快,AutoGLM 也是這樣通過不斷適應和改進來提升自己。
  • 此外,AutoGLM 還會根據自己的表現調整學習難度,確保在應對複雜任務時依然靈活、準確。

在多種評測基準中表現優異:

  • AndroidLab 評測基準上,AutoGLM 超越了 GPT-4o 和 Claude-3.5-Sonnet,在手機環境中的任務執行表現顯著提升。
  • WebArena-Lite 評測基準中,AutoGLM 的任務成功率相對 GPT-4o 提升了約200%,大大縮小了人類與大模型智能體在 GUI 操控上的成功率差距。

目前,AutoGLM的Web能力已經通過「智譜清言」插件對外公開使用,而在手機端,AutoGLM也已開放給部分安卓用戶進行內測。如果你是安卓用戶,不妨去申請體驗,看看AutoGLM會如何讓你的手機生活更加便捷有趣!

內測申請:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

更令人期待的是,智譜還和榮耀等手機廠商展開了合作,未來會有更多手機直接內置AutoGLM,讓每個人都可以享受到這種極致的AI體驗。​

GLM-4-Voice

除了AutoGLM ,智譜AI還發佈了GLM-4-Voice,一個新型的情感語音模型,具備高級情感理解和表達能力,是一款端到端的多模態語音模型。

這款模型實現了從文字到語音的無縫轉換,不再需要傳統的語音轉文字再轉語音的鏈式方案,從而減少信息損失與延遲。

GLM-4-Voice 的核心特點包括:

  • 情感表達和共鳴:聲音表現自然,可模擬不同的情感(如高興、悲傷、害怕等)。
  • 調節語速:允許在同一對話中快速或慢速輸出語音。
  • 多語言、多方言支持:支持中英文及多種地方方言(如粵語、重慶話、北京話等)。
  • 隨時打斷和靈活輸入:能根據實時用戶指令調整語音輸出。
  • 影片通話結合:即將支持影片通話,真正實現「能看也能說」的AI助理。

GLM-4-Voice 的技術架構基於12.5Hz音頻token建模,通過高效的預訓練數據和流式思考架構,實現低延遲、端到端的語音理解和生成。這種設計大大提高了語音對話的流暢性和智能性,支持即時語音合成,最低只需輸出20個token即可完成。

同時,GLM-4-Voice 發佈即開源