自主操作電腦的多模態 Agent 升級,智譜 GLM-PC 開放體驗

感謝IT之家網民 有鯽雪狐、軟媒新友2335129 的線索投遞!

IT之家 1 月 23 日消息,北京智譜華章科技有限公司今日發文宣佈,旗下智譜 GLM-PC 開放體驗,宣稱「自主操作電腦的多模態 Agent 再升級」。

據介紹,GLM-PC 是基於智譜多模態大模型 CogAgent,全球首個面向公眾、回車即用的電腦智能體(agent)。它能像人類一樣「觀察」和「操作」計算機,協助用戶完成各類電腦任務。GLM-PC v1.0 於 2024 年 11 月 29 日發佈並開放內測,目前最新推出「深度思考」模式、增加專用於做邏輯推理和代碼生成的功能、並提供了對 Windows 系統的支持。

IT之家從智譜官方獲悉,GLM-PC 具備如下能力:

代碼生成與邏輯執行

  • 規劃:支持綜合分析目標以及可用資源,生成執行路線圖,並將大型任務自動分解為可管理的子任務,以構建出清晰的執行路徑。

  • 循環執行:規劃階段結束後,支持啟動代碼生成模塊,執行邏輯循環,逐步推進任務完成。該循環機制確保了任務的精確執行與高度自動化,從而實現從輸入到輸出的完整閉環,無需人工干預

  • 長思考能力:支持實時調整、反思修正和自我糾錯,持續優化解決方案。具體表現為:流程因外部因素中斷時,可重構邏輯路徑;遇到信息缺失時,可主動與用戶進行交互,通過提問來完善任務執行方案

圖像與 GUI 認知

  • GUI 圖像理解:準確識別圖形界面元素(如按鈕、圖標、佈局等),並理解其功能與交互邏輯

  • 用戶行為認知:結合對用戶界面的學習及歷史操作信息的理解,為用戶提供當前界面的智能推薦操作

  • 圖像語義解析:對複雜圖像進行深入語義分析,提取關鍵信息如文字、標識符及數據可視化圖表中的趨勢和指標

  • 多模態信息融合:融合圖像與文字信息,形成全面感知結果。例如,在用戶界面中同時識別按鈕位置與文字標籤,助力「左腦」製定精準操作計劃

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。