自主操作電腦的多模態 Agent 升級,智譜 GLM-PC 開放體驗
感謝IT之家網民 有鯽雪狐、軟媒新友2335129 的線索投遞!
IT之家 1 月 23 日消息,北京智譜華章科技有限公司今日發文宣佈,旗下智譜 GLM-PC 開放體驗,宣稱「自主操作電腦的多模態 Agent 再升級」。

據介紹,GLM-PC 是基於智譜多模態大模型 CogAgent,全球首個面向公眾、回車即用的電腦智能體(agent)。它能像人類一樣「觀察」和「操作」計算機,協助用戶完成各類電腦任務。GLM-PC v1.0 於 2024 年 11 月 29 日發佈並開放內測,目前最新推出「深度思考」模式、增加專用於做邏輯推理和代碼生成的功能、並提供了對 Windows 系統的支持。
IT之家從智譜官方獲悉,GLM-PC 具備如下能力:
代碼生成與邏輯執行
規劃:支持綜合分析目標以及可用資源,生成執行路線圖,並將大型任務自動分解為可管理的子任務,以構建出清晰的執行路徑。
循環執行:規劃階段結束後,支持啟動代碼生成模塊,執行邏輯循環,逐步推進任務完成。該循環機制確保了任務的精確執行與高度自動化,從而實現從輸入到輸出的完整閉環,無需人工干預
長思考能力:支持實時調整、反思修正和自我糾錯,持續優化解決方案。具體表現為:流程因外部因素中斷時,可重構邏輯路徑;遇到信息缺失時,可主動與用戶進行交互,通過提問來完善任務執行方案
圖像與 GUI 認知
GUI 圖像理解:準確識別圖形界面元素(如按鈕、圖標、佈局等),並理解其功能與交互邏輯
用戶行為認知:結合對用戶界面的學習及歷史操作信息的理解,為用戶提供當前界面的智能推薦操作
圖像語義解析:對複雜圖像進行深入語義分析,提取關鍵信息如文字、標識符及數據可視化圖表中的趨勢和指標
多模態信息融合:融合圖像與文字信息,形成全面感知結果。例如,在用戶界面中同時識別按鈕位置與文字標籤,助力「左腦」製定精準操作計劃
廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。