智譜「賈維斯」來了,一句話實現跨app、跨設備全自動無人操作

智譜讓大模型從「Chat」走向「Act」,實現從手機到PC的無縫協作。

作者丨劉潔

編輯丨張進

今年 7 月,Lilian Weng 一篇長文讓 AI Agent 在國內再度火爆。

儘管大模型在過去幾年間備受關注,但一直缺乏明確的落地方向,AI Agent 的概念則為業界指明了一條新的道路。

全球科技公司也不約而同地選擇了 AI Agent 賽道,包括蘋果的 Apple Intelligence、Anthropic 的 Computer Use、Google的 Jarvis,還有 OpenAI 即將發佈的 Operator。

智譜 AI CEO 張鵬曾說:「智譜AI 的特色在於對標 OpenAI 的全線產品,不是說人家做什麼,我們就做什麼,而是因為我們追求 AGI 的目標是一致的。」

而這從來都不是說大話。

業界大牛還在為 Scaling Law 是否撞牆爭論不休,智譜已經在 AI Agent 上邁出了新的一步——讓大模型從 Chat 走向 Act,帶來全新的人機交互新體驗。

今年 10 月,智譜率先開放了 Agent 應用 AutoGLM 的內測,受到業內廣泛關注。

2023 年年初,奇績創壇創始人陸奇預言,大模型會在手機上運行,今年各大 AI app 的陸續推出也證實了這一趨勢。

今天,智譜在 Agent Open Day 上,正式推出 AutoGLM,在這一預言的基礎上更進一步,不僅讓 AutoGLM 在手機端實現全自動任務執行,還讓這一技術跨越了更高的應用場景——手機與PC端的無人操作。

在現場演示時,智譜 CEO 張鵬只用一句簡單的語音指令,就讓 AutoGLM 自動創建了一個名為「智譜開放日」的面對面群聊,給在場嘉賓發了兩萬的紅包。這也是人類史上第一個由 AI 發出的紅包。

本次的 Agent Open Day 亮點當然不止發紅包,還包括:

  • AutoGLM 自主執行 50 步以上的長步驟操作,還可以跨 app 執行任務

  • web 端上線 AutoGLM 插件,支持數十個網站的無人操作,實現「全自動」上網新體驗

  • AutoGLM PC 端開放體驗,電腦也能無人操作

同時,智譜宣佈啟動大規模內測,並將快速推向 C 端用戶,提供「10 億級 APP 免費 Auto 升級」計劃,邀約各大 App 合作夥伴共同探索 AI Agent 應用的潛力。

同時,支持核心場景和核心應用的 AutoGLM 標品 API,也會在兩週內上線到智譜 maas 開放平台(bigmodel.cn)試用。

1

讓生活不再「無聊」和「重覆」

過去的人機交互都是人類去遷就機器,人類需要花費大量時間學習機器操作,比如如何使用鍵盤鼠標、不同操作系統里如何調用不同應用。

但大道至簡,其實技術發展到最後,呈現給使用者的都是傻瓜式操作。

就像智譜列出來的人工智能的五個層次,我們正處於 L3 階段,大模型已經初步具備了人類與現實物理世界互動的部分能力。

相應的,大模型也在改變人機交互方式,通過學習人類的行為習慣,模擬人的思維方式,讓機器去適應人。

Agent 的發展也將進一步推動我們探索 L4 階段,迎來一句話操作手機和電腦的全新時代。

上一版 AutoGLM 在 AndroidLab 的評測基準中的表現,已經超過了 GPT-4o 和 Claude-3.5-Sonnet。

這次全新升級後,AutoGLM 能更好地應對多步驟複雜任務,尤其是那些不斷循環的無聊任務。

無論是生活還是工作, AutoGLM 都在努力讓人類從煩人的重覆事件中解脫出來。

想喝咖啡,一道指令讓 AutoGLM 幫你下單,更能記憶口味和常點店舖,一句「點咖啡」全搞掂。還有「盲盒」模式,AutoGLM 自由決策,解放選擇恐懼症。

為了進一步優化用戶體驗,AutoGLM 在用戶和眾多應用間添加了一個 app 執行的調度層,這樣一來 AutoGLM 就可以跨 app 操作,不需要用戶手動切換 app。

像大促時各平台的商品比價,或者是根據小紅書攻略在大眾點評上訂一家約會餐廳,再順便打個車,都可以全程交給 AutoGLM 進行全自動化處理。

除了手機端,web 端的智譜清言也上線了 AutoGLM 插件,支持搜索、微博、知乎、Github 等數十個網站的無人操作。

智譜也模仿人使用電腦的方式,在 PC 端做了無人操作嘗試,目前已經開放了 GLM- PC 的第一階段內測。

工作太忙,不管是文檔處理、會議替身、資料檢索總結,還是遠程和定時操作,這些重覆又無聊的工作都能交給 AutoGLM,它能在多步操作過程中記住複雜指令以及之前的選擇,極大地提升操作效率,節省時間。

2

大模型從 Chat 走向 Act

從 2023 年的 AgentBench 開始,經歷了長達一年半的研發,智譜交出了自己滿意的 Agent 應用。

在這期間,智譜有兩個重要發現。

第一個發現是,Agent 本質上也遵循著大模型的 Scaling Law。

第二個發現是,Agent 也有 Emergent Ability(湧現能力)。即使之前 AutoGLM 從未在小程序里測試過,也能夠完美完成小程序下單任務。

基於這些發現,智譜訓練出了 Agent 模型,CogAgent,並在此基礎上研發了 AotuGLM 和 GLM-PC。

CogAgent 模擬的是人類的「感知、認知、運動」閉環。

首先,用外部感知模仿人類的眼睛,獲取通用像素級信息,再模擬真人的思考過程,以語言作為推理的決策和媒介,最後執行決策,模仿人的操作方式來操作工具。

CogAgent 學習人類操作的過程也分為三個階段:

  • L1:被動模仿,觀察人類是如何使用計算機的;

  • L2:交互學習,在人類的指導下學著使用計算機;

  • L3:主動探索,自主探索計算環境,學會自我提升。

智譜還將高解像度圖像輸入 GLM-4V-PLUS 預訓練模型,讓 CogAgent 能夠更好地理解文本和 UI 界面元素,擁有更強的 GUI 視覺感知能力。

通過高解像度圖像輸入和語言-視覺聯合訓練,CogAgent已更新至2.0版本,能夠處理更複雜的邏輯推理。

CogAgent 2.0 以模仿點擊、滾動、鍵盤操作等人類操作行為,疊加界面問答和語言生成 LLM 原生行為的方式,同步完成決策執行,賦予 AutoGLM 跨 app、跨平台、跨系統的泛化能力,最終構建一個互通的世界。

張鵬表示,我們看到了 LLM-OS 的可能,基於大模型智能能力(從 L1 到 L4 乃至更高),未來有機會實現原生的人機交互。將人機交互範式帶向新的階段。

Gartner 已將代理式 AI 列為 2025 年十大技術趨勢之一,預計到 2028 年,至少 15% 的日常工作決策將由AI Agent自主完成。隨著技術的成熟,AI Agent 將逐步改變人機交互的方式,極大提升工作和生活的效率。

智譜正在引領這一變革,從「Chat」到「Act」,讓 AI Agent 成為未來人機交互的核心驅動力,助力個人和企業實現全新的智能化體驗。

3

群訪環節

提問:今年上半年整個大模型行業都在尋找超級應用,而下半年,智譜推出了 AutoGLM 這個智能體,同時整個行業都在探索底層的生態佈局。請鵬總談一下轉變的原因是大家的戰略訴求點發生了哪些變化?在整個生態底層,我們創業公司和大廠之間的差異性在哪裡?

張鵬:年初我們在1月份發佈會上說過這個事情,大家有點期待過高,太急了。這個可以理解,畢竟這是一個高投入的事情,大家都期待更快地產生生產力。

我們佈局的這些事情能讓大家眼前一亮,是因為我們關注的一直是底層技術。大模型的落地應用不僅僅是單項技術的提升,而是技術的全面積累。

只有當各項能力達到一定水平,才能真正產生價值。比如ChatGPT雖然強大,但如果僅依賴單一技術,處理複雜任務時仍有局限。我們的技術佈局是全方位的,注重多模態、複雜交互能力的提升,正是這種全面的技術積累,才讓我們有了今天的成果。

與一些大廠的做法不同,我們更多關注的是技術導向和最終目標,而非單純的快速變現。我們希望通過技術真正解決生產力問題,而不是追求短期盈利。所以,我們的戰略眼光也會更長遠一些。

在生態方面,我們的技術體系更開放,鼓勵合作夥伴和客戶基於我們的平台去構建自己的應用和商業價值。這種開放的生態,和一些大廠的封閉做法有所不同,正是我們的一個重要差異。

提問:剛才張帆總說我們端側的模型和雲側的模型以後要統一,但 7B 和 1.3B 並不是一個體系的模型。接下來端側模型的訓練會如何進行?雲端模型是否不再訓練,還是會每兩年更新一次?另外,端側模型是否會開源?有人認為開源會變得落後,你怎麼看?

張鵬:他說的統一和你的理解有點偏差,我們指的是架構體系統一,不代表合在一個模型。

雲端的大模型和端側模型受物理限制無法合併,我們有小型模型運行在端側,邊緣和雲端也有所不同。

統一指的是架構相似,能力趨同,應用一致,便於形成雲邊端協同的技術體系。整合來自不同供應商的模型,適應不同架構和特點的成本較高,所以「統一」指的是架構層面的統一。

提問:從去年開始,雖然大家討論AIPC和AI手機,但當時很少將Agent概念與端側和邊側結合。您覺得從端側來講,這種AI的應用從今年到去年,大家有什麼樣的進化?我們看到硬件也是在進化的,去年硬件的準備也不是很好。今年,硬件如驍龍8至尊版有了更好的支持,模型產品也在不斷推出,您的觀測是什麼?

張鵬:去年我們很少提到Agent,因為Agent這一能力是隨著模型能力逐步增長而出現的產物。當時,模型的智能水平尚未達到足夠的程度,導致Agent的效果並不顯著,因此提及Agent可能為時過早,且效果較為有限。

端側之所以成為焦點,主要是因為端側的應用效果更加直觀。大模型帶來的第一個顯著提升便是在人機交互方面,而這一點在端側表現尤為明顯。例如,Agent能夠調取API等功能,雖然這也是Agent能力的一部分,但更多地面向的是開發者、系統級和企業層面的應用,因此普通用戶的感知較為薄弱。

此外,技術的不斷進步和關注度的提升也推動了端側硬件廠商在這一領域的適配與發展。隨著硬件支持的增強,端側的Agent應用逐漸展現出更加顯著的效果。綜合技術進步與硬件適配的雙重因素,當前Agent能力在端側的應用效果愈加顯著。

提問:Agent演示了很多應用,但可能會離真正的生產力的大部分場景有點差距。如果想要以後用Agent覆蓋更多的50%、80%的設備使用場景,讓它做更多預訓練之外的事情,我們接下來需要做哪些事情?在模型上還是數據上做優化呢?方向在哪裡?怎樣可以讓它成為一個生產力的工具?

張鵬:這個問題本質是技術驅動問題,劉瀟幫忙回答。

劉瀟:謝謝這個問題,就像今天我們所介紹的那樣,現在預訓練的Scaling確實在業界現階段由於數據問題遇到了一定瓶頸。但是o1代表的Agent Scaling打破了技術突破的概念,我們通過後訓練的Scaling,幾乎找到了在我們AutoGLM Scaling上一樣的效果。

接下來是我們怎麼更好的在這樣一個模型基礎上,預訓練還是要繼續,還是有空間,只不過需要新算法的範式轉變。但是後訓練這件事情上,依然有很長的Scaling的路要跑,但是意味著和以前的Scaling有一定區別,你需要面向後訓練的特點改進你的Scaling的框架、算法、數據,這都意味著一套新的邏輯。

張鵬:我稍微補充一下,劉瀟講的Scaling單一看語言模型的訓練,確實因為數據的原因和訓練規模原因,確實不像我們之前預測的一樣,還是指數級的往上漲。

但是看更寬的範圍,你把這些統一起來看這些事情,Scaling還在起作用。只是說它換了一種方式體現這種事情,我們一直說Scaling是現象總結,但是現象本質是什麼?我們更重要的要看本質,現象總有終結的時候,本質是我們做這件事情的初衷。

我們團隊比較樂觀,覺得有大把的空間和機會使用Scaling突破技術上的鴻溝。

提問:今天您提到正在從生成式AI、AgentAI進化,轉變過程中軟件生態鏈或者開發者的生態發生什麼變化?希望結合惠普等等合作夥伴的落地情況分享一下。

張鵬:我覺得生成式AI和智能體這個事情,本質上也還是一樣,它的範式沒有變化。

因為它還是用生成方式做任務的規劃、理解規劃、執行等等一系列的過程。只不過我們把這部分的能力增強到一定程度之後,它能夠和外部產生連接。

這是Agent在生成式AI上加的一部分,它有和外部連接的能力。所以,我還是看本質的問題,差別沒有那麼大。

問題的第二部分是這件事情對於開發者或者工程的要求是什麼?

其實肯定會有一些要求。對開發者來說肯定沒有什麼特別明顯的差異,只不過是你的工具變強了,現在寫代碼原來是逐行的寫,現在可以拆解各類文件,按步驟生成你的框架、裡面的代碼等等,一次性可以幫助你做更多複雜的事情。

從開發角度來講工具變強了,沒有太大變化。但是對於整個這件事情的邏輯上來講,比如說複雜系統的開發,企業內部應用落地這種技術,是有一些變化的。

如果你需要讓Agent調用這些東西,我們今天展示的是在客戶端,人看懂的東西它可以看懂。但是研發、開發這一段人看得懂的開發文檔,它能不能看懂?這是新的問題。

你內部的數字資產,已有的這些服務能不能讓Agent可以很好的調用和執行,那些東西並不是主要面向人的。

這個也對企業帶來新的要求,你對內部的數字資產怎麼進一步做整理、規劃,怎麼做適合新時代下開發範式的調整,這可能也是一個新課題。

提問:想繼續您剛才的關於Scaling的問題追一個問題,最近美國那邊一直有爭論,Scaling有沒有放緩大模型,開發有沒有撞牆這個事情。

您也簡單的敘述了您的態度和基本觀點,我們想關注的一點是怎麼讓Scaling繼續?

張鵬:我們今天展現很多這樣的路徑,比如說語言可能碰到人類極限的天花板,能不能突破需要更好、更多的數據,更大規模的去做。剩下的在多模態、今天我們展現的Agent能力上,都是可以去嘗試Scaling的點。

多模態這個事情,Scaling這個事情不是我們說的。有很多文獻和論文證明,視覺這一塊仍然還秉持著Scaling路線效果,包括在Agent上面論文也論述了這個特點,也仍然可以Scaling,當然還有更多的點去找。

所以,反復的強調我們聊的是AGI,這個內涵非常豐富,不只是一個語言模型。這裡面不只是簡單的模型參數量,訓練方法和推理量都是Scaling的方法。

所以,Scaling是一個我們看到的現象,現象的本質是什麼?我們一直在找這個本質。

提問:可解釋性?

張鵬:不是,我目前比較讚同的事情是計算量,你有多少計算量你的智能就有多少,這個是現在看起來是比較貼近真相的解釋,但是也不保證它一定對。

因為,現在還在不斷的探索,不斷的更新每個人的認知。不管是強化學習的方法還是Agent上擴散模型的方法去解決多模態的這些問題,其實都是在增加計算量。預訓練量更多,後訓練也通過增加計算量有更好的效果。

劉瀟介紹的計算量的上升,其實也是Scaling的效果,只不過並非是簡單粗暴地通過數據量和參數量的增加來實現的有效性。

提問:之前提到2B是四條路線,2C提了很多,生產力應用等等很多方向。我們是怎麼找到我們生態位的?為什麼放棄GLMS這樣的做法?

張鵬:我認為不是放棄,不同階段做不同探索,過程當中大家都是不斷的嘗試和試錯。

GLMS這件事情是最原初的對於Agent的嘗試,只不過今天的AutoGLM是GLM底下非常具像的能力,這個能力產生的效果是可以Scaling的,可以更大的,具像化的產生這件事情,並不代表我們之前的智能體就怎麼樣。

今天是操作手機和電腦,明天就可能操作你的數據庫和企業內部的數據,幫助你生成複雜報告的邏輯,本質上是一樣的。

因為大家每天用電腦和手機,每個人對這件事情的接受程度和理解更容易,比如說2B和企業內部應用不存在這樣的場景嗎?也存在,只不過大家體感上有先有後,其實2B還行。

提問:我們發佈了AutoGLM怎麼考慮生態位的問題?軟件中間的應用牆也是很厚的。

張鵬:我覺得一半是商業問題,一半是技術側問題,劉瀟先說一下技術上的事情。

劉瀟:我們這次發佈會體現出來了AutoGLM希望成為幫助大家更好的連接,不論是連接硬件還是連接各種應用服務的中樞,或者說應該是一種工具,它能夠更好的通過自然語言方式讓用戶更加容易的組裝這種服務,更有意願做這件事情。

從技術背後看挺困難。原本你在自己的應用生態裡面拿到底層的很多東西,包括有完整設計的圖紙去做這件事情,這是一方面。但是這種註定了一在一個封閉的生態裡面做開發,沒有辦法和其他人很好的合作,並且你的模型不夠聰明,不能夠那麼好的連接。

從技術角度來講,讓模型更好的連接這個事情,包括這次提到的重點,可能是我們認為可以幫助到大家,大家在商業形態的技術上得到一些啟發。

最後,模型做到這種水平的智能體能力,並不是想像中那麼簡單的事情,這是我們智譜最有自信的地方,比如說OpenAI出來了很久,但是真正的滿血版沒有放出來,是我們很難想像的一個水平的東西。

從原始創新、算法和模型能力上做持續迭代,這件事情從我的視角看是最重要的,最需要為大家提供的事情。

張鵬:我們還是技術驅動型公司,技術路線驅動了我們很多路徑。

像劉瀟講的一樣,對我們自己的定位,我們更多的是探索新的可能性,新的範式,然後把我們自己變成這個生態和範式裡面的賦能方。我們希望大家通過這種賦能的方式,解決一些原來比較條塊化或者垂直化行業劃分之後形成的壁壘,去解決這樣的一些問題,幫助大家打開一些新窗戶。

從商業化角度來說,做這件事情,我們是一個賦能方。包括現場也看到很多合作方在參與和合作這個事情,大家是互利的態度和方式,我們有這樣一種新的生態,給大家提供新的技術和平台,這些原有的廠商和新廠商也好,都會在這個平台上做,大家各取所需。

原有大廠商自己的生態中做的技術體系以及等等的生態也好,可以和我們其他的生態鏈接,這是一種新的鏈接方式,新的可以找到更多接入的方式,不需要自己進一步去和各種各樣的夥伴或者是一些生態裡面其他位置上的廠商去聊這件事情,自然而然會變成一種繁榮的生態。

提問:以前我們用清言、清影是主動輸入的過程,現在在終端上可以調用各種APP,這個過程中是否涉及用戶的個人信息或者隱私之類的合規保護問題?

張鵬:我簡單的回答一下,技術上的事情讓劉瀟回答。

這個肯定會涉及到這一方面,也是因為這個我們做的相對比較謹慎。發紅包這件事情也是今天讓大家試一下,通常情況下不會做這件事情,我們是主動的。

確實會涉及到用戶隱私和安全方面的東西。我們在考慮怎麼樣用更安全的方法解決這些問題,我相信把問題擺在桌面上大家正面對待,總有辦法解決。

剛才會間我們和劉瀟聊的時候,也在聊未來我們會有一整套雲邊端一致性的統一框架,這套框架解決一部分數據的隱私、保護和安全的問題,在本地解決掉。有一部分不涉及敏感信息的複雜任務靠雲端解決。

從技術的演進上來講,我們先創造一種可能性,這種可能性帶來的問題我們逐漸的解決,技術上的細節由劉瀟補充。

劉瀟:這是一個非常關鍵的問題,AutoGLM目前還是處在內測的狀態,更多是向大家去展示大模型接下來的方向是什麼,以及它未來可能有什麼樣的能力,目前並不是一個正式的產品或者這樣的內容。

但是大家可以看到,國外的OpenAI和Google,也是通過讀取用戶電腦屏幕,包括在你的電腦上做一系列的操作完成這些事情。OpenAI在1月份的消息是上瀏覽器的操作智能體,Google也有消息報導出來。

目前,基礎還處在一個發展的初期,確實是時候可以拿出來和大家一起討論,和各種合作方一起溝通。

一方面能力上還有很大的提高空間,但是另外一方面儘早的把這些問題建立起來,大家一起把這些問題構建好,在國際競爭當中是未來的必然趨勢,我們提前做好準備,這個事情是我們認為在技術上比較重要的一個點。

提問:去年的時候,行業內大家都聊到Agent,但是一直很難落地的原因是它的成功率太低了,執行任務的時候。

我們智譜的Agent執行任務中的成功率可以達到多少?在提高成功率的過程中,我們依賴於哪些問題的解決?

張鵬:首先,這項技術本身仍處於非常新的階段。

儘管它能夠展示許多炫酷的應用案例,但也有用戶反映其體驗不盡如人意,尤其是在理解中文網站或環境方面存在一定困難。

然而,我認為這更多是時間問題。以ChatGPT為例,剛推出時,大家也曾調侃它存在諸多問題,但僅僅經過四個月,技術能力便有了顯著提升,隨後出現的一系列新模型也證明了這一點。

對於我們的技術團隊來說,我們也難以預見到它的增長曲線會如此陡峭。

例如,我在PPT中介紹的能力湧現特性,過去我們投入了大量精力準備數據並通過強化學習進行訓練,但成效並不明顯。

然而,當某個臨界點的積累達成後,我們發現技術能力發生了躍變,開始遵循Scaling規律,找到了突破點,並進一步推動其擴展。

這是一個非常重要的觀察。我認為,我們無需過多等待,預計明年,Agent技術將達到普通用戶可以接受的成熟水平,而到2025年底實現這一目標,並非不可想像。

至於成功率,它因任務的不同而有所差異。

例如,一個月前,如果讓我完成一個50多步的任務,我是做不到的,而今天展示的採購流程已經可以順利完成。一個月前,5到10步的任務成功率很高,達到80%至90%,但更複雜的跨應用任務則幾乎無法完成。

總的來說,隨著技術的發展,成功率的提升速度非常快,尤其是在不同難度任務之間,表現的差異在迅速縮小。

提問:無論是PMF還是模型能力的增長速度,大家對大模型有很多像前幾年的質疑,我們作為從業者,智譜或者是大模型,未來遇到的難點是什麼?

劉瀟:我從技術上來說,確實Scaling是一個非常有效的東西。但是各位媒體朋友們剛才也說了,既然大家已經意識到Scaling這件事情重要,你就不要隨便放棄它。

當你認為在某個問題上Scaling做不通的時候,不是Scaling本身的問題,是你把問題和路想窄了,Scaling的對象和Scaling的方式,包括怎麼真正從算法上原始的創新和改進這些事情,這些點是最關鍵的。

還是那句話,人們總是高估技術的短期影響,而低估技術的長期影響。短期內看它沒有起來就特別著急,但是轉頭稍微等幾個月,你會發現事情上和你想像的本質上會有很大的差別。

所以從技術的角度來講,我們想做好的事情是繼續用好Scaling,並且去信仰Scaling這樣的東西,靈活的應用它,實事求是的去應用這種規律,找到真正適合的場景和用新的算法實現它。

而且,對這件事情我還是挺有信心的,我瞭解到同行們對這件事情挺有信心,當然如果很暴力的去訓練的話,確實覺得沒有什麼前途。

提問:AutoGLM的技術會開源嗎?未來落地形態是APP還是更底層一點賦能給手機廠商或者汽車廠商這樣的2B的形式?

張鵬:四個字:皆有可能。

劉瀟:這一塊我們做了很多開源工作,評測用的安卓LAB環境等等都是開源的。

提問:現在一個智能體要完成一個複雜的工作流可能要調動很多的數據應用程序,但是現在很多網站和APP都有自己的API,現在API不太統一,不夠標準化。

導致智能體沒有足夠的接口可以用,限制智能體的發展。所以,咱們智譜的智能體也會面對這樣的情況嗎?會怎麼處理?智譜想打造賈維斯嗎?

劉瀟:首先我們強調了AutoGLM和CogAgent,本質上叫用戶圖形化交互界面的操控Agent,它和之前基於API調用的Agent有本質的差別。它實際上是模擬人類完成一系列的操作,並非是用傳統機械的方式去調用。從這件事情的角度上來講,使得它能夠去在沒有特定API的情況下,依然為用戶完成一些用戶要求的任務。

這個場景為什麼有效呢?從技術角度來講確實要統一API,對廠商和平台或者某個應用自己做的話成本非常高。而且這些應用本身自己也在不停的演化,這個API昨天搭好了,過一週上了新版本,需求馬上就失效了,這個事情是非常普遍的。

用戶圖形化交互界面的這樣一種大模型智能體完成這件事情就規避了這個問題,因為界面人類依然可以理解,用戶能用的就不是那種很變態的設計,我覺得它依然處於適用的狀態,這也是非常好的借助了大模型泛化性和通用的事情,像人類一樣去,理解這個世界。這件事情是我們能夠真正實現通用和人的助理的通用,這是以前用純API的策略是做不到的。

提問:智譜這次更新是強調任務規劃和動作執行方面的升級,明年是Agent大規模落地的時間點。

我們最近看到很多友商發佈的產品更多集中在低代碼工具和自然語言這一塊,這兩種是同樣的嗎?還是大廠和創業之間的路徑差異?

張鵬:大家站的視角和看待問題的視角不一樣。前面我也說過這個問題,我們看待這個事情,是最終的目標是什麼,我們到底做什麼事情,反向看我們應該做哪些事情,哪些事情可以商業化,商業化這件事情重要,但不是我們的唯一目標。

這個技術從商業化的角度來看,肯定有一些問題需要我們去解決,成功率、價值、安全、隱私等等都要解決,解決了這些事情才能把它真正變成錢,但是並不代表這個技術不好,大家很興奮是因為這個技術真的覺得好,既然有這個技術為什麼不讓大家往這個方向走呢?需要有這樣的一個思路。

所以說不要受困於固有的邏輯和思維定勢看待全新的東西,這是大模型這一次給我個人的教訓,很多東西不要把太短期的目標放的太高。

當然,過程當中我們會沿途下站做很多商業化落地的事情,作為企業這也是很重要的使命,要做的一些事情,我們希望在這兩件事情上把它平衡好。

提問:我看到AI Agent可能是搶佔用戶入口,未來有大模型新的形態。

這會不會對傳統廠商構成威脅?您怎麼看待和傳統廠商的競爭關係?未來我們會往操作系統方面發力嗎?

張鵬:在現在這個階段並不構成所謂的威脅或者這樣的說法,我們揭示了希望通過這個技術讓大家更簡單更有效,永遠是站在用戶端。

任何一種商業邏輯最終是為用戶創造用戶價值,這個是最根本的。這件事情用戶用手投票有用,最後的結果是什麼大家也不知道,可以再看一看。

我們希望用這樣的技術幫助大家改進這件事情,而且我們現在做到的事情並不是很深入的進入到這些APP和應用裡面。

原來APP是什麼形態繼續改進,並不受影響,我們幫助大家多了一條路而已,努力的找增量,這是我一直和大家講的問題。

其實這個世界、宇宙非常大,我們沒有必要把自己圈在一個圈子裡或者一個天花板下面往內卷,我們應該找新的空間和新的可能性,這是我們一貫的態度,我們無意去爭搶,我們是找新的方式,讓用戶得到最真實的價值,讓他們自己去投票。

我們不純粹的像傳統的操作系統做這件事情,我們和現有的操作系統廠商合作,嘗試把我們AI能力賦能進去,進行原生的大模型新一代的操作,我們已經在做這些預言或者研究的工作。

提問:我們很多案例對於普通大眾來講,刷小紅書、出行攻略、對比一些票、對比餐廳,對他們來講是比較休閑、摸魚的事情,這個AutoGLM實際帶給他們的是什麼?或者下一步對於C端,我們認為對用戶需求探索的方式是什麼?還是說我們做的新的產品,主要的用戶場景還是在工作場景上?

劉瀟:我覺得首先第一個肯定是有一個過程,我們首先展示出了它可以做到這件事情,ChatGPT大家開始當稱對話工具來使用,也沒有想用它寫代碼。

但是技術未來可以做的事情,解決的問題,本質上表明的點人和設備交互完成的事情,理論上都是在將來可以完成的。

包括這次我們發佈的新內容,對我個人來說特別實用的食材採購,我週末在家做飯,我突然想吃麻婆豆腐,我要買菜,我們這一代人不太可能去菜市場。

我查它的食材的時候,需要20多個,我得去美團或者淘寶超市一個一個的去加,理論上也許你有時間做這件事情,但是從心理上不願意做這件事情,因為這件事情會讓你的心情變的不太好。

我覺得像這樣一個功能,這個也是我們實際在用戶調研中發現的,家庭採購需要的話,真的可以根據一鍵採購清單,根據我的要求等等,可能對價格並沒有那麼敏感,或者加完之後我再去調整,很多時候是這樣的邏輯。

包括快應用也是源於我們團隊一位同學生活中的體驗,週末的時候不知道去哪裡玩,一般是刷小紅書看去哪裡訂餐廳?

涉及到很多APP之間來回看,我在那裡做也可以,但是實際上週末很懶的去這樣做,包括小紅書有一個點是沒有辦法複製帖子裡的內容,特別是名字比較奇怪的店,一個字一個字的跳動著去做。

很多時候因為人類的懶惰才有了科技,人的天性是追求放鬆,如果有更簡單的方法讓他無需消耗能量達成這個目標,人一定會慢慢收斂到這個目標的。

提問:最近AI搜索比較火,我們怎麼看待AI搜索?智能體的未來和AI搜索做怎樣的結合?

張鵬:我可以補充一下。你剛才說有一些批用戶確實刷小紅書購物,在APP上逛商店是享受,我們不反對。

但是不只是只能做這個事情,我們中間有一張片子展示出了在辦公中同樣可以起到作用,可以讓AI助手編寫材料的時候幫助你收集、總結材料,你拿結果用就可以,工作效果提升了。

劉瀟剛才講的是先展示技術的本質的可能性,對我來說工作最有價值的部分,避免我選擇困難症犯了之後很難選擇。

工作上太忙的話,有一個助手幫助你提升工作效率,並行完成你的任務,這個事情最終看你在技術上怎麼應用,哪個方面更有價值,每個人的價值取向肯定也不一樣,這個可以理解。

AI搜索也是其中很重要的,在日常生活當中對這個事情的搜索非常大,有了AI搜索之後,大家對信息爆炸之後的檢索和閱讀負擔會壓縮回來。

像剛才劉瀟講的,人永遠是懶惰的,都想簡單,沒有搜索引擎的時候大家希望有一個搜索的地方,信息爆炸的時候,希望有一個人幫助我看完了之後給我答案就可以了。

人的需求永遠是這樣的,往越來越簡單,越來越懶的方向演化,所以技術就是幫助大家解決問題的。