智譜AI上線最新「自主智能體」,「Her」終於能照進現實了

文 | 田哲

編輯 | 蘇建勳

在對標OpenAI之路上,智譜AI又近了一步。

今年年初,OpenAI被爆出將自研AI Agent軟件,它可替代人類,自動導航至任何網站並執行指定任務。

10月25日,智譜AI推出相似產品——自主智能體AutoGLM,智譜將其稱為是一個可模擬用戶點擊屏幕的手機操作助手,以及點擊網頁的瀏覽器助手。

智譜的展示影片顯示,AutoGLM可實現網頁進行線上點餐、整理小紅書筆記並生成攻略、總結論文等功能。

同時,智譜AI還推出了端到端情感語音模型GLM-4-Voice 。這款情感語音模型不僅能夠模擬真實的情感表達,甚至連細微的停頓、喘氣都表現得惟妙惟肖。

這一技術的突破,與科幻愛情電影《Her》的部分情節相似。電影中,男主角西奧度與AI助手薩曼莎偶然相識,薩曼莎正是通過富有情感的語音互動讓人感到貼近、溫暖。

如今,智譜AI的情感語音模型似乎正把《Her》中的科幻場景帶入我們的日常生活,人工智能不再只是冷冰冰的工具,而開始具備「情感」與「個性」。

《Her》已經初具雛形,具有自我意識和情感的AI或許不久會出現。

自主智能體上線:能點外賣、誇彩虹屁

與OpenAI的AI Agent相似,智譜清言AutoGLM模型,也無需用戶手動操作示範,不受製於簡單的任務場景或API調用,即可替代人類在電子設備執行操作。

目前,智譜AutoGLM可適配微信、淘寶、美團、小紅書等8款知名應用軟件,覆蓋日常生活常用的線上聊天、網購、社交、地圖、酒店火車訂票等功能。

具體而言,當你向AutoGLM發出指令後,雙方之間的對話將以語音形式展現,並實時顯示字幕。

例如,你可以要求AutoGLM在大眾點評給出指定的店家好評,並自動編輯評論。在執行「發送評論」這一超出指令的操作時,AutoGLM會主動提示是否進行。

你也能讓AutoGLM查找淘寶某一時段的歷史訂單,複購指定商品。

就連向指定微信好友的朋友圈點讚、評論,這一步驟較長的任務也能完成。

除了網購、編輯評論等功能之外,AutoGLM還能批量總結微信公眾號多篇文章,並生成文章摘要。

智譜公眾號介紹,AutoGLM基於自進化在線課程強化學習框架WEBRL,克服了訓練任務稀缺、反饋信號稀少和策略分佈漂移等網頁智能體研究和應用難題,加之自適應學習策略,能夠在迭代過程中不斷改進、持續穩定地提高自身性能。這意味著,AutoGLM具備了一定自我糾錯能力。

來源:智譜公眾號來源:智譜公眾號

據悉,為了保護用戶隱私,AutoGLM不會主動獲取用戶的個人隱私信息,如果需要執行授權範圍之外的任務,AutoGLM會主動提示以獲取用戶同意。

即使用戶向AutoGLM授權,也不意味著AutoGLM永久擁有相關權限。每次後台啟動AutoGLM,都會重新向用戶申請無障礙權限。

目前,AutoGLM已上線電腦端開放使用,安裝清言插件即可使用,手機端AutoGLM正開放安卓手機內測。

情感語音模型,有情感、會停頓

兩個月前,智譜清言首次秀了一把語音通話技術,雖然當時語音通話功能能聽懂對話、回覆還算準確,但語氣像是機器人「背稿子」,沒什麼感情。要是讓它來點情感表達,它還會一本正經地告訴你:「作為一個人工智能,無法表達感情」。

不過,現在升級後的情感語音模型,感覺就不一樣了。語音聽起來更有「人味兒」,還能加點感情,像真人一樣跟你聊。

它已經學會了用撒嬌、調侃、憤怒、歇斯底裡等語氣表達。比如,擬人語音能模仿孩子,用撒嬌語氣向姐姐要糖葫蘆。

如果普通話聽膩了,沒問題,它還能切換為北京、東北、廣東、台灣、重慶五地腔調,比如介紹美食時那句經典的「巴適得板」,直接讓人食慾大開。

玩角色扮演遊戲也不成問題,可以把它設定為《哈利樸達》中的反派伏地魔與你戰鬥,並能要求它以指定的語氣進行扮演。比如它能以電視劇中常見的反派語氣說話。

如果挑戰繞口令加速,它可能就會「翻車」了,發音有點「飄」。

不過在某些時候,GLM-4-Voice說話時偶爾會出現短暫的電流聲。

另外,發音偶爾也可能不標準,比如將為什麼的「為」,發音為「微」。

據瞭解,GLM-4-Voice結合了自然語言生成(NLG)和語音合成技術,相比傳統的湯臣S技術(Text-to-Speech),擬人語音能夠理解上下文語境,實現富有情感的自然對話。

此外,GLM-4-Voice以音頻 token 的形式直接建模語音,在一個模型裡面同時完成語音的理解和生成,信息損失和誤差積累相比傳統級聯方案更少,理論上有著更高的建模上限。

GLM-4-Voice 模型架構圖;來源:智譜AIGLM-4-Voice 模型架構圖;來源:智譜AI

這不是清言擬人語音通話的全部功能,其對標GPT 40,將在響應和打斷速度、情緒感知情 感共鳴、語音可控表達、多語言多方言等方面進一步突破。目前,其已實現不同情緒,各地方言說話時,還能調節語速、音量,實現與真人般的對話。

目前,GLM-4-Voice已上線清言app,用戶可與清言自然聊天。值得注意的是,GLM-4-Voice已對外開源,這是智譜AI首個開源的端到端多模態模型。

下一步,它還將支持影片通話功能,屆時不僅能認出物體,還能用語氣帶來「眼神交流」的互動感。

據智譜公眾號,智譜發佈從文本、圖像、影片到情感語音模型等多模態,並讓AI學會使用各種工具,原因在於其打造了新的基座模型——GLM-4-Plus。在語言文本能力方面,GLM-4-Plus和GPT-4o、405B參數量的Llama3.1 相當。

加碼AI手機,智譜找到商業化大入口

「現在的小模型還處於找市場的階段,需要將市場與技術磨合,提升效率的同時找到新的應用場景。」

兩個月前,智譜AI CEO張鵬與《智能湧現》的訪談中,提到了這一觀點。與手機廠商合作AI智能體,或許就是張鵬所說的新場景。

找到場景,是模型廠商的當務之急,這意味著模型廠商不僅能獲得穩定的收入來源,完成自我造血,同時也能在場景中持續手機數據,進行產品迭代。

而AI智能體是大模型應用的主要形式之一,其具備自主感知、決策並採取行動,被認為將是電腦、智能手機下一代產品形態的AI手機、AI PC,就搭載了AI智能體。據諮詢機構IDC預計,2027年,中國市場AI手機和AI PC的市佔率將分別超過50%、80%。

智譜正在加緊推動大模型落地AI手機。本月22日,智譜與高通達成合作,為驍龍 8 至尊版適配優化 GLM-4V 端側視覺大模型,提供多模態交互方式;23日,智譜與三星手機圍繞GLM-4V 端側視覺大模型合作,雙方將打造AI產品。

而AutoGLM,智譜也透露正在與榮耀等手機廠商開展深度合作。事實上,今年9月智譜與榮耀已成立AI大模型技術聯合實驗室。

榮耀也有意進一步提升AI智能體的表現。在23日的榮耀MagicOS 9.0發佈會媒體採訪中,榮耀終端有限公司CEO趙明表示,榮耀正在通過AI重構操作系統,打造核心底層能力,以實現更加智慧化的服務。

AI手機風頭正盛,多家手機廠商如蘋果、榮耀、vivo、OPPO等爭相推出具備AI功能的手機,AI功能如AI消除、AI通話摘要等。

然而,搭載AI智能體的手機目前數量較少,其中原因,既包括行業技術發展仍不成熟,另一反面相關標準長期缺失。

不過,這一情況正在逐步改善。

市場層面,Open.ai、智譜等模型廠商已傳出與手機公司合作消息,將推動模型廠商、應用軟件提供者與手機廠商之間的合作。

政策層面,中國信息通信研究院與國內多家手機廠商聯合發佈《終端智能化分級研究報告》,其中對終端智能化進行了分級定義,一定程度,這將推進國內AI手機市場的發展。

終端智能化分級定義終端智能化分級定義

多款大模型已與智能手機生態公司合作,或許AI手機,將成為智譜商業驅動的主引擎。