智譜AI的「類GPT-4o」,讓我看到了作業幫、小紅書、下廚房的影子

文|周鑫雨

編輯|蘇建勳

捲出第一個國產版GPT-4o的,是智譜AI。

智譜AI的2024年主題,一定是在多模態賽道上狂奔。先是2024年7月26日,智譜AI上線了類Sora的影片生成模型「智譜清影」。團隊邀請大家使用和反饋的誠意也很足——比起發佈半年多了還沒開放的Sora,「清影」上來就是免費不限量。

一個月後的8月29日,在國際數據挖掘與知識發現大會(KDD)上,智譜AI帶著國產版《Her》、類GPT-4o炸了一波場——在C端產品「智譜清言」中,智譜AI首次上線了「影片通話」功能

這意味著,當「懂王」AI長了眼睛、有了情緒,人與AI的交互方式,離人與人更近了一步。

比如AI也跟上了潮流。最近刷屏遊戲圈的《黑神話:悟空》,智譜清言看到後「秒懂」,還能和你嘮兩句。

同時,智譜AI還放出了最新版的「多模態模型全家桶」,比如能看懂影片和網頁的視覺模型GLM-4V-Plus,支持圖片編輯的文生圖模型CogView-3-Plus。

語言基座模型GLM,也迭代到了GLM-4-Plus版本,更能玩轉長文本,也更會做數學題。

智譜版GPT-4o的玩法:輔導作業、口語教練、廚房管家

曾經,GPT-4o的「三段感情迭代」,驚豔了一大批用戶。但智譜清言像是個大直男,當要求它「更有感情一點」,它會理性地朝你「潑冷水」:作為一個人工智能,無法表達感情。

不過,智譜清言的影片通話功能,有更適合中國人「活到老學到老」體質的玩法。

比如,它可以是你的隨身英語教師。打開攝像頭後,你也能體驗一把「走到哪,問到哪,學到哪」的高濃度英語學習。

△詢問番茄的英文。來源:智譜AI

當然,它也可以是「哪裡不懂拍哪裡」的數學老師。智譜清言的講解,質量甚至和真人教師有的一拚,不僅循循善誘,還有問答互動。家長再也不用為輔導作業而煩惱!

△解答混合運算選擇題。來源:智譜AI

平時在家,智譜清言也攬下了生活管家的活。

比如,它能一眼認出瑞幸的包裝袋,立馬給你來了一段瑞幸歷史的科普。不過,智譜清言最後開了小差,將本意為咖啡該怎麼儲存的問題,理解成了包裝袋該怎麼儲存……

△識別瑞幸包裝袋。來源:智譜AI

目前,影片通話的過程還無法儲存在歷史記錄中。不過,有了「長了眼」的智譜清言,就彷彿同時下載了作業幫、小紅書和下廚房。

新視覺模型上線,看得懂影片,也看得透網頁源代碼

對於智譜AI而言,2024年絕對是在多模態上狂飆的一年。

在KDD上,智譜AI更新了「模型全家桶」,既發佈了新一代的語言基座模型,也發佈了升級後的多模態家族:圖像/影片理解模型GLM-4V-Plus、文生圖模型 CogView-3-Plus。

先來看語言基座模型GLM-4-Plus。

有意思的是,GLM-4-Plus的訓練,大量採用了高質量模型合成數據。事實證明,AI合成數據已經可以有效運用於模型訓練,降低訓練數據的獲取成本。

從結果來看,GLM-4-Plus的語言理解能力,與GPT-4o和Llama3.1-405B不相上下。

△綜合能力benchmark。圖源:智譜AI△綜合能力benchmark。圖源:智譜AI

而在長文本能力的表現上,GLM-4-Plus和GPT-4o、Claude 3.5 Sonnet兩個頂尖模型也並駕齊驅。在清華大學劉知遠團隊做的長文本測試集InfiniteBench上,GLM-4-Plus甚至略優於兩個國外天花板模型。

△長文本能力benchmark。圖源:智譜AI△長文本能力benchmark。圖源:智譜AI

同時,通過採取近端策略優化(PPO,一種提升複雜任務決策能力的訓練方法),GLM-4-Plus的數據、代碼算法等推理能力有了明顯提升,並且能夠更好反映人類偏好。

目前,GLM-4-Plus百萬Tokens的處理價格為50元,與百度最新的大模型ERNIE 4.0 Turbo差不多持平(百萬Tokens輸入30元、輸出60元)。

△GLM-4-Plus定價。△GLM-4-Plus定價。

多模態能力的更新,是最精彩的部分。

相較於上一代GLM-4V,視覺大模型GLM-4V-Plus增加了影片和網頁理解能力。

△視覺能力benchmark。圖源:智譜AI△視覺能力benchmark。圖源:智譜AI

比如,只要輸入智譜AI官網的截圖,GLM-4V-Plus立刻就能轉化成html代碼,幫助你快速複刻網站。

△GLM-4V-Plus能力測試。圖源:作者測試△GLM-4V-Plus能力測試。圖源:作者測試

與一般影片理解模型不同,GLM-4V-Plus不僅看得懂複雜影片,還具備時間感知能力。這意味著你問模型影片第xx秒的內容,它也能給出答案。不過截至發稿前,智譜AI開放平台的模型體驗區還不支持上傳影片。

美中不足的是,相較於逆天的視覺多模態理解能力,GLM-4V-Plus的多輪對話和文本理解能力顯得有些「拉垮」。看來,GLM-4V-Plus離成為GPT-4o,還有相當距離。

△GLM-4V-Plus影片理解能力。圖源:智譜AI△GLM-4V-Plus影片理解能力。圖源:智譜AI

在KDD上,智譜AI還發佈了新一代的文生圖模型CogView-3-Plus。與近期文生圖界的「當紅炸子雞」FLUX相比,CogView-3-Plus 20s版本的各項能力基本能打和。

△文生圖能力benchmark。圖源:智譜AI△文生圖能力benchmark。圖源:智譜AI

輸入提示詞:桌子上有一台筆記本電腦,電腦旁邊放著一個透明玻璃杯,這是一個圓柱形的杯子,半杯水還冒著熱氣,杯身折射了些許陽光。

△CogView-3-Plus能力測試。圖源:作者測試△CogView-3-Plus能力測試。圖源:作者測試

同時,CogView-3-Plus也支持圖片編輯功能,比如改變圖中物體的顏色、替換物品等等。

△CogView-3-Plus圖片編輯。圖源:智譜AI△CogView-3-Plus圖片編輯。圖源:智譜AI

給2024年1月發佈的幾款模型,加上「Plus」的後綴,智譜AI花了超過7個月——這也是2023年以來,智譜AI發佈模型的最長週期。

可見的是,GPT-4o,對於AI大模型企業而言,是一道能力的分水嶺。隨著多模態能力的融合,語言理解的「黑箱」剛被打開,又很快被GPT-4o合上了。

多數國內模型廠商的策略是:分而治之,先增強不同模態的單模態模型能力,再攻克融合的難題。

智譜AI的模型矩陣,目前仍然在各自迭代能力的「分治」階段,而影片通話功能的上線,讓用戶已經看到了初步多模融合的影子。