智譜AI的「類GPT-4o」，讓我看到了作業幫、小紅書、下廚房的影子

08月30日 16:15 新浪網 news-china-auto-hilite

文｜周鑫雨

編輯｜蘇建勳

捲出第一個國產版GPT-4o的，是智譜AI。

智譜AI的2024年主題，一定是在多模態賽道上狂奔。先是2024年7月26日，智譜AI上線了類Sora的影片生成模型「智譜清影」。團隊邀請大家使用和反饋的誠意也很足——比起發佈半年多了還沒開放的Sora，「清影」上來就是免費不限量。

一個月後的8月29日，在國際數據挖掘與知識發現大會（KDD）上，智譜AI帶著國產版《Her》、類GPT-4o炸了一波場——在C端產品「智譜清言」中，智譜AI首次上線了「影片通話」功能。

這意味著，當「懂王」AI長了眼睛、有了情緒，人與AI的交互方式，離人與人更近了一步。

比如AI也跟上了潮流。最近刷屏遊戲圈的《黑神話：悟空》，智譜清言看到後「秒懂」，還能和你嘮兩句。

同時，智譜AI還放出了最新版的「多模態模型全家桶」，比如能看懂影片和網頁的視覺模型GLM-4V-Plus，支持圖片編輯的文生圖模型CogView-3-Plus。

語言基座模型GLM，也迭代到了GLM-4-Plus版本，更能玩轉長文本，也更會做數學題。

智譜版GPT-4o的玩法：輔導作業、口語教練、廚房管家

曾經，GPT-4o的「三段感情迭代」，驚豔了一大批用戶。但智譜清言像是個大直男，當要求它「更有感情一點」，它會理性地朝你「潑冷水」：作為一個人工智能，無法表達感情。

不過，智譜清言的影片通話功能，有更適合中國人「活到老學到老」體質的玩法。

比如，它可以是你的隨身英語教師。打開攝像頭後，你也能體驗一把「走到哪，問到哪，學到哪」的高濃度英語學習。

△詢問番茄的英文。來源：智譜AI

當然，它也可以是「哪裡不懂拍哪裡」的數學老師。智譜清言的講解，質量甚至和真人教師有的一拚，不僅循循善誘，還有問答互動。家長再也不用為輔導作業而煩惱！

△解答混合運算選擇題。來源：智譜AI

平時在家，智譜清言也攬下了生活管家的活。

比如，它能一眼認出瑞幸的包裝袋，立馬給你來了一段瑞幸歷史的科普。不過，智譜清言最後開了小差，將本意為咖啡該怎麼儲存的問題，理解成了包裝袋該怎麼儲存……

△識別瑞幸包裝袋。來源：智譜AI

目前，影片通話的過程還無法儲存在歷史記錄中。不過，有了「長了眼」的智譜清言，就彷彿同時下載了作業幫、小紅書和下廚房。

新視覺模型上線，看得懂影片，也看得透網頁源代碼

對於智譜AI而言，2024年絕對是在多模態上狂飆的一年。

在KDD上，智譜AI更新了「模型全家桶」，既發佈了新一代的語言基座模型，也發佈了升級後的多模態家族：圖像/影片理解模型GLM-4V-Plus、文生圖模型 CogView-3-Plus。

先來看語言基座模型GLM-4-Plus。

有意思的是，GLM-4-Plus的訓練，大量採用了高質量模型合成數據。事實證明，AI合成數據已經可以有效運用於模型訓練，降低訓練數據的獲取成本。

從結果來看，GLM-4-Plus的語言理解能力，與GPT-4o和Llama3.1-405B不相上下。

△綜合能力benchmark。圖源：智譜AI

△綜合能力benchmark。圖源：智譜AI

而在長文本能力的表現上，GLM-4-Plus和GPT-4o、Claude 3.5 Sonnet兩個頂尖模型也並駕齊驅。在清華大學劉知遠團隊做的長文本測試集InfiniteBench上，GLM-4-Plus甚至略優於兩個國外天花板模型。

△長文本能力benchmark。圖源：智譜AI

△長文本能力benchmark。圖源：智譜AI

同時，通過採取近端策略優化(PPO，一種提升複雜任務決策能力的訓練方法)，GLM-4-Plus的數據、代碼算法等推理能力有了明顯提升，並且能夠更好反映人類偏好。

目前，GLM-4-Plus百萬Tokens的處理價格為50元，與百度最新的大模型ERNIE 4.0 Turbo差不多持平（百萬Tokens輸入30元、輸出60元）。

△GLM-4-Plus定價。

多模態能力的更新，是最精彩的部分。

相較於上一代GLM-4V，視覺大模型GLM-4V-Plus增加了影片和網頁理解能力。

△視覺能力benchmark。圖源：智譜AI

△視覺能力benchmark。圖源：智譜AI

比如，只要輸入智譜AI官網的截圖，GLM-4V-Plus立刻就能轉化成html代碼，幫助你快速複刻網站。

△GLM-4V-Plus能力測試。圖源：作者測試

△GLM-4V-Plus能力測試。圖源：作者測試

與一般影片理解模型不同，GLM-4V-Plus不僅看得懂複雜影片，還具備時間感知能力。這意味著你問模型影片第xx秒的內容，它也能給出答案。不過截至發稿前，智譜AI開放平台的模型體驗區還不支持上傳影片。

美中不足的是，相較於逆天的視覺多模態理解能力，GLM-4V-Plus的多輪對話和文本理解能力顯得有些「拉垮」。看來，GLM-4V-Plus離成為GPT-4o，還有相當距離。

△GLM-4V-Plus影片理解能力。圖源：智譜AI

△GLM-4V-Plus影片理解能力。圖源：智譜AI

在KDD上，智譜AI還發佈了新一代的文生圖模型CogView-3-Plus。與近期文生圖界的「當紅炸子雞」FLUX相比，CogView-3-Plus 20s版本的各項能力基本能打和。

△文生圖能力benchmark。圖源：智譜AI

△文生圖能力benchmark。圖源：智譜AI

輸入提示詞：桌子上有一台筆記本電腦，電腦旁邊放著一個透明玻璃杯，這是一個圓柱形的杯子，半杯水還冒著熱氣，杯身折射了些許陽光。

△CogView-3-Plus能力測試。圖源：作者測試

△CogView-3-Plus能力測試。圖源：作者測試

同時，CogView-3-Plus也支持圖片編輯功能，比如改變圖中物體的顏色、替換物品等等。

△CogView-3-Plus圖片編輯。圖源：智譜AI

△CogView-3-Plus圖片編輯。圖源：智譜AI

給2024年1月發佈的幾款模型，加上「Plus」的後綴，智譜AI花了超過7個月——這也是2023年以來，智譜AI發佈模型的最長週期。

可見的是，GPT-4o，對於AI大模型企業而言，是一道能力的分水嶺。隨著多模態能力的融合，語言理解的「黑箱」剛被打開，又很快被GPT-4o合上了。

多數國內模型廠商的策略是：分而治之，先增強不同模態的單模態模型能力，再攻克融合的難題。

智譜AI的模型矩陣，目前仍然在各自迭代能力的「分治」階段，而影片通話功能的上線，讓用戶已經看到了初步多模融合的影子。