GLM-4-Plus體驗測評：擅長數理邏輯、會解影片還能開發遊戲

文｜AI大模型工場，作者｜冰拿鐵，編輯｜星奈

這個國慶你是怎麼過的？有人去蓬萊看海，有人在北京打卡中軸線，還有人逃離北上廣，在阿勒泰吹曠野的風……而隨著假期圓滿收官，打工人意猶未盡地回到工位上時，我們發現，還有人在假期偷偷放大招、「卷」行業：

在基座大模型GLM-4-Plus引領下，智譜全模型家族全面上線了！

智譜在近期發佈的若干更新模型，以基座大模型GLM-4-Plus推出為標誌，智譜宣佈，即日起全模型家族正式上線開放平台（bigmodel.cn），包括新基座大模型GLM-4-Plus——智譜迄今為止最強大的模型，也是智譜全模型家族的「扛把子」能力底座。

梳理髮現，新基座大模型GLM-4-Plus之上，智譜大模型全家桶面面俱到。新上線了影片通話API：GLM-4-Plus-VideoCall ，它是清言影片通話背後的模型，可以實現影片通話、語音多輪交互等多種跨模態能力。

此前7月上線了影片生成模型 CogVideoX，8月上線了圖像/影片理解模型GLM-4V-Plus，文生圖模型CogView-3-Plus也迎來重要升級，效果接近目前一線水平的MJ-V6和FLUX等。

從單一文字模態進步到圖像、影片在內的多模態，從自然語言到代碼，從簡單對話到複雜智能體互動，從一種工具到多工具自動調度……智譜在模型能力方面還是太全面了。

此外，GLM-4-Plus在性能上也非常能打。根據最近行業內相繼出爐的幾份權威測評，GLM-4-Plus等模型在國際排名靠前的同時，多個單項上表現不俗，得分甚至超出領先o1-preview等國外頂尖模型。

GLM-4-Plus有哪些「長板」？

一直以來，基座模型都最能體現大模型廠商實力，是大模型內功比拚的核心。這是因為，作為「重基建」，基座模型的訓練涉及複雜的算法設計、模型訓練和優化等過程，極其考驗廠商技術積澱，並需要投入大量的計算資源、存儲資源和數據資源以形成規模優勢。

同時，基座模型也是構建AI生態、吸引更多的開發者和企業的基礎，決定了廠商在AI領域的綜合實力和影響力。

而GLM-4-Plus面世後，其在多個評測中皆表現不俗。2024年9月版本最新的《SuperBench大模型綜合能力評測報告》中，選取了24個海內外具有代表性的大模型測評，結果顯示，國內模型在對齊、智能體、數理邏輯等多個評測中均有明顯進步，其中，GLM-4-Plus排名第三，超過了Claude系列模型，破了之前國外模型壟斷前三甲的局面；在國內模型中，GLM-4系列蟬聯榜首。

值得一提的是，GLM-4-Plus在部分單項表現尤為突出，甚至超過了o1-preview等：如在作為智能體能力的評測中，國內模型首次超過了國外模型，GLM-4-Plus排名第一；中文語言能力上，GLM-4-Plus以8.58分領跑，領先o1-preview；在語義理解能力評測中，GLM-4-Plus領先o1-mini 1分。

在第三方測評博主toyama nao的橫評中，在難度較高的水果熱量計算上，需要合理搭配水果，使總熱量剛好在一個區間，大部分模型並沒有真的懂題目，回答多是盲目枚舉。但GLM-4-Plus完全理解了題意，採用逐步湊數的方法，如果總數超過範圍，還知道反過來減少水果用量。回答非常有「人味」，是第一個在此題拿到滿分的模型。

不過，俗話說，「能拔膿的才是好膏藥」，在個體、企業日常具體應用中，智譜的表現真的那麼絲滑嗎？讓我們來全面測試一下！

GLM-4-Plus全面測評：時事熱點、語言理解、邏輯推理等花式考察，更有羊毛可薅

為此，我們設置了以下測評題目，結合當下的互聯網語境、廣大網民關注的前沿熱點，旨在全面考察其語言理解、數理邏輯、語言理解、指令遵循、長文本處理等方面的水平，以及經濟、時事政治、文學藝術等知識面覆蓋程度，以及應對工作、學習、生活等具體場景的能力：

1、綜合知識考查、時事熱點分析

畫風「陰森」、迷霧重重、瀑布險崖……近期，一位抖音博主「勇闖哀牢山」的影片在網絡走紅，也讓哀牢山再次走進公眾視野，那麼，哀牢山為什麼被稱為生命禁區？把這個問題拋給GLM-4-Plus，其從地形地貌、氣候條件、生態系統及文化心理等角度進行了綜合分析，看得出有一定知識儲備，上演「大模型帶你走近科學」。

2、語言理解與深度解析

提到文學，就離不開語言。隨後，在考察語言理解與深度解析的過程中，我們選了之前讓網上很火，被廣泛應用在外國網民評論區並讓其摸不著頭腦的一個段子：「魚片是死魚片；等紅燈是在等綠燈；咖啡因來自咖啡果；救火是在滅火；生前是死前；要你管=不要你管……」結果顯示，GLM-4-Plus沒有被繞進去，很好地get到了中文的博大精深，並進行逐個擊破。

而在更考驗中文功底和傳統文化底蘊的紅樓夢判詞隱喻解析，以及《哀江南賦序》的用典考查中，GLM-4-Plus也可以有條不紊地按照邏輯鏈進行逐步拆解、分析，並有條理地綜合輸出。

看得出來，GLM-4-Plus對傳統文化信手拈來，那麼，作為其「親兄弟」的圖像/影片理解模型GLM-4V-Plus能否拆解傳統文化中的視覺語言？恰逢電影《只此青綠》上映，我們把宣傳片片段投喂給GLM-4V-Plus，讓其描述影片內容。

結果顯示，其不僅能夠按照時間順序描述預告片場景，且對人物、物品等要素的識別也非常到位。而對於畫卷中「群山起伏，綠樹成蔭，山間雲霧繚繞，給人以寧靜、悠遠感覺」等細節，GLM-4V-Plus也能按照要求「用古典美的語言」進行描述。

除了拆解視覺語言，我們繼續上難度，詢問「影片中出現三人一起跳舞的畫面是第幾秒」，GLM-4V-Plus能夠準確理解並感知時間，精準地定位到事件發生的具體時間點。

3、邏輯推理與數學證明

當然，光語文好還不夠，還得有邏輯、數學好，不偏科。隨後，我們給出了即一個包含多個步驟和條件的邏輯推理謎題——「博物館偷畫難題」，要求GLM-4-Plus逐步推理並給出最終答案，結果顯示，GLM-4-Plus能夠在複雜的信息關係中找到正確的邏輯關係，並順利地解出了邏輯難題。

而在勾股定理的證明中，GLM-4-Plus不僅給出了詳細的證明步驟，還畫圖做出了分析。

最後，上一個曾經讓很多大模型翻車的問題「9.24和9.8誰更大」，GLM-4-Plus也通過慢思考得出了正確答案，沒有掉進陷阱。

4、代碼理解與應用

而在代碼理解與應用環節，我們先是提供了一段代碼，要求GLM-4-Plus理解代碼功能，智譜得出了「用於計算用戶平均績點」的準確結論；隨後，再讓其寫個測試程序，也基本不在話下，可以解放一個程序員的雙手：

不過，在實際應用中，據程序員群體反饋，大模型代碼生成最有價值的地方，在於輔助完成BUG查找/修復，以及自動續寫等工作，從而將其從繁瑣的重覆勞動中解放出來，專注於創造性工作。

正如沙利文聯合頭豹研究院發佈報告的《2024年AI代碼生成市場觀測報告-里程碑》年度報告指出，AI代碼生成工具尤其在代碼測試與檢查、代碼標註等方面表現突出。

為此，我們投喂GLM-4-Plus一段有bug的代碼，讓其進行解釋、修改，結果顯示，GLM-4-Plus精準找出了bug位置，並進行了詳細的解釋及修改，有望在未來成為程序員群體的「啄木鳥」。

而在幫助程序員「補齊寫了一半的作業」的自動補全環節，我們投喂給GLM-4-Plus一個殘缺不全的Python腳本，運行目的是根據天氣情況，發送提醒信息到控制台（例如，如果下雨，打印「記得帶傘！」；如果溫度超過30攝氏度，打印「天氣炎熱，穿輕便衣服！」等），要求GLM-4-Plus幫助我把代碼補全：

結果顯示，其基本流暢地補全了代碼，並貼心地附註了說明。

最後，對於代碼小白來說，也可以基於GLM-4-Plus一鍵寫出自己的代碼，例如，要求用GLM-4-Plus用JavaScript+CSS+HTML寫一個貪吃蛇遊戲，無需下載軟件即可在網頁上檢測，並順利跑通——或許大模型熱潮下，「人人都是程序員」的時代真的要來了。

那麼，除了寫代碼外，面對工作、生活中的寫文章、做計劃等任務，GLM-4-Plus的完成度和熟練程度如何？

5、工作、生活搭子

首先，讓GLM-4-Plus替我工作，以自媒體博主身份寫一篇《國慶假期結束後快速調整狀態》的文章，從結果來看，結構清晰、文筆成熟，微調後就可以進行編輯發佈了，讓我在復工第一天順利摸魚：

既然不用工作了，那麼就盡情暢想下次的出遊吧！在「AI 婚紗照」火上各大平台熱搜的當下，讓CogView-3-Plus幫我生成一幅背景在盧浮宮的婚紗照，看得出來質感還不錯，讓人「身未動心已遠」，已經開始期待下一個長假了。

不止如此，「雙十一」提前大促的熱潮竟然也蔓延到了大模型圈！最近兩天，智譜還在開放平台上線了一個從10月1日起、為期一個月的「國慶特惠月」優惠活動，有很多花式優惠，如最高贈1億Tokens、API調用最高打1折等等。

這讓人感歎，大模型圈提前過雙十一了——這是不是預示著智譜又率先打響了「第二波價格戰」？而且是福利、資源包與降價齊飛的「花式亂鬥」。

這讓人感歎，第二波大模型價格戰就這麼水靈靈地來了——此前，在頭部廠商紛紛響應的第一波價格戰中，AI技術的門檻顯著降低，使得更多中小企業、初創團隊乃至個人開發者能夠輕鬆接入並使用到頂尖的大模型服務，推動大模型在各個領域的廣泛應用，如自然語言處理、圖像識別、智能客服等，進而形成了更加豐富的應用場景和生態體系。

你可能喜歡