GLM-4-Plus體驗測評:擅長數理邏輯、會解影片還能開發遊戲

文|AI大模型工場,作者|冰拿鐵,編輯|星奈

這個國慶你是怎麼過的?有人去蓬萊看海,有人在北京打卡中軸線,還有人逃離北上廣,在阿勒泰吹曠野的風……而隨著假期圓滿收官,打工人意猶未盡地回到工位上時,我們發現,還有人在假期偷偷放大招、「卷」行業:

在基座大模型GLM-4-Plus引領下,智譜全模型家族全面上線了!

智譜在近期發佈的若干更新模型,以基座大模型GLM-4-Plus推出為標誌,智譜宣佈,即日起全模型家族正式上線開放平台(bigmodel.cn),包括新基座大模型GLM-4-Plus——智譜迄今為止最強大的模型,也是智譜全模型家族的「扛把子」能力底座。

梳理髮現,新基座大模型GLM-4-Plus之上,智譜大模型全家桶面面俱到。新上線了影片通話API:GLM-4-Plus-VideoCall ,它是清言影片通話背後的模型,可以實現影片通話、語音多輪交互等多種跨模態能力。

此前7月上線了影片生成模型 CogVideoX,8月上線了圖像/影片理解模型GLM-4V-Plus,文生圖模型CogView-3-Plus也迎來重要升級,效果接近目前一線水平的MJ-V6和FLUX等。

從單一文字模態進步到圖像、影片在內的多模態,從自然語言到代碼,從簡單對話到複雜智能體互動,從一種工具到多工具自動調度……智譜在模型能力方面還是太全面了。

此外,GLM-4-Plus在性能上也非常能打。根據最近行業內相繼出爐的幾份權威測評,GLM-4-Plus等模型在國際排名靠前的同時,多個單項上表現不俗,得分甚至超出領先o1-preview等國外頂尖模型。

GLM-4-Plus有哪些「長板」?

一直以來,基座模型都最能體現大模型廠商實力,是大模型內功比拚的核心。這是因為,作為「重基建」,基座模型的訓練涉及複雜的算法設計、模型訓練和優化等過程,極其考驗廠商技術積澱,並需要投入大量的計算資源、存儲資源和數據資源以形成規模優勢。

同時,基座模型也是構建AI生態、吸引更多的開發者和企業的基礎,決定了廠商在AI領域的綜合實力和影響力。

而GLM-4-Plus面世後,其在多個評測中皆表現不俗。2024年9月版本最新的《SuperBench大模型綜合能力評測報告》中,選取了24個海內外具有代表性的大模型測評,結果顯示,國內模型在對齊、智能體、數理邏輯等多個評測中均有明顯進步,其中,GLM-4-Plus排名第三,超過了Claude系列模型,破了之前國外模型壟斷前三甲的局面;在國內模型中,GLM-4系列蟬聯榜首。

值得一提的是,GLM-4-Plus在部分單項表現尤為突出,甚至超過了o1-preview等:如在作為智能體能力的評測中,國內模型首次超過了國外模型,GLM-4-Plus排名第一;中文語言能力上,GLM-4-Plus以8.58分領跑,領先o1-preview;在語義理解能力評測中,GLM-4-Plus領先o1-mini 1分。

在第三方測評博主toyama nao的橫評中,在難度較高的水果熱量計算上,需要合理搭配水果,使總熱量剛好在一個區間,大部分模型並沒有真的懂題目,回答多是盲目枚舉。但GLM-4-Plus完全理解了題意,採用逐步湊數的方法,如果總數超過範圍,還知道反過來減少水果用量。回答非常有「人味」,是第一個在此題拿到滿分的模型。

不過,俗話說,「能拔膿的才是好膏藥」,在個體、企業日常具體應用中,智譜的表現真的那麼絲滑嗎?讓我們來全面測試一下!

GLM-4-Plus全面測評:時事熱點、語言理解、邏輯推理等花式考察,更有羊毛可薅

為此,我們設置了以下測評題目,結合當下的互聯網語境、廣大網民關注的前沿熱點,旨在全面考察其語言理解、數理邏輯、語言理解、指令遵循、長文本處理等方面的水平,以及經濟、時事政治、文學藝術等知識面覆蓋程度,以及應對工作、學習、生活等具體場景的能力:

1、綜合知識考查、時事熱點分析

畫風「陰森」、迷霧重重、瀑布險崖……近期,一位抖音博主「勇闖哀牢山」的影片在網絡走紅,也讓哀牢山再次走進公眾視野,那麼,哀牢山為什麼被稱為生命禁區?把這個問題拋給GLM-4-Plus,其從地形地貌、氣候條件、生態系統及文化心理等角度進行了綜合分析,看得出有一定知識儲備,上演「大模型帶你走近科學」。

2、語言理解與深度解析

提到文學,就離不開語言。隨後,在考察語言理解與深度解析的過程中,我們選了之前讓網上很火,被廣泛應用在外國網民評論區並讓其摸不著頭腦的一個段子:「魚片是死魚片;等紅燈是在等綠燈;咖啡因來自咖啡果;救火是在滅火;生前是死前;要你管=不要你管……」結果顯示,GLM-4-Plus沒有被繞進去,很好地get到了中文的博大精深,並進行逐個擊破。

而在更考驗中文功底和傳統文化底蘊的紅樓夢判詞隱喻解析,以及《哀江南賦序》的用典考查中,GLM-4-Plus也可以有條不紊地按照邏輯鏈進行逐步拆解、分析,並有條理地綜合輸出。

看得出來,GLM-4-Plus對傳統文化信手拈來,那麼,作為其「親兄弟」的圖像/影片理解模型GLM-4V-Plus能否拆解傳統文化中的視覺語言?恰逢電影《只此青綠》上映,我們把宣傳片片段投喂給GLM-4V-Plus,讓其描述影片內容。

結果顯示,其不僅能夠按照時間順序描述預告片場景,且對人物、物品等要素的識別也非常到位。而對於畫卷中「群山起伏,綠樹成蔭,山間雲霧繚繞,給人以寧靜、悠遠感覺」等細節,GLM-4V-Plus也能按照要求「用古典美的語言」進行描述。

除了拆解視覺語言,我們繼續上難度,詢問「影片中出現三人一起跳舞的畫面是第幾秒」,GLM-4V-Plus能夠準確理解並感知時間,精準地定位到事件發生的具體時間點。

3、邏輯推理與數學證明

當然,光語文好還不夠,還得有邏輯、數學好,不偏科。隨後,我們給出了即一個包含多個步驟和條件的邏輯推理謎題——「博物館偷畫難題」,要求GLM-4-Plus逐步推理並給出最終答案,結果顯示,GLM-4-Plus能夠在複雜的信息關係中找到正確的邏輯關係,並順利地解出了邏輯難題。

而在勾股定理的證明中,GLM-4-Plus不僅給出了詳細的證明步驟,還畫圖做出了分析。

最後,上一個曾經讓很多大模型翻車的問題「9.24和9.8誰更大」,GLM-4-Plus也通過慢思考得出了正確答案,沒有掉進陷阱。

4、代碼理解與應用

而在代碼理解與應用環節,我們先是提供了一段代碼,要求GLM-4-Plus理解代碼功能,智譜得出了「用於計算用戶平均績點」的準確結論;隨後,再讓其寫個測試程序,也基本不在話下,可以解放一個程序員的雙手:

不過,在實際應用中,據程序員群體反饋,大模型代碼生成最有價值的地方,在於輔助完成BUG查找/修復,以及自動續寫等工作,從而將其從繁瑣的重覆勞動中解放出來,專注於創造性工作。

正如沙利文聯合頭豹研究院發佈報告的《2024年AI代碼生成市場觀測報告-里程碑》年度報告指出,AI代碼生成工具尤其在代碼測試與檢查、代碼標註等方面表現突出。

為此,我們投喂GLM-4-Plus一段有bug的代碼,讓其進行解釋、修改,結果顯示,GLM-4-Plus精準找出了bug位置,並進行了詳細的解釋及修改,有望在未來成為程序員群體的「啄木鳥」

而在幫助程序員「補齊寫了一半的作業」的自動補全環節,我們投喂給GLM-4-Plus一個殘缺不全的Python腳本,運行目的是根據天氣情況,發送提醒信息到控制台(例如,如果下雨,打印「記得帶傘!」;如果溫度超過30攝氏度,打印「天氣炎熱,穿輕便衣服!」等),要求GLM-4-Plus幫助我把代碼補全:

結果顯示,其基本流暢地補全了代碼,並貼心地附註了說明。

最後,對於代碼小白來說,也可以基於GLM-4-Plus一鍵寫出自己的代碼,例如,要求用GLM-4-Plus用JavaScript+CSS+HTML寫一個貪吃蛇遊戲,無需下載軟件即可在網頁上檢測,並順利跑通——或許大模型熱潮下,「人人都是程序員」的時代真的要來了。

那麼,除了寫代碼外,面對工作、生活中的寫文章、做計劃等任務,GLM-4-Plus的完成度和熟練程度如何?

5、工作、生活搭子

首先,讓GLM-4-Plus替我工作,以自媒體博主身份寫一篇《國慶假期結束後快速調整狀態》的文章,從結果來看,結構清晰、文筆成熟,微調後就可以進行編輯發佈了,讓我在復工第一天順利摸魚:

既然不用工作了,那麼就盡情暢想下次的出遊吧!在「AI 婚紗照」火上各大平台熱搜的當下,讓CogView-3-Plus幫我生成一幅背景在盧浮宮的婚紗照,看得出來質感還不錯,讓人「身未動心已遠」,已經開始期待下一個長假了。

不止如此,「雙十一」提前大促的熱潮竟然也蔓延到了大模型圈!最近兩天,智譜還在開放平台上線了一個從10月1日起、為期一個月的「國慶特惠月」優惠活動,有很多花式優惠,如最高贈1億Tokens、API調用最高打1折等等。

這讓人感歎,大模型圈提前過雙十一了——這是不是預示著智譜又率先打響了「第二波價格戰」?而且是福利、資源包與降價齊飛的「花式亂鬥」。

這讓人感歎,第二波大模型價格戰就這麼水靈靈地來了——此前,在頭部廠商紛紛響應的第一波價格戰中,AI技術的門檻顯著降低,使得更多中小企業、初創團隊乃至個人開發者能夠輕鬆接入並使用到頂尖的大模型服務,推動大模型在各個領域的廣泛應用,如自然語言處理、圖像識別、智能客服等,進而形成了更加豐富的應用場景和生態體系。