Others

智譜AI發佈其最新GLM-4-Plus模型以及展示了類似GPT 4o的語音視覺能力

08月30日 10:55 新浪網 news-china-auto-hilite

智譜AI發佈其最新基座大模型GLM-4-Plus以及展示了類似OpenAI GPT 4o模型的視覺能力，能進行自由語音通話和視覺推理，並宣佈8月30日開放！

主要更新：

語言基座模型 GLM-4-Plus：在語言理解、指令遵循、長文本處理等方面性能得到全面提升，保持了國際領先水平。
文生圖模型 CogView-3-Plus：具備與當前最優的 MJ-V6 和 FLUX 等模型接近的性能。
圖像/影片理解模型 GLM-4V-Plus：具備卓越的圖像理解能力，並具備基於時間感知的影片理解能力。該模型將上線開放平台（ bigmodel.cn ），併成為國內首個通用影片理解模型 API 。
影片生成模型 CogVideoX：在發佈並開源 2B 版本後，5B 版本也正式開源，其性能進一步增強，是當前開源影片生成模型中的最佳選擇。

GLM-4-Plus在多個方面表現出了卓越的性能，在語言理解、指令遵循、長文本處理等多個方面取得了顯著提升。

功能和特點：

語言理解與處理能力

增強的語言理解：GLM-4-Plus在語言理解、指令遵循、長文本處理等方面的性能得到了全面提升，能夠更好地理解和處理複雜的文本任務。
長文本處理：通過更精準的長短文本數據混合策略，GLM-4-Plus的長文本推理效果得到了顯著提升，比肩國際先進水平。
GLM-4-Plus 在語言文本能力上與 GPT-4o 及 405B 參數量的 Llama3.1 相當。

模型構造與數據合成

高質量合成數據：GLM-4-Plus使用了大量模型輔助構造高質量合成數據，以提升模型性能，特別是在推理（如數學、代碼算法題）表現方面，更好地反映了人類偏好。

多模態能力

圖像和影片理解：GLM-4V-Plus作為GLM-4-Plus的擴展，具備卓越的圖像理解能力，並新增了時間感知的影片理解能力，可以理解複雜的影片內容並進行時間推理。
文生圖與影片生成

：配合CogView-3-Plus和CogVideoX等模型，GLM-4-Plus能夠在圖片編輯和影片生成等任務上展現出優越性能。

影片理解示例：

【影片總結能力】+【推理能力】+【多輪對話】+【時間問答能力】

用戶：這個穿綠色衣服的球員在整個影片都做了什麼？

GLM-4V-Plus：在整個影片中，穿綠色衣服的球員在場上運球，然後跳起將球投入籃筐。

用戶：這個影片的精彩時刻是什麼？發生在第幾秒？

GLM-4V-Plus：這個影片的精彩時刻發生在第4秒，當時穿綠色衣服的球員跳起並將球投入籃筐。

智譜的清言 APP將迎來「影片通話」功能，這也是國內首個面向 C 端開放的影片通話功能。清言影片通話能力跨越了文本模態、音頻模態和影片模態，並具備實時推理的能力。

可以進行流暢通話，即便頻繁打斷它也能迅速反應。只要打開攝像頭，我們看到的畫面，清言也可以看到，同時可以聽懂指令並準確執行。

影片通話功能將於8 月 30 日上線，首批面向清言部分用戶開放，同時開放外部申請。