智譜AI發佈其最新GLM-4-Plus模型 以及展示了類似GPT 4o的語音視覺能力

智譜AI發佈其最新基座大模型GLM-4-Plus以及展示了類似OpenAI GPT 4o模型的視覺能力,能進行自由語音通話和視覺推理,並宣佈8月30日開放!

主要更新:

  • 語言基座模型 GLM-4-Plus:在語言理解、指令遵循、長文本處理等方面性能得到全面提升,保持了國際領先水平。
  • 文生圖模型 CogView-3-Plus:具備與當前最優的 MJ-V6 和 FLUX 等模型接近的性能。
  • 圖像/影片理解模型 GLM-4V-Plus:具備卓越的圖像理解能力,並具備基於時間感知的影片理解能力。該模型將上線開放平台( bigmodel.cn ),併成為國內首個通用影片理解模型 API 。
  • 影片生成模型 CogVideoX:在發佈並開源 2B 版本後,5B 版本也正式開源,其性能進一步增強,是當前開源影片生成模型中的最佳選擇。

GLM-4-Plus在多個方面表現出了卓越的性能,在語言理解、指令遵循、長文本處理等多個方面取得了顯著提升。

功能和特點:

語言理解與處理能力

  • 增強的語言理解:GLM-4-Plus在語言理解、指令遵循、長文本處理等方面的性能得到了全面提升,能夠更好地理解和處理複雜的文本任務。
  • 長文本處理:通過更精準的長短文本數據混合策略,GLM-4-Plus的長文本推理效果得到了顯著提升,比肩國際先進水平。
  • GLM-4-Plus 在語言文本能力上與 GPT-4o 及 405B 參數量的 Llama3.1 相當。

模型構造與數據合成

  • 高質量合成數據:GLM-4-Plus使用了大量模型輔助構造高質量合成數據,以提升模型性能,特別是在推理(如數學、代碼算法題)表現方面,更好地反映了人類偏好。

多模態能力

  • 圖像和影片理解:GLM-4V-Plus作為GLM-4-Plus的擴展,具備卓越的圖像理解能力,並新增了時間感知的影片理解能力,可以理解複雜的影片內容並進行時間推理。
  • 文生圖與影片生成

    :配合CogView-3-Plus和CogVideoX等模型,GLM-4-Plus能夠在圖片編輯和影片生成等任務上展現出優越性能。

影片理解示例:

【影片總結能力】+【推理能力】+【多輪對話】+【時間問答能力】

  • 用戶:這個穿綠色衣服的球員在整個影片都做了什麼?
  • GLM-4V-Plus:在整個影片中,穿綠色衣服的球員在場上運球,然後跳起將球投入籃筐。
  • 用戶:這個影片的精彩時刻是什麼?發生在第幾秒?
  • GLM-4V-Plus:這個影片的精彩時刻發生在第4秒,當時穿綠色衣服的球員跳起並將球投入籃筐。

智譜的清言 APP將 迎來「影片通話」功能,這也是國內首個面向 C 端開放的影片通話功能。 清言影片通話能力跨越了文本模態、音頻模態和影片模態,並具備實時推理的能力。

可以進行流暢通話,即便頻繁打斷它也能迅速反應。只要打開攝像頭,我們看到的畫面,清言也可以看到,同時可以聽懂指令並準確執行。

影片通話功能將於8 月 30 日上線,首批面向清言部分用戶開放,同時開放外部申請。