螞蟻集團徐鵬:百靈大模型已具備原生多模態能力

封面新聞記者 歐陽宏宇

7月5日,在2024世界人工智能大會“可信大模型助力產業創新發展”論壇上,螞蟻集團公佈了其自研的百靈大模型最新研發進展。據螞蟻集團副總裁徐鵬介紹,百靈大模型已具備能“看”會“聽”、能“說”會“畫”的原生多模態能力,可以直接理解並訓練音頻、視頻、圖、文等多模態數據。

原生多模態被認為是通往AGI的必經之路,在國內,目前只有文心、通義等為數不多的大模型實現了這一能力。

記者從現場瞭解到,多模態技術可以讓大模型更像人一樣感知和互動,支撐智能體體驗升級,百靈的多模態能力已應用於手機APP“智能助理”上,未來還將支援更多智能體升級。

據瞭解,百靈大模型多模態能力,在中文圖文理解MMBench-CN評測集上達到GPT-4o水平,在信通院多模態安全能力評測達到優秀級(最高),具備支援規模化應用的能力,能支援AIGC、圖文對話、視頻理解、數字人等一系列下遊任務。

目前,多模態大模型技術能夠使AI更好地理解人類世界的複雜信息,也讓AI落地應用時更符合人類的交互習慣,在智能客服、自動駕駛、醫療診斷等多個領域展現出巨大的應用潛力。

發佈現場,螞蟻集團副總裁徐鵬還展示了新升級的多模態技術可實現的更多應用場景:通過視頻對話的自然形式,AI助理能為用戶識別穿著打扮,給出約會的搭配建議;根據用戶不同的意圖,從一堆食材中搭配出不同的菜譜組合;根據用戶描述的身體症狀,從一批藥物中,挑選出可能合適的藥,並讀出服用指導,供用戶參考等。

“從單一的文本語義理解,到多模態能力,是人工智能技術的關鍵迭代,而多模態技術催生的‘看聽說寫畫’的應用場景,將讓AI的表現更真實,更接近人類,從而也能更好地服務人類。螞蟻會持續投入原生多摸態技術的研發。”徐鵬說。