崑崙萬維:“天工3.0”基座大模型與“天工SkyMusic”音樂大模型正式開啟公測

4月17日,在“天工”大模型一週年之際,崑崙萬維重磅宣佈,“天工3.0”基座大模型與“天工SkyMusic”音樂大模型正式開啟公測!一年前的今天,第一版天工大模型正式對外發佈上線,一年來崑崙萬維不斷迭代模型,迭代應用產品,模型和應用都越做越好,以此回報廣大用戶的支持。

“天工3.0”擁有4000億參數,超越了3140億參數的Grok-1。“天工3.0”在語義理解、邏輯推理、通用性、泛化性、不確定性知識、學習能力等領域擁有突破性的性能提升,數學/推理/代碼/文創能力提升超過30%。

天工3.0模型參數超越Grok-1

強大的模型技術實力賦予“天工3.0”超強的性能表現。在MMBench等多項權威多模態測評結果中,“天工3.0”超越GPT-4V。

天工3.0多模態性能超越GPT-4V

同時,“天工3.0”旗下的“天工SkyMusic”音樂大模型也在今日面向全社會開放公測。

天工SkyMusic綜合性能超越Suno V3,取得音樂大模型SOTA。

天工SkyMusic:成為全球AI音樂SOTA模型

此前,大模型已經在文本、圖像等多個技術領域取得突破,帶來產業全面變革。然而,在AI音樂生成領域,全球遲遲等不到一款產品,開啟“音樂ChatGPT時刻”。

這是因為一直以來,AI音樂行業大量研究都集中在符號音樂生成技術路線上,並且大多隻能實現無人聲背景音樂(Background Music,BGM)的生成,音樂的質量、效果、審美都遠遠達不到可用水平,產業遲遲未能爆發。

“天工SkyMusic”自研AI音樂大模型技術架構

與行業主流路徑不同,“天工SkyMusic”採用自研大模型音樂音頻生成技術路線。這一路線直接通過大模型技術實現樂器、人聲、旋律、音量、音符的一體化端到端音樂生成,技術難度極大,全球只有包括崑崙萬維在內的極少數頂尖玩家參與。

在與海外頂尖的AI音樂大模型Suno V3的橫向測評中,“天工SkyMusic”在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手,並以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型。

此外,“天工SkyMusic”還擁有獨創的參考音樂生成與方言歌曲生成能力。

參考音樂生成:用戶可上傳自有參考音樂,或選擇“天工SkyMusic”資料庫中現有的參考音樂,從而生成風格、唱腔類似的歌曲,進一步降低音樂大模型的使用門檻,讓不熟悉樂理知識的用戶也能輕鬆玩轉。

方言歌曲生成:“天工SkyMusic”生成的音樂不僅在人聲自然度、發聲可懂度等領域表現優秀,更能夠支持粵語、成都話、北京話等眾多方言,讓用戶能夠更自由地實現音樂表達,傳播方言文化。

同時,“天工SkyMusic”是首個公開可用的AI音樂生成模型。

當前,在文本大模型領域,OpenAI吸引了全球的注意力;但是在AI搜索、AI音樂生成等細分領域,中國玩家們正在奮勇前行,不斷通過自研技術取得細分領域頂尖的SOTA表現,共同建設中國大模型產業,打造自主可控的大模型產業生態。

天工3.0:採用4000億級參數MoE混合專家模型架構

在上一代“天工2.0”MoE大模型的領先基礎上,“天工3.0”實現了全面的性能升級,採用了4000億級參數MoE混合專家模型架構。

“天工3.0”的邏輯推理能力、語義理解能力、應對複雜需求能力、內容創作能力全面升級,並新增了多輪搜索與綜合工具調用、圖表繪製、研究模式、增強模式、改圖擴圖等多項AI能力,為用戶帶來全新AI體驗。

多輪搜索與綜合工具調用:“天工3.0”針對模型獨立規劃、調用、組合外部工具及整合信息的能力進行了專項訓練,使其能夠獨立生成並調用代碼,完成包括產業研究、產品橫評、信息分析、圖片生成、圖表繪製等多種複雜用戶需求。

同時,“天工3.0”能夠通過強大的語義理解能力將用戶任務拆解成細分環節,實時判斷是否需要聯網或調用工具,進行單輪或多輪的聯網搜索、工具調用,完成包括多輪搜索、熱點信息分析、圖片生成等複雜用戶需求。

Query:查詢最新中國曆史電影票房排行,圖表展示。

圖表繪製:“天工3.0”全面提高了邏輯推理能力與用戶自然語言Query的理解能力,使其能夠更精準地判斷用戶需求,獨立生成並調用代碼,結合文本需求實時進行內容分析及圖表構建,為用戶帶來更直觀、高效的對比結果。

Query:北京、上海、重慶哪個好玩?

多輪搜索、綜合工具調用、圖表繪製等都是“天工3.0”所獨有的大模型綜合能力,其從底層打通了“天工3.0”的AI搜索、AI對話、AI代碼生成、AI圖片識別、AI圖像生成等底層能力,通過語義識別能力直接觸發,為用戶帶來更加便捷、高效的AI體驗,成為真正的AI生產力工具。

此外,“天工3.0”中還增加了研究模式、增強模式、改圖擴圖等多項AI能力。

研究模式:在研究模式中,“天工3.0”能夠圍繞用戶的某個簡單指令進行相關問題的延伸,自動生成研究大綱、圖譜、實踐總結、思維導圖,幫助用戶快速清晰地把握核心內容,完成用戶複雜的研究需求。

增強模式:在增強模式中,“天工3.0”能夠針對用戶的複雜Query進行拆解、細化、並進行追問、信息理解與補全,使其在自然語義理解方面性能更強,面對不確定性知識時表現更好,能夠更精準、高效地滿足用戶需求。

Query:2024年春節檔電影;“天工3.0”理解並追問用戶需求。

改圖擴圖:“天工3.0”多模態性能取得全面突破,超越GPT-4V。在強大的技術底座支持下,“天工3.0”的AI繪圖能力新增了圖片尺寸擴展、圖片定向調整、墊圖生圖、墊圖進化、墊圖擴圖等全新功能。

“天工3.0”的AI改圖、修圖、擴圖等功能【編輯:劉陽禾】