國產AI音樂崛起,趣丸科技領跑AI聲音賽道

2024年被稱為「大模型應用落地」以及「行業大模型發展」的「元年」。大模型行業的「火」在垂直大模型領域越燒越旺。2024世界人工智能大會暨人工智能全球治理高級別會議期間發佈的《中國AI大模型工業應用指數(2024年)》顯示,對比國內外頭部AI大模型,國內頂級大模型在工業領域文本生成的準確性已具備競爭力;在行業知識層面,我國在多個行業如電力、建材、紡織的知識儲備已經具備一定領先優勢。同時,不少的行業專家也在互聯網大會上討論垂直領域大模型的應用和發展,認為這些模型針對特定行業或應用場景進行優化,能提供更精準的服務,也更能實現落地與盈利。

不僅是國內業界瞄準了垂直領域,國際巨頭的成果同樣能體現這一趨勢。11月26日,英偉達推出新型人工智能模型——Fugatto,可以創造聲音效果,改變人的發音方式,並使用自然語言提示生成音樂,再次引發熱議,而針對「AI聲音」這條賽道,中國企業其實早就捲了起來。

上千萬用戶嚐鮮AI音樂 商業化仍在早期階段

「廣州,陽光灑滿牽手的騎樓,五羊傳說神秘無盡頭……」在2024廣州文旅系列活動新聞發佈會暨第九屆羊城粵劇節新聞發佈會上,一曲極具「羊城風韻」的主題曲正式發佈。這首歌曲就是由廣州市文旅局聯合趣丸科技天譜樂大模型打造的AI音樂作品。

所謂AI音樂,指的是利用人工智能技術來創作、生成或修改音樂的過程。以這首廣州文旅主題曲為例,不用寫詞不用譜曲,甚至不用演唱,只需要向天譜樂下任務,輸入幾個關鍵詞,大模型就能詞曲包辦,配以動聽人聲演唱歌曲。詞曲之間,廣大市民和遊客能多維度、沉浸式感受到廣州的活力,廣州著名景點、本土文化、城市環境都能通過聲音和歌詞傳遞給大家,以全新的呈現方式讓人們從聽覺上感受廣州魅力,呈現了「活力灣區、新彩廣州」的新活力、新風貌、新氣象。

據瞭解,天譜樂大模型是由趣丸科技唱鴨團隊自主研發的全球首個多模態音樂生成大模型,用上它,「人人都是音樂家」將不是幻想。該大模型不僅支持文生音樂、音頻生音樂,還首創圖片/影片生音樂功能,多模態理解與生成能力比肩國際先進水平。

簡單來說,用戶只需要輸入一句話、一張照片或一段影片,就可以在1-2分鐘內生成一首兼具人聲唱詞,結構相對完整的歌曲。讓用戶不再受限於專業的樂理知識,複雜的音樂製作流程和昂貴的版權費用,就可以輕鬆通過音樂創作記錄生活的切片,極大降低普通用戶體驗音樂創作樂趣的門檻。據介紹,目前天譜樂已接入唱鴨App,幫助超4600萬人使用天譜樂進行AI音樂創作,累計創作近1000萬首AI歌曲。 

此外,在B端市場上,趣丸科技也正在為一些影視、文旅領域的企業提供音樂製作服務。趣丸科技方面表示,「現在音樂生成大模型的商業化仍處於非常早期的階段,公司會持續加大AI投入,讓人人都能跨越創作門檻,享受技術發展紅利。」

語音大模型助力內容出海 巨大市場潛力待釋放

聲音領域除了音樂,語音同樣是重要「戰場」。

10月,趣丸科技聯合香港中文大學(深圳)開源首個語音大模型MaskGCT。區別傳統湯臣S模型,該模型採用掩碼生成模型與語音表徵解耦編碼的創新範式,在聲音複製、跨語種合成、語音控制等任務中展現出卓越效果。其在三個湯臣S基準數據集上都達到了SOTA效果,超過當前最先進的同類模型,某些指標甚至超過人類水平。

目前,MaskGCT在短劇出海、數字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景。為了加快落地應用,在安全合規下,趣丸科技打造了多語種速譯智能視聽平台「趣丸千音」。一鍵上傳影片即可快速翻譯成多語種版本,並實現字幕修復與翻譯、語音翻譯、唇音同步等功能。產品進一步革新影片翻譯製作流程,大幅降低以前昂貴的人工翻譯成本和冗長的製作週期,成為影視、遊戲、短劇等內容出海的理想選擇平台。

單就短劇出海市場而言,《2024年短劇出海白皮書》顯示,2023年海外市場規模高達650億美元,約為國內市場的12倍,短劇出海成為藍海新賽道。以「趣丸千音」為代表的產品的出現,將加速國產短劇「走出去」,進一步推動中華文化在全球不同語境下的傳播。不管是說越南語的「霸道總裁」,還是講德文的「重生公主」,依託趣丸千音都能輕鬆達成。

「結合我們的日常工作經驗,當前人工智能技術應用場景拓展存在的‘堵點’主要有三個方面,首先是人工智能團隊任務繁重,既要進行基礎技術研究又要承接產品需求;其次是人工智能技術應用端行業缺乏將人工智能與業務相結合的具體思路;三是缺乏能將技術與應用結合起來的‘中遊’諮詢機構、中介機構,希望未來社會各界能在促進技術與應用融合方面做出更多嘗試。」日前,趣丸科技副總裁、總編輯任少峰在接受採訪時這樣總結趣丸科技在人工智能發展路徑上遇到的難點問題。

圖片來源:企業供圖

編輯 韋保雅

校對 穆祥桐