語音大模型「MaskGCT」正式開源，為短劇、遊戲、數字人等產品提供服務

文 | 劉士武（36氪遊戲）

10月24日，趣丸科技宣佈與香港中文大學（深圳）聯合研發的語音大模型「MaskGCT」正式在Amphion系統中開源，面向全球用戶開放使用。區別於傳統湯臣S模型，MaskGCT採用掩碼生成模型與語音表徵解耦編碼技術，在聲音複製、跨語種合成、語音控制等任務環節中能夠快速落地。

測試結果（來源：MaskGCT）

據瞭解，相較於現有的湯臣S大模型，MaskGCT在語音的相似度、質量和穩定性上進一步突破，在三個湯臣S基準數據集上都達到了SOTA效果。其顯著特點如下：

秒級超逼真的聲音複製：提供3秒音頻樣本即可複刻人類、動漫、「耳邊細語」等任意音色，且能完整複刻語調、風格和情感。

更精細可控的語音生成：可靈活調整生成語音的長度、語速和情緒，支持通過編輯文本編輯語音，並保持韻律、音色等方面的高度一致。

高質量多語種語音數據集：訓練於香港中文大學（深圳）和趣丸科技等機構聯合推出的10萬小時數據集Emilia，是全球最大且最為多樣的高質量多語種語音數據集之一，實現中英日韓法德6種語言的跨語種合成。

MaskGCT的研發工作由港中大（深圳）、趣丸科技人工智能聯合實驗室成員完成。作為一個大規模的零樣本湯臣S模型，MaskGCT採用非自回歸掩碼生成Transformer，無需文本與語音的對齊監督和音素級持續時間預測，其技術突破性在於採用掩碼生成模型與語音表徵解耦編碼的創新範式。

MaskGCT大模型翻譯《黑神話：悟空》動畫片段（影片來源：趣丸千音）

根據官方實驗表明，MaskGCT在語音質量、相似度和可理解性方面優於當前絕大部分的湯臣S模型，並且在模型規模和訓練數據量增延長表現更佳，同時能夠控制生成語音的總時長。

MaskGCT已在香港中文大學（深圳）與上海人工智能實驗室聯合開發的開源系統Amphion發佈

值得一提的是，MaskGCT是一個兩階段模型。在第一階段，模型使用文本預測從語音自監督學習（SSL）模型中提取的語義標記；在第二階段，模型基於這些語義標記預測聲學標記（遵循掩碼預測學習範式）。

在訓練過程中，MaskGCT學習根據給定的條件和提示預測掩碼的語義或聲學標記。在推理過程中，模型以並行方式生成指定長度的標記。通過對10萬小時的自然語音進行實驗，結果表明MaskGCT在質量、相似度和可理解性方面優於其他現有的零樣本湯臣S系統。

目前，MaskGCT在短劇出海、數字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景。為了加快落地應用，在安全合規的前提下，趣丸科技開發了多語種速譯智能視聽平台「趣丸千音」，可實現一鍵上傳影片即可快速翻譯成多語種版本，并包含字幕修復與翻譯、語音翻譯、唇音同步等功能，大幅降低過往昂貴的人工翻譯成本和冗長的製作週期，成為影視、遊戲、短劇等內容出海的新選擇。

影片來源：趣丸千音

《2024年短劇出海白皮書》顯示，2023年海外市場規模高達650億美元，約為國內市場的12倍，短劇出海正成為藍海新賽道。基於MaskGCT的趣丸千音，有機會幫助國產短劇以更低成本、更快捷的方式「走出去」，提升中國文化內容的出海效率。