AI識別方言困難!專家探索用算法度量方言差距,提議構建統一框架

·確定一系列核心方言並為其建立自動語音識別(ASR)模型,當一種未知方言出現時,分析它距離這一系列核心方言中的哪些方言較近,就可以用合適的核心方言ASR模型識別出這種未知方言的內容。

·方言應用的窗口期大約是二三十年。AI識別方言的實際困難大,我國方言體系之間甚至每一類方言內部的地域差異都普遍存在,各地方言常以口語形式流傳,缺乏對應文字,並且難以收集,可用於模型訓練的方言語料數據偏少。

信也科技算法科學家倪博溢。

10月24日,第八屆信也科技杯算法大賽總決賽上,9支人工智能隊伍角逐,探索利用AI技術識別和還原語音數據中的方言信息,衡量不同方言之間的距離,推動智能語音識別技術發展。

方言距離是一個開放問題,例如人們通常在直覺上認為上海話與杭州話之間的距離比上海話和北京話之間的距離更近。從實用性來講,距離越接近的兩種方言,其自動語音識別引擎在交叉使用時也可以得到更好的效果。如此一來,利用少數核心方言的自動語音識別引擎來轉寫鄰近的各種未知方言,就是方言ASR識別問題的潛在解決方案之一。

金融科技集團信也科技(NYSE:FINV)首席科學家王春平表示,本次大賽的目的是尋找數據驅動的最佳算法和模型,更好地理解方言和口音特徵,提升用戶體驗;長期來講,以核心方言來支持所有方言轉寫,找到最優的核心方言佈局。

度量方言間的距離

我國幅員遼闊,人口眾多,方言情況十分複雜,方言體系之間甚至每一類方言內部的地域差異都普遍存在。這導致在客戶服務中,語音交流常常會遇到方言或口音挑戰。

要將客服人員和客戶溝通的過程中產生的大量語音數據進行完善的分析質檢,就需要語音、NLP(自然語言處理)算法進行批量的處理、分析、質檢。通常質檢任務的第一步算法就是ASR轉寫。

但信也科技算法科學家倪博溢表示,ASR轉寫存在的一個實際問題是,通用ASR模型建立在普通話數據基礎上,無法對方言進行準確轉寫。目前,商業解決方案還不能滿足大部分方言的轉寫,大多數可用的漢語ASR模型要麼不支持方言,要麼只覆蓋數量有限的方言。

理論上,最理想的解決方案是為每一種方言建立ASR引擎,只要有語音和對應的文字,就可以訓練出每一種方言的模型,但這種方式成本高昂、耗時耗力。為一種方言單獨建模,往往需要考慮該地區的方言是否較為統一、地區經濟和科研實力是否允許。

倪博溢認為,工程上可行的方式是,首先確定一系列核心方言並為其建立ASR模型,當一種從未被AI識別過的方言出現時,分析它距離這一系列核心方言中的哪些方言較近,就可以用合適的核心方言ASR模型識別出這種未知方言。但是,“一種方言跟另一種核心方言究竟要多相似,才能用這種核心方言作為對照去識別其他方言,這是需要抉擇的。”因此度量不同方言之間的距離是解決問題的關鍵。倪博溢表示,研究方言距離問題有助於進一步探索如何從語音層面建模方言、抽取方言特徵、分析方言形成和演化機理,其結果也可以和傳統方言分類方法做合理性的相互印證,並服務於更廣泛的研究目標。

第八屆信也科技杯算法大賽總決賽現場,選手在答辯。

那麼方言之間距離的遠近究竟要如何衡量?倪博溢表示,目前他們對方言的讀音進行加權計算,得出兩種方言在0-100之間的數值,代表距離遠近,這是一個相對客觀的指標。但判斷不同方言的距離還有其他方式,此次信也科技杯算法大賽也是為了在思想碰撞中尋找衡量方言距離的優秀算法方案,拓展商用ASR接口的模型適用範圍,推動核心方言引擎的佈局,提高方言識別準確率。

方言底層邏輯+大模型

今年5月,Meta推出大規模多語言語音 (MMS) 模型,將文本轉語音和語音轉文本技術從大約100種語言擴展到1100多種,還可以識別4000多種口頭語言。在國內,抖音上線了地方方言自動翻譯功能,“一鍵”可將粵語、閩語、吳語、西南官話、中原官話等方言視頻轉化出普通話字幕。科大訊飛的方言識別語種擴充至23種,探索智能語音助力方言保護的路徑。

語言是人類的特有屬性,也是文化的載體。有的語言甚至只有少數幾人掌握,一旦這些老人去世,這種語言也就消失了。語言一旦消失,文化無處可尋。

“方言是一個寶庫,裡邊蘊含的東西太多了。如果只剩下普通話,就缺乏了語言的樂趣。但目前方言正在消失,方言應用的窗口期大約是二三十年,AI識別方言的實際困難很大,經濟價值不大,所以很少有人願意推動做這件事。”倪博溢表示,各地方言常以口語形式流傳,缺乏對應文字,並且難以收集,可用於模型訓練的方言語料數據偏少。今天已經擁有了互聯網數據,如果能夠取消數據獲取的壁壘,將語音數據開放成公共資產,對研究者而言是一大利好。

儘管信也科技金融業務帶來的客服語音積累了方言語料,但從大量語音中提取方言數據又是另一個挑戰,從10000小時的語音數據中找出100小時的方言猶如大海撈針。倪博溢表示,識別方言的距離有助於解決這一難題,但這隻是AI識別方言的解決方案之一,仍有其他解決方案可以探索。

在倪博溢看來,AI識別繁多的方言,不能依靠逐個擊破,而是要研究方言的底層邏輯和特點,構建統一識別框架。同時大模型的預訓練可以自我學習,探索借助大模型技術提高識別準確性。倪博溢提出一種設想,由於音標是固定的,能否利用國際音標序列標註各種方言,構建語言模型識別方言,他認為這或將解決絕大多數方言沒有對應文字的問題。他也期待通過這次比賽建設長榜賽題(即持續性常態賽題,參賽者可長期打擂台),支持社區共建語音語料和模型算法,以較低成本服務於方言保護。