無(wú)論是中文的粵語(yǔ)、閩南話、吳語(yǔ),還是歐洲的荷蘭比爾茨語(yǔ)方言、法國(guó)奧克語(yǔ),亦或是非洲和南美的地方語(yǔ)言,方言都承載著獨(dú)特的音系與文化記憶,是人類語(yǔ)言多樣性的重要組成部分。然而,許多方言正在快速消失,語(yǔ)音技術(shù)如果不能覆蓋這些語(yǔ)言,勢(shì)必加劇數(shù)字鴻溝與文化失聲。
在當(dāng)今大模型引領(lǐng)的語(yǔ)音合成時(shí)代,通用 TTS 系統(tǒng)已展現(xiàn)出令人驚嘆的能力,但方言 TTS 依然是相關(guān)從業(yè)者難以觸及的「灰色地帶」?,F(xiàn)有的工業(yè)級(jí)模型往往依賴巨量專有數(shù)據(jù),這讓方言 TTS 從業(yè)者和研究者幾乎無(wú)從下手:缺乏統(tǒng)一的語(yǔ)料構(gòu)建方法,更缺乏一個(gè)可實(shí)現(xiàn)多語(yǔ)言的端到端開(kāi)源框架。
為此,來(lái)自巨人網(wǎng)絡(luò) AI Lab 與清華大學(xué)電子工程系 SATLab 的研究團(tuán)隊(duì)聯(lián)合首創(chuàng)了DiaMoe-TTS—— 一個(gè)在一定程度上媲美工業(yè)級(jí)方言 TTS 模型的開(kāi)源全套解決方案。他們基于語(yǔ)言學(xué)家的專業(yè)經(jīng)驗(yàn),構(gòu)建了一個(gè)統(tǒng)一的 IPA 表達(dá)體系,并且在僅依賴開(kāi)源方言 ASR 數(shù)據(jù)的前提下提出這一方案。
在推出中文方言版本之前,研究團(tuán)隊(duì)已在英語(yǔ)、法語(yǔ)、德語(yǔ)、荷蘭比爾茨語(yǔ)等多語(yǔ)種場(chǎng)景中進(jìn)行過(guò)驗(yàn)證,確保該方法具備全球范圍內(nèi)多語(yǔ)言的可擴(kuò)展性與穩(wěn)健性。
最重要的是,DiaMoE-TTS 不僅僅是一個(gè)單點(diǎn)模型,而是一個(gè)面向?qū)W術(shù)界與開(kāi)源社區(qū)的全鏈路貢獻(xiàn):
- 全開(kāi)源的數(shù)據(jù)預(yù)處理流程:讓研究者能夠從原始方言語(yǔ)音數(shù)據(jù)構(gòu)建 TTS-ready 方言語(yǔ)音語(yǔ)料;
- 統(tǒng)一的 IPA 標(biāo)注與對(duì)齊方法:解決跨方言建模的一致性問(wèn)題;
- 完整的訓(xùn)練與推理代碼:降低復(fù)現(xiàn)與擴(kuò)展的門檻;
- 方言感知 MoE 架構(gòu)與低資源適配策略:為研究者提供穩(wěn)定、靈活且可拓展的建模方法。
巨人網(wǎng)絡(luò) AI Lab 與清華大學(xué)電子工程系 SATLab 希望借此推動(dòng)方言語(yǔ)音合成的公平與普惠:讓任何研究者、開(kāi)發(fā)者乃至語(yǔ)言文化保護(hù)工作者都能自由使用、改進(jìn)與擴(kuò)展這一框架;讓小眾語(yǔ)言與方言的聲音不再被淹沒(méi)在通用大模型的洪流中,而能通過(guò)開(kāi)源的力量被更廣泛地聽(tīng)見(jiàn)與傳承。
- 論文題目:DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation
- Arxiv 地址: https://www.arxiv.org/abs/2509.22727
代碼與訓(xùn)練推理腳本全面開(kāi)源:
- GitHub: https://github.com/GiantAILab/DiaMoE-TTS
數(shù)據(jù)構(gòu)建方法開(kāi)源:包含多方言 IPA 對(duì)齊語(yǔ)料生成流程,支持可復(fù)現(xiàn)的開(kāi)放式研究。
- Checkpoint Huggingface: https://huggingface.co/RICHARD12369/DiaMoE_TTS
- Dataset Huggingface: https://huggingface.co/datasets/RICHARD12369/DiaMoE-TTS_IPA_Trainingset
生成 demo
成都話:祝福大家前程似錦,順?biāo)橈L(fēng)。
鄭州話:祝你前途大好,成就非凡!
石家莊話:好的開(kāi)始,等于成功的一半兒。
西安話:祝愿大家前程似錦,夢(mèng)想成真。
粵語(yǔ):我系鐘意廣州嘅春天。
模型設(shè)計(jì)
統(tǒng)一 IPA 前端
在多方言語(yǔ)音合成中,使用拼音或字符輸入常常帶來(lái)嚴(yán)重的歧義與不一致問(wèn)題,例如相同字符在不同方言中可能對(duì)應(yīng)完全不同的發(fā)音。
DiaMoE-TTS 在前端設(shè)計(jì)中引入了國(guó)際音標(biāo)(IPA)作為統(tǒng)一的輸入體系,將所有方言的語(yǔ)音映射到同一音素空間。這種方式消除了跨方言間的差異性,使得模型能夠在統(tǒng)一的表征體系下進(jìn)行訓(xùn)練,保證了建模的一致性與泛化能力。
方言感知 Mixture-of-Experts (MoE) 架構(gòu)
在聲學(xué)建模部分,DiaMoE-TTS 設(shè)計(jì)了方言感知的 Mixture-of-Experts (MoE) 架構(gòu)。傳統(tǒng)的單一建模網(wǎng)絡(luò)在多方言任務(wù)下容易出現(xiàn)「風(fēng)格平均化」,導(dǎo)致各地方言的特色被弱化。MoE 結(jié)構(gòu)通過(guò)引入多個(gè)專家網(wǎng)絡(luò),讓不同的專家專注于學(xué)習(xí)不同方言的特征;同時(shí),動(dòng)態(tài)門控機(jī)制會(huì)根據(jù)輸入 IPA 自動(dòng)選擇最合適的專家路由,從而保證了每種方言的音色和韻律特點(diǎn)得以保留。
為了增強(qiáng)門控的區(qū)分能力,我們還加入了方言分類輔助損失,使專家網(wǎng)絡(luò)在訓(xùn)練時(shí)能夠更有針對(duì)性地建模方言特征。
低資源方言適配 (PEFT)
許多方言面臨極端的數(shù)據(jù)稀缺問(wèn)題,甚至僅有數(shù)小時(shí)的錄音語(yǔ)料。DiaMoE-TTS 提出了參數(shù)高效遷移 (PEFT)策略,分別在 text embedding 層和 DiT 的注意力層中融入了Conditioning Adapter與LoRA,僅需微調(diào)少量參數(shù)即可完成方言擴(kuò)展,主干與 MoE 模塊保持凍結(jié),從而避免對(duì)已有知識(shí)的遺忘。
此外,研究團(tuán)隊(duì)還采用了音高擾動(dòng)與語(yǔ)速擾動(dòng)等數(shù)據(jù)增強(qiáng)手段,即便在超低資源條件下,模型也能合成自然、流暢且風(fēng)格鮮明的方言語(yǔ)音。
多階段訓(xùn)練方法
DiaMoE-TTS 的訓(xùn)練過(guò)程分為多個(gè)階段,以逐步提升模型性能并適應(yīng)方言多樣性:
- IPA 遷移初始化
在 F5-TTS 原始 checkpoint 的基礎(chǔ)上,引入經(jīng)過(guò) IPA 音素轉(zhuǎn)換的 Emilia 部分?jǐn)?shù)據(jù),對(duì)模型進(jìn)行預(yù)熱訓(xùn)練,從而實(shí)現(xiàn)輸入形式從拼音字符到 IPA 的平滑遷移。
- 多方言聯(lián)合訓(xùn)練
在統(tǒng)一 IPA 表達(dá)下,利用多個(gè)開(kāi)源方言數(shù)據(jù)(CommonVoice 和 KeSpeech)進(jìn)行聯(lián)合建模,同時(shí)激活 MoE 結(jié)構(gòu),使模型能夠?qū)W習(xí)共享特征并區(qū)分不同方言的發(fā)音模式。
- 方言專家強(qiáng)化
通過(guò)動(dòng)態(tài)門控機(jī)制與方言分類輔助損失,進(jìn)一步優(yōu)化 MoE 的分流效果,讓各專家更好地捕捉不同方言的獨(dú)特特征。
- 低資源快速適配
針對(duì)僅有數(shù)小時(shí)語(yǔ)料的新方言,采用 PEFT 策略(LoRA + Conditioning Adapter),結(jié)合音高 / 語(yǔ)速擾動(dòng)等數(shù)據(jù)增強(qiáng),實(shí)現(xiàn)高效遷移并保持已有知識(shí)不被遺忘。
這種多階段、漸進(jìn)式訓(xùn)練的方法,使 DiaMoE-TTS 能夠在保證穩(wěn)定性的同時(shí),兼顧跨方言泛化與低資源適配能力。
研究結(jié)果
通過(guò)圖表可以看到,在訓(xùn)練數(shù)據(jù)量較為充足(百小時(shí))的粵語(yǔ)上,DiaMoE-TTS 在WER、MOS 和 UTMOS三個(gè)指標(biāo)上均取得了接近工業(yè)界語(yǔ)音大模型的表現(xiàn)。而在上海話、成都話、西安話、鄭州話、天津話等其他方言(幾小時(shí)到幾十小時(shí)不等)的對(duì)比實(shí)驗(yàn)中,受限于開(kāi)源方言 ASR 數(shù)據(jù)在「質(zhì)量」與「規(guī)?!股系牟蛔悖P驼w表現(xiàn)略遜于部分工業(yè)級(jí)大模型。
但值得強(qiáng)調(diào)的是,DiaMoE-TTS 支持的方言范圍更廣,甚至可以擴(kuò)展到介于語(yǔ)音合成(TTS)與歌聲合成之間的特殊類型,如京劇韻白,并能在僅有極少量數(shù)據(jù)的情況下實(shí)現(xiàn)快速建模,這為方言保護(hù)與文化傳承提供了新的可能性。
在消融實(shí)驗(yàn)中,研究團(tuán)隊(duì)選擇了成都話、西安話、鄭州話、石家莊話四種方言,對(duì)比了三種不同配置:僅使用 IPA 的版本(w/o MoE)、僅使用 MoE 且輸入為拼音的版本(w/o IPA)、以及完整的 IPA + MoE 方法(Ours)。
實(shí)驗(yàn)結(jié)果表明,IPA 統(tǒng)一前端是性能提升的關(guān)鍵,將輸入由拼音替換為 IPA 后,WER 從 90% 以上顯著下降到 30%~40% 區(qū)間,MOS 評(píng)分也提升了 1~2 分。同時(shí),Dialect-aware MoE 架構(gòu)能夠進(jìn)一步增強(qiáng)方言風(fēng)格,以西安話為例,WER 從 41.09% 降至 33.00%,MOS 從 2.33 提升到 3.15,表現(xiàn)出明顯的改進(jìn)。
最終,完整方案(MoE + IPA)在所有方言上都取得了最佳效果,不僅顯著降低了錯(cuò)誤率,也大幅提升了語(yǔ)音的自然度。這充分證明了 IPA 前端在解決跨方言發(fā)音歧義方面的有效性,以及 MoE 在強(qiáng)化方言建模上的重要作用,兩者結(jié)合成為 DiaMoE-TTS 的核心優(yōu)勢(shì)。
一句話總結(jié)
DiaMoE-TTS = IPA 前端統(tǒng)一化 + MoE 方言建模 + PEFT 低資源適配
在開(kāi)放數(shù)據(jù)驅(qū)動(dòng)下,實(shí)現(xiàn)低成本、低門檻、可擴(kuò)展的多方言語(yǔ)音合成方案。
通俗易懂版本:不用海量數(shù)據(jù),也不用復(fù)雜流程,DiaMoE-TTS 就能讓更多方言在數(shù)字世界開(kāi)口說(shuō)話。
未來(lái)展望
DiaMoE-TTS 的全面開(kāi)源只是一個(gè)起點(diǎn)。未來(lái),研究團(tuán)隊(duì)將持續(xù)擴(kuò)展更多方言與小語(yǔ)種的語(yǔ)料,完善 IPA 對(duì)齊與數(shù)據(jù)預(yù)處理流程,并探索更高效的低資源建模方法,讓方言語(yǔ)音合成的研究與應(yīng)用更加低門檻、更易復(fù)現(xiàn)。
同時(shí),研究團(tuán)隊(duì)希望這一框架能夠讓全球的研究者與開(kāi)發(fā)者更便捷地參與到方言與小語(yǔ)種的語(yǔ)音技術(shù)研究中,讓它們不僅停留在實(shí)驗(yàn)室里被探索,更能在教育、文化保護(hù)、虛擬人、數(shù)字文旅與跨境交流等實(shí)際場(chǎng)景中發(fā)揮價(jià)值。他們相信,方言不應(yīng)在數(shù)字時(shí)代被遺忘,每一種語(yǔ)言都值得在數(shù)字世界被聽(tīng)見(jiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.