網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華&巨人網(wǎng)絡(luò)首創(chuàng)MoE多方言TTS框架，數(shù)據(jù)代碼方法全開(kāi)源

2025-10-15 15:48:09　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

無(wú)論是中文的粵語(yǔ)、閩南話、吳語(yǔ)，還是歐洲的荷蘭比爾茨語(yǔ)方言、法國(guó)奧克語(yǔ)，亦或是非洲和南美的地方語(yǔ)言，方言都承載著獨(dú)特的音系與文化記憶，是人類語(yǔ)言多樣性的重要組成部分。然而，許多方言正在快速消失，語(yǔ)音技術(shù)如果不能覆蓋這些語(yǔ)言，勢(shì)必加劇數(shù)字鴻溝與文化失聲。

在當(dāng)今大模型引領(lǐng)的語(yǔ)音合成時(shí)代，通用 TTS 系統(tǒng)已展現(xiàn)出令人驚嘆的能力，但方言 TTS 依然是相關(guān)從業(yè)者難以觸及的「灰色地帶」?，F(xiàn)有的工業(yè)級(jí)模型往往依賴巨量專有數(shù)據(jù)，這讓方言 TTS 從業(yè)者和研究者幾乎無(wú)從下手：缺乏統(tǒng)一的語(yǔ)料構(gòu)建方法，更缺乏一個(gè)可實(shí)現(xiàn)多語(yǔ)言的端到端開(kāi)源框架。

為此，來(lái)自巨人網(wǎng)絡(luò) AI Lab 與清華大學(xué)電子工程系 SATLab 的研究團(tuán)隊(duì)聯(lián)合首創(chuàng)了DiaMoe-TTS—— 一個(gè)在一定程度上媲美工業(yè)級(jí)方言 TTS 模型的開(kāi)源全套解決方案。他們基于語(yǔ)言學(xué)家的專業(yè)經(jīng)驗(yàn)，構(gòu)建了一個(gè)統(tǒng)一的 IPA 表達(dá)體系，并且在僅依賴開(kāi)源方言 ASR 數(shù)據(jù)的前提下提出這一方案。

在推出中文方言版本之前，研究團(tuán)隊(duì)已在英語(yǔ)、法語(yǔ)、德語(yǔ)、荷蘭比爾茨語(yǔ)等多語(yǔ)種場(chǎng)景中進(jìn)行過(guò)驗(yàn)證，確保該方法具備全球范圍內(nèi)多語(yǔ)言的可擴(kuò)展性與穩(wěn)健性。

最重要的是，DiaMoE-TTS 不僅僅是一個(gè)單點(diǎn)模型，而是一個(gè)面向?qū)W術(shù)界與開(kāi)源社區(qū)的全鏈路貢獻(xiàn)：

全開(kāi)源的數(shù)據(jù)預(yù)處理流程：讓研究者能夠從原始方言語(yǔ)音數(shù)據(jù)構(gòu)建 TTS-ready 方言語(yǔ)音語(yǔ)料；
統(tǒng)一的 IPA 標(biāo)注與對(duì)齊方法：解決跨方言建模的一致性問(wèn)題；
完整的訓(xùn)練與推理代碼：降低復(fù)現(xiàn)與擴(kuò)展的門檻；
方言感知 MoE 架構(gòu)與低資源適配策略：為研究者提供穩(wěn)定、靈活且可拓展的建模方法。

巨人網(wǎng)絡(luò) AI Lab 與清華大學(xué)電子工程系 SATLab 希望借此推動(dòng)方言語(yǔ)音合成的公平與普惠：讓任何研究者、開(kāi)發(fā)者乃至語(yǔ)言文化保護(hù)工作者都能自由使用、改進(jìn)與擴(kuò)展這一框架；讓小眾語(yǔ)言與方言的聲音不再被淹沒(méi)在通用大模型的洪流中，而能通過(guò)開(kāi)源的力量被更廣泛地聽(tīng)見(jiàn)與傳承。

論文題目：DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation
Arxiv 地址: https://www.arxiv.org/abs/2509.22727

代碼與訓(xùn)練推理腳本全面開(kāi)源：

GitHub: https://github.com/GiantAILab/DiaMoE-TTS

數(shù)據(jù)構(gòu)建方法開(kāi)源：包含多方言 IPA 對(duì)齊語(yǔ)料生成流程，支持可復(fù)現(xiàn)的開(kāi)放式研究。

Checkpoint Huggingface: https://huggingface.co/RICHARD12369/DiaMoE_TTS
Dataset Huggingface: https://huggingface.co/datasets/RICHARD12369/DiaMoE-TTS_IPA_Trainingset

生成 demo

成都話：祝福大家前程似錦，順?biāo)橈L(fēng)。

鄭州話：祝你前途大好，成就非凡！

石家莊話：好的開(kāi)始，等于成功的一半兒。

西安話：祝愿大家前程似錦，夢(mèng)想成真。

粵語(yǔ)：我系鐘意廣州嘅春天。

模型設(shè)計(jì)

統(tǒng)一 IPA 前端

在多方言語(yǔ)音合成中，使用拼音或字符輸入常常帶來(lái)嚴(yán)重的歧義與不一致問(wèn)題，例如相同字符在不同方言中可能對(duì)應(yīng)完全不同的發(fā)音。

DiaMoE-TTS 在前端設(shè)計(jì)中引入了國(guó)際音標(biāo)（IPA）作為統(tǒng)一的輸入體系，將所有方言的語(yǔ)音映射到同一音素空間。這種方式消除了跨方言間的差異性，使得模型能夠在統(tǒng)一的表征體系下進(jìn)行訓(xùn)練，保證了建模的一致性與泛化能力。

方言感知 Mixture-of-Experts (MoE) 架構(gòu)

在聲學(xué)建模部分，DiaMoE-TTS 設(shè)計(jì)了方言感知的 Mixture-of-Experts (MoE) 架構(gòu)。傳統(tǒng)的單一建模網(wǎng)絡(luò)在多方言任務(wù)下容易出現(xiàn)「風(fēng)格平均化」，導(dǎo)致各地方言的特色被弱化。MoE 結(jié)構(gòu)通過(guò)引入多個(gè)專家網(wǎng)絡(luò)，讓不同的專家專注于學(xué)習(xí)不同方言的特征；同時(shí)，動(dòng)態(tài)門控機(jī)制會(huì)根據(jù)輸入 IPA 自動(dòng)選擇最合適的專家路由，從而保證了每種方言的音色和韻律特點(diǎn)得以保留。

為了增強(qiáng)門控的區(qū)分能力，我們還加入了方言分類輔助損失，使專家網(wǎng)絡(luò)在訓(xùn)練時(shí)能夠更有針對(duì)性地建模方言特征。

低資源方言適配 (PEFT)

許多方言面臨極端的數(shù)據(jù)稀缺問(wèn)題，甚至僅有數(shù)小時(shí)的錄音語(yǔ)料。DiaMoE-TTS 提出了參數(shù)高效遷移 (PEFT)策略，分別在 text embedding 層和 DiT 的注意力層中融入了Conditioning Adapter與LoRA，僅需微調(diào)少量參數(shù)即可完成方言擴(kuò)展，主干與 MoE 模塊保持凍結(jié)，從而避免對(duì)已有知識(shí)的遺忘。

此外，研究團(tuán)隊(duì)還采用了音高擾動(dòng)與語(yǔ)速擾動(dòng)等數(shù)據(jù)增強(qiáng)手段，即便在超低資源條件下，模型也能合成自然、流暢且風(fēng)格鮮明的方言語(yǔ)音。

多階段訓(xùn)練方法

DiaMoE-TTS 的訓(xùn)練過(guò)程分為多個(gè)階段，以逐步提升模型性能并適應(yīng)方言多樣性：

IPA 遷移初始化

在 F5-TTS 原始 checkpoint 的基礎(chǔ)上，引入經(jīng)過(guò) IPA 音素轉(zhuǎn)換的 Emilia 部分?jǐn)?shù)據(jù)，對(duì)模型進(jìn)行預(yù)熱訓(xùn)練，從而實(shí)現(xiàn)輸入形式從拼音字符到 IPA 的平滑遷移。

多方言聯(lián)合訓(xùn)練

在統(tǒng)一 IPA 表達(dá)下，利用多個(gè)開(kāi)源方言數(shù)據(jù)（CommonVoice 和 KeSpeech）進(jìn)行聯(lián)合建模，同時(shí)激活 MoE 結(jié)構(gòu)，使模型能夠?qū)W習(xí)共享特征并區(qū)分不同方言的發(fā)音模式。

方言專家強(qiáng)化

通過(guò)動(dòng)態(tài)門控機(jī)制與方言分類輔助損失，進(jìn)一步優(yōu)化 MoE 的分流效果，讓各專家更好地捕捉不同方言的獨(dú)特特征。

低資源快速適配

針對(duì)僅有數(shù)小時(shí)語(yǔ)料的新方言，采用 PEFT 策略（LoRA + Conditioning Adapter），結(jié)合音高 / 語(yǔ)速擾動(dòng)等數(shù)據(jù)增強(qiáng)，實(shí)現(xiàn)高效遷移并保持已有知識(shí)不被遺忘。

這種多階段、漸進(jìn)式訓(xùn)練的方法，使 DiaMoE-TTS 能夠在保證穩(wěn)定性的同時(shí)，兼顧跨方言泛化與低資源適配能力。

研究結(jié)果

通過(guò)圖表可以看到，在訓(xùn)練數(shù)據(jù)量較為充足（百小時(shí)）的粵語(yǔ)上，DiaMoE-TTS 在WER、MOS 和 UTMOS三個(gè)指標(biāo)上均取得了接近工業(yè)界語(yǔ)音大模型的表現(xiàn)。而在上海話、成都話、西安話、鄭州話、天津話等其他方言（幾小時(shí)到幾十小時(shí)不等）的對(duì)比實(shí)驗(yàn)中，受限于開(kāi)源方言 ASR 數(shù)據(jù)在「質(zhì)量」與「規(guī)?！股系牟蛔悖Ｐ驼w表現(xiàn)略遜于部分工業(yè)級(jí)大模型。

但值得強(qiáng)調(diào)的是，DiaMoE-TTS 支持的方言范圍更廣，甚至可以擴(kuò)展到介于語(yǔ)音合成（TTS）與歌聲合成之間的特殊類型，如京劇韻白，并能在僅有極少量數(shù)據(jù)的情況下實(shí)現(xiàn)快速建模，這為方言保護(hù)與文化傳承提供了新的可能性。

在消融實(shí)驗(yàn)中，研究團(tuán)隊(duì)選擇了成都話、西安話、鄭州話、石家莊話四種方言，對(duì)比了三種不同配置：僅使用 IPA 的版本（w/o MoE）、僅使用 MoE 且輸入為拼音的版本（w/o IPA）、以及完整的 IPA + MoE 方法（Ours）。

實(shí)驗(yàn)結(jié)果表明，IPA 統(tǒng)一前端是性能提升的關(guān)鍵，將輸入由拼音替換為 IPA 后，WER 從 90% 以上顯著下降到 30%~40% 區(qū)間，MOS 評(píng)分也提升了 1~2 分。同時(shí)，Dialect-aware MoE 架構(gòu)能夠進(jìn)一步增強(qiáng)方言風(fēng)格，以西安話為例，WER 從 41.09% 降至 33.00%，MOS 從 2.33 提升到 3.15，表現(xiàn)出明顯的改進(jìn)。

最終，完整方案（MoE + IPA）在所有方言上都取得了最佳效果，不僅顯著降低了錯(cuò)誤率，也大幅提升了語(yǔ)音的自然度。這充分證明了 IPA 前端在解決跨方言發(fā)音歧義方面的有效性，以及 MoE 在強(qiáng)化方言建模上的重要作用，兩者結(jié)合成為 DiaMoE-TTS 的核心優(yōu)勢(shì)。

一句話總結(jié)

DiaMoE-TTS = IPA 前端統(tǒng)一化 + MoE 方言建模 + PEFT 低資源適配

在開(kāi)放數(shù)據(jù)驅(qū)動(dòng)下，實(shí)現(xiàn)低成本、低門檻、可擴(kuò)展的多方言語(yǔ)音合成方案。

通俗易懂版本：不用海量數(shù)據(jù)，也不用復(fù)雜流程，DiaMoE-TTS 就能讓更多方言在數(shù)字世界開(kāi)口說(shuō)話。

未來(lái)展望

DiaMoE-TTS 的全面開(kāi)源只是一個(gè)起點(diǎn)。未來(lái)，研究團(tuán)隊(duì)將持續(xù)擴(kuò)展更多方言與小語(yǔ)種的語(yǔ)料，完善 IPA 對(duì)齊與數(shù)據(jù)預(yù)處理流程，并探索更高效的低資源建模方法，讓方言語(yǔ)音合成的研究與應(yīng)用更加低門檻、更易復(fù)現(xiàn)。

同時(shí)，研究團(tuán)隊(duì)希望這一框架能夠讓全球的研究者與開(kāi)發(fā)者更便捷地參與到方言與小語(yǔ)種的語(yǔ)音技術(shù)研究中，讓它們不僅停留在實(shí)驗(yàn)室里被探索，更能在教育、文化保護(hù)、虛擬人、數(shù)字文旅與跨境交流等實(shí)際場(chǎng)景中發(fā)揮價(jià)值。他們相信，方言不應(yīng)在數(shù)字時(shí)代被遺忘，每一種語(yǔ)言都值得在數(shù)字世界被聽(tīng)見(jiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.