夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清華&巨人網(wǎng)絡(luò)首創(chuàng)MoE多方言TTS框架,數(shù)據(jù)代碼方法全開(kāi)源

0
分享至



無(wú)論是中文的粵語(yǔ)、閩南話、吳語(yǔ),還是歐洲的荷蘭比爾茨語(yǔ)方言、法國(guó)奧克語(yǔ),亦或是非洲和南美的地方語(yǔ)言,方言都承載著獨(dú)特的音系與文化記憶,是人類語(yǔ)言多樣性的重要組成部分。然而,許多方言正在快速消失,語(yǔ)音技術(shù)如果不能覆蓋這些語(yǔ)言,勢(shì)必加劇數(shù)字鴻溝與文化失聲。

在當(dāng)今大模型引領(lǐng)的語(yǔ)音合成時(shí)代,通用 TTS 系統(tǒng)已展現(xiàn)出令人驚嘆的能力,但方言 TTS 依然是相關(guān)從業(yè)者難以觸及的「灰色地帶」?,F(xiàn)有的工業(yè)級(jí)模型往往依賴巨量專有數(shù)據(jù),這讓方言 TTS 從業(yè)者和研究者幾乎無(wú)從下手:缺乏統(tǒng)一的語(yǔ)料構(gòu)建方法,更缺乏一個(gè)可實(shí)現(xiàn)多語(yǔ)言的端到端開(kāi)源框架。

為此,來(lái)自巨人網(wǎng)絡(luò) AI Lab 與清華大學(xué)電子工程系 SATLab 的研究團(tuán)隊(duì)聯(lián)合首創(chuàng)了DiaMoe-TTS—— 一個(gè)在一定程度上媲美工業(yè)級(jí)方言 TTS 模型的開(kāi)源全套解決方案。他們基于語(yǔ)言學(xué)家的專業(yè)經(jīng)驗(yàn),構(gòu)建了一個(gè)統(tǒng)一的 IPA 表達(dá)體系,并且在僅依賴開(kāi)源方言 ASR 數(shù)據(jù)的前提下提出這一方案。

在推出中文方言版本之前,研究團(tuán)隊(duì)已在英語(yǔ)、法語(yǔ)、德語(yǔ)、荷蘭比爾茨語(yǔ)等多語(yǔ)種場(chǎng)景中進(jìn)行過(guò)驗(yàn)證,確保該方法具備全球范圍內(nèi)多語(yǔ)言的可擴(kuò)展性與穩(wěn)健性。



最重要的是,DiaMoE-TTS 不僅僅是一個(gè)單點(diǎn)模型,而是一個(gè)面向?qū)W術(shù)界與開(kāi)源社區(qū)的全鏈路貢獻(xiàn)

  • 全開(kāi)源的數(shù)據(jù)預(yù)處理流程:讓研究者能夠從原始方言語(yǔ)音數(shù)據(jù)構(gòu)建 TTS-ready 方言語(yǔ)音語(yǔ)料;
  • 統(tǒng)一的 IPA 標(biāo)注與對(duì)齊方法:解決跨方言建模的一致性問(wèn)題;
  • 完整的訓(xùn)練與推理代碼:降低復(fù)現(xiàn)與擴(kuò)展的門檻;
  • 方言感知 MoE 架構(gòu)與低資源適配策略:為研究者提供穩(wěn)定、靈活且可拓展的建模方法。

巨人網(wǎng)絡(luò) AI Lab 與清華大學(xué)電子工程系 SATLab 希望借此推動(dòng)方言語(yǔ)音合成的公平與普惠:讓任何研究者、開(kāi)發(fā)者乃至語(yǔ)言文化保護(hù)工作者都能自由使用、改進(jìn)與擴(kuò)展這一框架;讓小眾語(yǔ)言與方言的聲音不再被淹沒(méi)在通用大模型的洪流中,而能通過(guò)開(kāi)源的力量被更廣泛地聽(tīng)見(jiàn)與傳承。



  • 論文題目:DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation
  • Arxiv 地址: https://www.arxiv.org/abs/2509.22727

代碼與訓(xùn)練推理腳本全面開(kāi)源

  • GitHub: https://github.com/GiantAILab/DiaMoE-TTS

數(shù)據(jù)構(gòu)建方法開(kāi)源:包含多方言 IPA 對(duì)齊語(yǔ)料生成流程,支持可復(fù)現(xiàn)的開(kāi)放式研究。

  • Checkpoint Huggingface: https://huggingface.co/RICHARD12369/DiaMoE_TTS
  • Dataset Huggingface: https://huggingface.co/datasets/RICHARD12369/DiaMoE-TTS_IPA_Trainingset

生成 demo

成都話:祝福大家前程似錦,順?biāo)橈L(fēng)。



鄭州話:祝你前途大好,成就非凡!



石家莊話:好的開(kāi)始,等于成功的一半兒。



西安話:祝愿大家前程似錦,夢(mèng)想成真。



粵語(yǔ):我系鐘意廣州嘅春天。



模型設(shè)計(jì)

統(tǒng)一 IPA 前端

在多方言語(yǔ)音合成中,使用拼音或字符輸入常常帶來(lái)嚴(yán)重的歧義與不一致問(wèn)題,例如相同字符在不同方言中可能對(duì)應(yīng)完全不同的發(fā)音。

DiaMoE-TTS 在前端設(shè)計(jì)中引入了國(guó)際音標(biāo)(IPA)作為統(tǒng)一的輸入體系,將所有方言的語(yǔ)音映射到同一音素空間。這種方式消除了跨方言間的差異性,使得模型能夠在統(tǒng)一的表征體系下進(jìn)行訓(xùn)練,保證了建模的一致性與泛化能力。



方言感知 Mixture-of-Experts (MoE) 架構(gòu)

在聲學(xué)建模部分,DiaMoE-TTS 設(shè)計(jì)了方言感知的 Mixture-of-Experts (MoE) 架構(gòu)。傳統(tǒng)的單一建模網(wǎng)絡(luò)在多方言任務(wù)下容易出現(xiàn)「風(fēng)格平均化」,導(dǎo)致各地方言的特色被弱化。MoE 結(jié)構(gòu)通過(guò)引入多個(gè)專家網(wǎng)絡(luò),讓不同的專家專注于學(xué)習(xí)不同方言的特征;同時(shí),動(dòng)態(tài)門控機(jī)制會(huì)根據(jù)輸入 IPA 自動(dòng)選擇最合適的專家路由,從而保證了每種方言的音色和韻律特點(diǎn)得以保留。

為了增強(qiáng)門控的區(qū)分能力,我們還加入了方言分類輔助損失,使專家網(wǎng)絡(luò)在訓(xùn)練時(shí)能夠更有針對(duì)性地建模方言特征。



低資源方言適配 (PEFT)

許多方言面臨極端的數(shù)據(jù)稀缺問(wèn)題,甚至僅有數(shù)小時(shí)的錄音語(yǔ)料。DiaMoE-TTS 提出了參數(shù)高效遷移 (PEFT)策略,分別在 text embedding 層和 DiT 的注意力層中融入了Conditioning AdapterLoRA,僅需微調(diào)少量參數(shù)即可完成方言擴(kuò)展,主干與 MoE 模塊保持凍結(jié),從而避免對(duì)已有知識(shí)的遺忘。

此外,研究團(tuán)隊(duì)還采用了音高擾動(dòng)與語(yǔ)速擾動(dòng)等數(shù)據(jù)增強(qiáng)手段,即便在超低資源條件下,模型也能合成自然、流暢且風(fēng)格鮮明的方言語(yǔ)音。

多階段訓(xùn)練方法

DiaMoE-TTS 的訓(xùn)練過(guò)程分為多個(gè)階段,以逐步提升模型性能并適應(yīng)方言多樣性:

  • IPA 遷移初始化

在 F5-TTS 原始 checkpoint 的基礎(chǔ)上,引入經(jīng)過(guò) IPA 音素轉(zhuǎn)換的 Emilia 部分?jǐn)?shù)據(jù),對(duì)模型進(jìn)行預(yù)熱訓(xùn)練,從而實(shí)現(xiàn)輸入形式從拼音字符到 IPA 的平滑遷移。

  • 多方言聯(lián)合訓(xùn)練

在統(tǒng)一 IPA 表達(dá)下,利用多個(gè)開(kāi)源方言數(shù)據(jù)(CommonVoice 和 KeSpeech)進(jìn)行聯(lián)合建模,同時(shí)激活 MoE 結(jié)構(gòu),使模型能夠?qū)W習(xí)共享特征并區(qū)分不同方言的發(fā)音模式。

  • 方言專家強(qiáng)化

通過(guò)動(dòng)態(tài)門控機(jī)制與方言分類輔助損失,進(jìn)一步優(yōu)化 MoE 的分流效果,讓各專家更好地捕捉不同方言的獨(dú)特特征。

  • 低資源快速適配

針對(duì)僅有數(shù)小時(shí)語(yǔ)料的新方言,采用 PEFT 策略(LoRA + Conditioning Adapter),結(jié)合音高 / 語(yǔ)速擾動(dòng)等數(shù)據(jù)增強(qiáng),實(shí)現(xiàn)高效遷移并保持已有知識(shí)不被遺忘。

這種多階段、漸進(jìn)式訓(xùn)練的方法,使 DiaMoE-TTS 能夠在保證穩(wěn)定性的同時(shí),兼顧跨方言泛化與低資源適配能力。

研究結(jié)果

通過(guò)圖表可以看到,在訓(xùn)練數(shù)據(jù)量較為充足(百小時(shí))的粵語(yǔ)上,DiaMoE-TTS 在WER、MOS 和 UTMOS三個(gè)指標(biāo)上均取得了接近工業(yè)界語(yǔ)音大模型的表現(xiàn)。而在上海話、成都話、西安話、鄭州話、天津話等其他方言(幾小時(shí)到幾十小時(shí)不等)的對(duì)比實(shí)驗(yàn)中,受限于開(kāi)源方言 ASR 數(shù)據(jù)在「質(zhì)量」與「規(guī)?!股系牟蛔悖P驼w表現(xiàn)略遜于部分工業(yè)級(jí)大模型。

但值得強(qiáng)調(diào)的是,DiaMoE-TTS 支持的方言范圍更廣,甚至可以擴(kuò)展到介于語(yǔ)音合成(TTS)與歌聲合成之間的特殊類型,如京劇韻白,并能在僅有極少量數(shù)據(jù)的情況下實(shí)現(xiàn)快速建模,這為方言保護(hù)與文化傳承提供了新的可能性。



在消融實(shí)驗(yàn)中,研究團(tuán)隊(duì)選擇了成都話、西安話、鄭州話、石家莊話四種方言,對(duì)比了三種不同配置:僅使用 IPA 的版本(w/o MoE)、僅使用 MoE 且輸入為拼音的版本(w/o IPA)、以及完整的 IPA + MoE 方法(Ours)。

實(shí)驗(yàn)結(jié)果表明,IPA 統(tǒng)一前端是性能提升的關(guān)鍵,將輸入由拼音替換為 IPA 后,WER 從 90% 以上顯著下降到 30%~40% 區(qū)間,MOS 評(píng)分也提升了 1~2 分。同時(shí),Dialect-aware MoE 架構(gòu)能夠進(jìn)一步增強(qiáng)方言風(fēng)格,以西安話為例,WER 從 41.09% 降至 33.00%,MOS 從 2.33 提升到 3.15,表現(xiàn)出明顯的改進(jìn)。

最終,完整方案(MoE + IPA)在所有方言上都取得了最佳效果,不僅顯著降低了錯(cuò)誤率,也大幅提升了語(yǔ)音的自然度。這充分證明了 IPA 前端在解決跨方言發(fā)音歧義方面的有效性,以及 MoE 在強(qiáng)化方言建模上的重要作用,兩者結(jié)合成為 DiaMoE-TTS 的核心優(yōu)勢(shì)。



一句話總結(jié)

DiaMoE-TTS = IPA 前端統(tǒng)一化 + MoE 方言建模 + PEFT 低資源適配

在開(kāi)放數(shù)據(jù)驅(qū)動(dòng)下,實(shí)現(xiàn)低成本、低門檻、可擴(kuò)展的多方言語(yǔ)音合成方案。

通俗易懂版本:不用海量數(shù)據(jù),也不用復(fù)雜流程,DiaMoE-TTS 就能讓更多方言在數(shù)字世界開(kāi)口說(shuō)話。

未來(lái)展望

DiaMoE-TTS 的全面開(kāi)源只是一個(gè)起點(diǎn)。未來(lái),研究團(tuán)隊(duì)將持續(xù)擴(kuò)展更多方言與小語(yǔ)種的語(yǔ)料,完善 IPA 對(duì)齊與數(shù)據(jù)預(yù)處理流程,并探索更高效的低資源建模方法,讓方言語(yǔ)音合成的研究與應(yīng)用更加低門檻、更易復(fù)現(xiàn)。

同時(shí),研究團(tuán)隊(duì)希望這一框架能夠讓全球的研究者與開(kāi)發(fā)者更便捷地參與到方言與小語(yǔ)種的語(yǔ)音技術(shù)研究中,讓它們不僅停留在實(shí)驗(yàn)室里被探索,更能在教育、文化保護(hù)、虛擬人、數(shù)字文旅與跨境交流等實(shí)際場(chǎng)景中發(fā)揮價(jià)值。他們相信,方言不應(yīng)在數(shù)字時(shí)代被遺忘,每一種語(yǔ)言都值得在數(shù)字世界被聽(tīng)見(jiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小米SU7成都事故后,雷軍首次現(xiàn)身演講!盡顯低調(diào),彈幕很多“雷總好久不見(jiàn),想你了雷總,雷總加油”

小米SU7成都事故后,雷軍首次現(xiàn)身演講!盡顯低調(diào),彈幕很多“雷總好久不見(jiàn),想你了雷總,雷總加油”

大白聊IT
2025-10-16 18:29:06
《再見(jiàn)愛(ài)人》林心如爆料,全場(chǎng)愣?。涸瓉?lái)她和霍建華是這樣過(guò)日子

《再見(jiàn)愛(ài)人》林心如爆料,全場(chǎng)愣住:原來(lái)她和霍建華是這樣過(guò)日子

娛樂(lè)圈十三太保
2025-10-17 17:51:34
哭哭啼啼的美財(cái)長(zhǎng)貝森特

哭哭啼啼的美財(cái)長(zhǎng)貝森特

新浪財(cái)經(jīng)
2025-10-17 20:13:51
李亞鵬的母親凌碧:已81歲,倆兒子都是老賴,曾和王菲爆發(fā)沖突

李亞鵬的母親凌碧:已81歲,倆兒子都是老賴,曾和王菲爆發(fā)沖突

葉公子
2025-10-18 00:05:13
小S獲獎(jiǎng)淚崩了,項(xiàng)鏈藏大S骨灰,由具俊曄設(shè)計(jì)制作,S媽感動(dòng)發(fā)聲

小S獲獎(jiǎng)淚崩了,項(xiàng)鏈藏大S骨灰,由具俊曄設(shè)計(jì)制作,S媽感動(dòng)發(fā)聲

陌識(shí)
2025-10-18 00:48:20
一女子因外陰癌走了,生前潔身自好,醫(yī)生:這兩個(gè)細(xì)節(jié)害人

一女子因外陰癌走了,生前潔身自好,醫(yī)生:這兩個(gè)細(xì)節(jié)害人

黃家湖的憂傷
2025-10-13 15:37:30
36歲哈登狀態(tài)令人擔(dān)憂!季前賽命中率不到37% 球探稱不如以往同期

36歲哈登狀態(tài)令人擔(dān)憂!季前賽命中率不到37% 球探稱不如以往同期

羅說(shuō)NBA
2025-10-18 06:09:05
哈馬斯人質(zhì)牌沒(méi)打好?釋放人質(zhì)后專家集體啞火,網(wǎng)友也開(kāi)始沉默!

哈馬斯人質(zhì)牌沒(méi)打好?釋放人質(zhì)后專家集體啞火,網(wǎng)友也開(kāi)始沉默!

眼光很亮
2025-10-16 09:51:57
馬克龍心腹來(lái)華,見(jiàn)了中國(guó)外長(zhǎng),法方?jīng)Q心已下,加入稀土“混戰(zhàn)”

馬克龍心腹來(lái)華,見(jiàn)了中國(guó)外長(zhǎng),法方?jīng)Q心已下,加入稀土“混戰(zhàn)”

南權(quán)先生
2025-10-17 15:15:04
10 秒視頻瘋傳!陳冠希上海酒店發(fā)飆,45 歲仍收不住暴脾氣

10 秒視頻瘋傳!陳冠希上海酒店發(fā)飆,45 歲仍收不住暴脾氣

第一娛記
2025-10-17 16:20:29
張文宏直言:不管你信不信,老人過(guò)了80歲,基本都有如下7個(gè)現(xiàn)狀

張文宏直言:不管你信不信,老人過(guò)了80歲,基本都有如下7個(gè)現(xiàn)狀

黃河新流域
2025-09-28 13:34:43
今夜,逆轉(zhuǎn)了

今夜,逆轉(zhuǎn)了

中國(guó)基金報(bào)
2025-10-18 00:12:28
都見(jiàn)不得中國(guó)強(qiáng)大!殲10出口引發(fā)全球熱議,德國(guó)專家:我等不及了

都見(jiàn)不得中國(guó)強(qiáng)大!殲10出口引發(fā)全球熱議,德國(guó)專家:我等不及了

聞識(shí)
2025-10-17 21:12:53
謝孟偉竟讓全國(guó)網(wǎng)友笑出腹肌

謝孟偉竟讓全國(guó)網(wǎng)友笑出腹肌

娘娘不想上班
2025-10-17 16:19:39
已晉級(jí)世界杯,加納主帥:曾拒絕我們的球員現(xiàn)在想加入很困難

已晉級(jí)世界杯,加納主帥:曾拒絕我們的球員現(xiàn)在想加入很困難

懂球帝
2025-10-17 17:02:53
“這種女兒,誰(shuí)能養(yǎng)得起?”一頓12元的早餐,讓母親情緒當(dāng)場(chǎng)崩潰

“這種女兒,誰(shuí)能養(yǎng)得起?”一頓12元的早餐,讓母親情緒當(dāng)場(chǎng)崩潰

妍妍教育日記
2025-10-16 14:10:12
上海丈夫高智商殺妻,將妻子喂成300斤胖子,讓她幸福死去

上海丈夫高智商殺妻,將妻子喂成300斤胖子,讓她幸福死去

如煙若夢(mèng)
2025-03-14 21:33:45
雷軍走下神壇,下一個(gè)是誰(shuí)?

雷軍走下神壇,下一個(gè)是誰(shuí)?

今綸財(cái)經(jīng)
2025-10-17 12:53:59
貪財(cái)又好色的5位老藝術(shù)家,做事毫無(wú)底線,晚節(jié)不保一點(diǎn)都不冤

貪財(cái)又好色的5位老藝術(shù)家,做事毫無(wú)底線,晚節(jié)不保一點(diǎn)都不冤

冷紫葉
2025-10-13 16:59:28
她因生不出兒子被軟禁16年,31歲再嫁19歲小鮮肉,連生5個(gè)兒子!

她因生不出兒子被軟禁16年,31歲再嫁19歲小鮮肉,連生5個(gè)兒子!

百態(tài)人間
2025-10-16 15:38:43
2025-10-18 06:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11494文章數(shù) 142485關(guān)注度
往期回顧 全部

科技要聞

對(duì)話投資人李強(qiáng):硅谷AI創(chuàng)業(yè)者走“窄門”

頭條要聞

涉嫌支持臺(tái)軍心戰(zhàn)大隊(duì) 5家企業(yè)主營(yíng)業(yè)務(wù)被曝光

頭條要聞

涉嫌支持臺(tái)軍心戰(zhàn)大隊(duì) 5家企業(yè)主營(yíng)業(yè)務(wù)被曝光

體育要聞

灰熊不可能梭哈,安安穩(wěn)穩(wěn)過(guò)日子才是真

娛樂(lè)要聞

這5位明星,他們還能靠演技翻紅嗎?

財(cái)經(jīng)要聞

許家印家族財(cái)富隔離神話是如何破滅的?

汽車要聞

2026款海豹07 DM-i 功能全面升級(jí)/還有激光雷達(dá)

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
時(shí)尚
家居
軍事航空

房產(chǎn)要聞

珠江畔再啟新章!未來(lái)方洲二期亮相,為廣州定制“一生幸福之城”

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今年秋冬最美的搭配:毛衣+裙子,減齡又氣質(zhì)!

家居要聞

因異而生 古今文脈交融

軍事要聞

以色列與哈馬斯互指對(duì)方未遵守停火協(xié)議

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲无码成人高清久久| 我和漂亮邻居少妇偷晴| 国产三区精品| 九色丨PORNY丨窝窝| 91福利视频一区二区| 狠狠躁夜夜躁人人爽天天爽| 性欧美在线| 亚洲日韩电影网| 伊人色在线视频| 永久免费av无码网站性色av| 国产av亚洲一区二区| 色欲av网站| 免费观看精品视频999| 亚洲av短片| 亚洲aⅴ无码成人网站国产app | 91熟女乱色一区二区三区| 狠狠躁日日躁夜夜躁欧美老妇 | 国产自愉自愉免费精品七区| AV天堂国产资源电影| 国产69精品久久久久乱码韩国| 又湿又黄裸乳漫画无遮挡网站| 久久精品丝袜| 少妇被粗大猛进去69影院| 成人午夜高潮免费视频在线观看 | 午亱毛片美女操屄视频| 日韩系列无码一中文字暮| 久久鸡热视频这里只有精品| 中文字幕在线亚洲精品| 国产亚洲精品精华液| 国产精品伦理久久久久| 人人看天天做夜夜爽| free少妇交换videos| 一区二区三区综合| 少妇熟女极品久久| 夜夜躁曰曰躁AAAAXXXX| 日本啪啪18禁| 无码国产成人午夜电影在线观看| 亚洲AV无码理论亚洲毛片| 成人又黄又爽又色的视频| 日本人jzjzjz视频在线观看| 国产精品久久久噜噜噜久久久|