允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
市面上很多的語(yǔ)音模型已經(jīng)能保證足夠自然的合成表現(xiàn),但在音質(zhì)、韻律、情感,以及多角色演繹上還有探索空間。特別是在小說(shuō)演播場(chǎng)景下,想要媲美一流主播細(xì)膩的演播效果,要做好旁白和角色的區(qū)分演繹、角色情感的精確表達(dá)、不同角色的區(qū)分度等。
傳統(tǒng)的小說(shuō)TTS生成方式,需要提前給對(duì)話(huà)旁白、情感、角色打標(biāo)簽,而豆包語(yǔ)音模型則可以做到端到端合成,無(wú)需額外標(biāo)簽標(biāo)注。
△傳統(tǒng)語(yǔ)音模型和豆包語(yǔ)音模型合成鏈路的區(qū)別
改進(jìn)Seed-TTS技術(shù),合成語(yǔ)音效果媲美真人
原始Seed-TTS(技術(shù)報(bào)告:https://arxiv.org/pdf/2406.02430)是一種自回歸文本到語(yǔ)音模型,主要分為4個(gè)主要模塊:Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。
其中Speech Tokenizer解析了參考音頻信息,決定了合成音頻的音色和全局風(fēng)格;Autoregressive Transformer接收傳入的目標(biāo)文本和Speech Tokenizer的輸出,進(jìn)而生成出包含語(yǔ)義信息的Semantic Token;Diffusion Model會(huì)基于Semantic Token建模出包含語(yǔ)音信息的Acoustic Token;Acoustic Vocoder負(fù)責(zé)將Acoustic Token重建還原出最終的音頻。
△原始Seed-TTS架構(gòu)
為進(jìn)一步提升小說(shuō)演播下的語(yǔ)音表現(xiàn)力和長(zhǎng)文本的理解,豆包技術(shù)團(tuán)隊(duì)對(duì)Seed-TTS進(jìn)行了改進(jìn)
- 在數(shù)據(jù)上,小說(shuō)音頻做章節(jié)級(jí)別處理,保證了長(zhǎng)文下的語(yǔ)音一致性和連貫性。
- 在特征上,融合TTS前端提取的音素、音調(diào)、韻律信息和原始文本,提升發(fā)音和韻律的同時(shí),保留小說(shuō)語(yǔ)義。
- 在結(jié)構(gòu)上,將speech tokenizer改為speaker embedding,解除reference audio對(duì)于語(yǔ)音風(fēng)格的限制,因而同一個(gè)發(fā)音人能在不同角色上作出更貼合人設(shè)的演繹。
- 最后在目標(biāo)合成文本之外,額外加入了上下文的信息,從而使得模型能夠感知更大范圍的語(yǔ)義信息,旁白和角色音表現(xiàn)更精準(zhǔn)到位。
經(jīng)過(guò)專(zhuān)業(yè)評(píng)測(cè),優(yōu)化后的豆包語(yǔ)音模型在小說(shuō)演播場(chǎng)景,CMOS(Comparative Mean Opinion Score,與真人打?qū)Ρ确值囊环N主觀(guān)評(píng)分方式)已達(dá)一流主播的90%+效果。
△優(yōu)化后的豆包語(yǔ)音模型結(jié)構(gòu)
技術(shù)落地番茄小說(shuō),惠及聽(tīng)書(shū)用戶(hù)
豆包語(yǔ)音大模型團(tuán)隊(duì)以王明軍、李滿(mǎn)超兩位演播圈大咖的聲音為基礎(chǔ),采用新技術(shù)合成的千部有聲書(shū),已上線(xiàn)番茄小說(shuō),題材覆蓋了歷史、懸疑、靈異、都市、腦洞、科幻等熱門(mén)書(shū)目類(lèi)型。
據(jù)了解,未來(lái)豆包語(yǔ)音模型會(huì)繼續(xù)探索前沿科技與業(yè)務(wù)場(chǎng)景的結(jié)合,追求更極致的“聽(tīng)”體驗(yàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.