有沒(méi)有注意到——
現(xiàn)在AI語(yǔ)音配音的視頻越來(lái)越多了:短視頻里的語(yǔ)音講解,播客、廣告、小說(shuō)朗讀,新聞解說(shuō),都開(kāi)始采用AI配音。
除了最基礎(chǔ)的TTS(Text-to-Speech)語(yǔ)音合成技術(shù),現(xiàn)在的AI語(yǔ)音已經(jīng)進(jìn)入了擬真階段。比如VALL-E、ChatTTS、OpenVoice等技術(shù),能自動(dòng)根據(jù)語(yǔ)義生成AI語(yǔ)音,甚至可以做聲音風(fēng)格遷移。只要你上傳原聲,AI就能克隆聲音,復(fù)刻你的音色、語(yǔ)速、語(yǔ)調(diào)、情緒特征,甚至模仿地方口音,讓馬斯克也能說(shuō)上一口東北話。
技術(shù)確實(shí)進(jìn)步得令人驚艷。聲音清晰標(biāo)準(zhǔn)、節(jié)奏平穩(wěn)、語(yǔ)調(diào)自然。挑不出毛病但就是感覺(jué)怪怪的,帶著一種不自然的違和感。仿佛在聽(tīng)一個(gè)沒(méi)有靈魂的演員在念臺(tái)詞。
為什么會(huì)這樣?
人類(lèi)的情感雷達(dá)有多靈
你聽(tīng)不出問(wèn)題,但你就是知道“它不是人”。
這其實(shí)是人類(lèi)大腦的奇妙能力。我們對(duì)人聲的識(shí)別感知是超強(qiáng)的,尤其對(duì)于語(yǔ)氣、情緒、真假感這些層面的感知,很多時(shí)候聽(tīng)到的話還沒(méi)過(guò)腦子,潛意識(shí)就已經(jīng)都識(shí)別好了。
人類(lèi)聽(tīng)聲音并不是聽(tīng)字面,而是在聽(tīng)情緒底色:
女友打電話說(shuō):“你開(kāi)心就好”
你一聽(tīng)就知道自己能不能好得了。
上司說(shuō):“這個(gè)項(xiàng)目你來(lái)負(fù)責(zé)吧。”
你能瞬間感受到這是一句信任還是推鍋試探。
心理學(xué)家 Klaus Scherer 早在1994年就提出:人類(lèi)對(duì)語(yǔ)音中的情緒真實(shí)性具有極高敏感性 ,能從中分辨真假情緒、心理狀態(tài)和意圖。
演化心理學(xué)認(rèn)為,人類(lèi)對(duì)語(yǔ)音中的細(xì)微情緒差異有極強(qiáng)的識(shí)別力,是因?yàn)樵谶h(yuǎn)古社會(huì)有語(yǔ)言之前,我們通過(guò)聲音判斷敵意、愉快、求助。人類(lèi)社會(huì)極度依賴(lài)協(xié)作與信任,判斷「對(duì)方在想什么」至關(guān)重要;而聲音是最即時(shí)的線索,它包含了說(shuō)話者的肌肉張力、呼吸頻率、情緒流動(dòng)等無(wú)法隱藏的信號(hào)。
AI聲音為什么總差點(diǎn)意思?
所以,AI配音的問(wèn)題出在哪?我們先從底層機(jī)制開(kāi)始聊起。
一、模型結(jié)構(gòu)決定了它只能“模仿”
盡管AI語(yǔ)音合成技術(shù)(TTS, Text-to-Speech)已經(jīng)非常成熟,甚至能模仿特定人的音色、語(yǔ)調(diào)和語(yǔ)速,但它的生成邏輯本質(zhì)上是一套“拼裝合成”流程,而不是一種帶有動(dòng)機(jī)的表達(dá)行為。
TTS 的常規(guī)工作流包括這幾個(gè)步驟:
文本分析:把輸入文字轉(zhuǎn)成音素(比如漢語(yǔ)拼音)和語(yǔ)法標(biāo)簽。
韻律預(yù)測(cè):模型嘗試預(yù)測(cè)每個(gè)音節(jié)的音高、時(shí)長(zhǎng)、停頓、重音。
聲學(xué)建模:用深度神經(jīng)網(wǎng)絡(luò)生成聲譜圖(頻率-時(shí)間圖)。
波形合成:最后通過(guò)Vocoder(如WaveNet、HiFi-GAN)還原成音頻。
聽(tīng)起來(lái)復(fù)雜,核心就是兩件事:模式識(shí)別 + 生成拼接。這種機(jī)制像是在完成一次高質(zhì)量朗讀,但缺少人類(lèi)語(yǔ)言中最本質(zhì)的東西:臨場(chǎng)的情緒驅(qū)動(dòng)和表達(dá)動(dòng)因。像 FastSpeech2、VITS這類(lèi)模型,引入emotion embedding 和 style control,確實(shí)可以讓AI聲音在快樂(lè)、悲傷、憤怒間切換。但這種控制都是外部標(biāo)簽驅(qū)動(dòng),不基于上下文,更不是基于理解人類(lèi)說(shuō)話時(shí)的微妙心理博弈。
人類(lèi)復(fù)雜的情感決定了天生是潛臺(tái)詞高手,說(shuō)話的含義高度依賴(lài)于當(dāng)時(shí)的文化、關(guān)系、語(yǔ)境:
“你開(kāi)心就好” 其實(shí)不太好,AI以為是欣慰;
“你行你上” 其實(shí)破防了,AI以為是鼓勵(lì);
“你可真棒啊” 有嘲諷的可能,但AI用了贊嘆語(yǔ)氣;
AI在理解人類(lèi)文字游戲(比如暗示、高級(jí)黑、反諷、含蓄委婉)的能力還不夠,情緒和真實(shí)語(yǔ)義一旦分離,表達(dá)就會(huì)失真。
另外,TTS模型的“中庸主義”也導(dǎo)致了情感的扁平。
當(dāng)前主流的TTS模型大多是通過(guò)學(xué)習(xí)海量語(yǔ)音樣本的平均說(shuō)法來(lái)合成聲音,最終生成一個(gè)最“合理”的聲音版本。這種方式雖然聽(tīng)起來(lái)自然通順,但也導(dǎo)致每一句話的情緒都被磨平了,失去了人類(lèi)語(yǔ)言中的個(gè)性、突發(fā)性和情緒張力,就像套了個(gè)情緒模版。所以說(shuō),韻律模型學(xué)的是“常態(tài)”而不是“狀態(tài)”,少了臨場(chǎng)變化。比如人生氣時(shí),說(shuō)話會(huì)變得高頻 + 不規(guī)則,但AI仍然在平穩(wěn)地表達(dá)憤怒,所以聽(tīng)起來(lái)就少了點(diǎn)活人感。
即便是當(dāng)前最先進(jìn)的生成式語(yǔ)音模型,如微軟的 VALL-E,也并未跳出這一結(jié)構(gòu)。它采用類(lèi)似語(yǔ)言模型(可以理解為GPT for Speech)的機(jī)制,將3秒音頻樣本壓縮成離散Token,然后根據(jù)文本預(yù)測(cè)下一個(gè)聲音片段,從而實(shí)現(xiàn)音色+語(yǔ)氣+風(fēng)格的保留與復(fù)現(xiàn)。
▲ 圖 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)
在音色和語(yǔ)速上無(wú)限接近真人,但本質(zhì)上仍是TTS框架上的優(yōu)化 —— 用數(shù)據(jù)拼出一個(gè)最可能的音軌,并不是理解你在說(shuō)什么,也不是在用你的動(dòng)機(jī)說(shuō)話。
▲ 圖 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)
VALL-E原始論文也明確表示,雖然咱訓(xùn)練了 60000 小時(shí)的數(shù)據(jù),但訓(xùn)練語(yǔ)料偏向朗讀風(fēng)格,沒(méi)法很好地處理日常社交語(yǔ)境下的臨場(chǎng)語(yǔ)言變調(diào)。簡(jiǎn)單說(shuō)就是:它很會(huì)“讀”,但不會(huì)“聊”。
本質(zhì)上,人說(shuō)話是流露情緒,AI是表演情緒,是依靠風(fēng)格遷移或標(biāo)簽控制。就比如你告訴AI這句話是悲傷的,AI 就像演員照著“哭戲模板”演一場(chǎng)戲,缺少根本上的情緒動(dòng)因。
二、AI聲音太干凈,因?yàn)樗鼪](méi)有“身體”
我們常說(shuō)一個(gè)人“聽(tīng)起來(lái)像剛哭過(guò)”、“說(shuō)話帶著笑意”,就是因?yàn)槿祟?lèi)的聲音從來(lái)不是一個(gè)孤立的音頻,而是整個(gè)身體與情緒系統(tǒng)協(xié)同工作的結(jié)果。而AI配音只是一段合成音軌,聲波的真實(shí)感都被壓平了。雖然在音色上可以擬真,但缺少身體的痕跡:沒(méi)有微喘氣聲、喉嚨的不穩(wěn)定震動(dòng),肌肉張力變化、吞咽、停頓、情緒導(dǎo)致的呼吸節(jié)奏改變,就像水煮聲音,干凈到不真實(shí)。
AI語(yǔ)音合成的技術(shù)美,恰恰成了它最大的“不自然”之源 —— 它太規(guī)則、太理性,而人聲是情緒、混亂、張力與身體的共鳴。
但這一切并不是AI的問(wèn)題,是人類(lèi)的說(shuō)話方式太高級(jí)。人說(shuō)話時(shí),說(shuō)的不只是內(nèi)容,也在表達(dá)“我是誰(shuí)”、“我對(duì)你的態(tài)度”、“我現(xiàn)在的心情”。
它本質(zhì)上包含了:多模態(tài)信號(hào)(語(yǔ)音+表情+姿勢(shì)+節(jié)奏)、動(dòng)態(tài)反饋機(jī)制(根據(jù)對(duì)方反應(yīng)調(diào)整語(yǔ)氣)、高度文化依賴(lài)(不同場(chǎng)合、不同關(guān)系說(shuō)話完全不同)。 這三者之間要高度一致,才會(huì)讓人覺(jué)得自然。
AI語(yǔ)音會(huì)變得更好嗎?
會(huì)。
現(xiàn)在很多研究正在努力讓AI的聲音更像人, “Speaking Style Modeling” 是近年來(lái)TTS研究的新方向,嘗試加入更多變異性與即興性。 比如 EmotionFlow 試圖模擬情緒隨語(yǔ)義流動(dòng)的自然曲線 (semantic-aware prosody modeling) ,替代以往貼情緒標(biāo)簽的方式;Context-Aware TTS 加入上下文建模來(lái)預(yù)測(cè)說(shuō)話語(yǔ)境與角色身份、StyleSpeech、GST-Tacotron等模型聚焦于模仿人類(lèi)說(shuō)話風(fēng)格,比如開(kāi)玩笑、嘆氣、嘲諷的語(yǔ)調(diào)。但這一切離“有靈魂的表達(dá)”還有段距離,因?yàn)閷?duì)情緒動(dòng)因和表達(dá)意圖的理解, 還需要人類(lèi)的社會(huì)化經(jīng)驗(yàn)。
核心問(wèn)題在于:AI沒(méi)有“心”。
它沒(méi)有動(dòng)機(jī),沒(méi)有關(guān)系感,也沒(méi)有“對(duì)誰(shuí)說(shuō)”的意識(shí)。只要它不能理解自己說(shuō)這句話的目的和狀態(tài),它的語(yǔ)音就永遠(yuǎn)是模擬,而不是表達(dá)。
人類(lèi)交流的本質(zhì),其實(shí)是在感知一個(gè)靈魂在用身體表達(dá)自己,而AI說(shuō)話,是一個(gè)程序在模仿這個(gè)過(guò)程,這之間的差距是生命。
但話又說(shuō)回來(lái),當(dāng)未來(lái)某一天,AI聲音真實(shí)到你無(wú)法分辨“是誰(shuí)在說(shuō)話”時(shí),你還在乎那是不是“人”嗎?
AI可以代替人說(shuō)話了,那么誰(shuí)來(lái)對(duì)這些話負(fù)責(zé)?我們是否愿意相信一個(gè)沒(méi)有動(dòng)機(jī)、沒(méi)有關(guān)系、沒(méi)有情感內(nèi)驅(qū)力的說(shuō)話者?
說(shuō)話的本質(zhì),是表達(dá)、是共情、是人際的回應(yīng)。如果這也被徹底外包給算法,我們與AI的界限又還剩多少?
end
[1] Shen, J. et al. (2018). Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. arXiv preprint arXiv:1712.05884. https://arxiv.org/abs/1712.05884
[2] Ren, Y. et al. (2020). FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. arXiv preprint arXiv:2006.04558. https://arxiv.org/abs/2006.04558
[3] Kim, J. et al. (2021). Conditional Variational Autoencoder with Adversarial Learning for End-to-End Emotional Speech Synthesis. arXiv preprint arXiv:2106.06103. https://arxiv.org/abs/2106.06103
[4] Wang, C. et al. (2023). VALL-E: Zero-Shot Text-to-Speech with Audio Codec Models. arXiv preprint arXiv:2301.02111. https://arxiv.org/abs/2301.02111
[5] Crawford, K. (2021). Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press. https://yalebooks.yale.edu/book/9780300209570/atlas-of-ai/
[6] Resemble.ai. (n.d.). Resemble.ai – Voice Cloning & AI Speech Generation. https://www.resemble.ai/
[7] EmotionFlow Team. (n.d.). EmotionFlow: Let AI Speak with Emotions. https://emotionflow-demo.github.io/
[8] The Verge. (2023). AI voice is getting eerily good. Are we ready? https://www.theverge.com/2023/7/12/ai-voice-deepfake-elevenlabs-ethics
來(lái)源:DataCafe
編輯:月
轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)
不代表中科院物理所立場(chǎng)
如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.