網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Azure AI Speech升級(jí)：僅需幾秒音頻即可生成逼真

2025-08-01 23:46:04　來源: 至頂頭條

北京舉報(bào)

分享至

微軟已升級(jí)Azure AI Speech服務(wù)，用戶現(xiàn)在只需幾秒鐘的音頻樣本就能快速生成令人信服的語音復(fù)制品。

個(gè)人語音功能于2024年5月21日正式發(fā)布。雖然之前版本已經(jīng)相當(dāng)出色，但需要一定的訓(xùn)練才能獲得最佳效果。據(jù)微軟介紹，該功能已升級(jí)為名為"DragonV2.1Neural"的全新零樣本文本轉(zhuǎn)語音模型，能夠生成"更自然、更富表現(xiàn)力的語音"，并支持100多種語言的音頻生成。

微軟表示，與之前的模型相比，此次升級(jí)"在語音自然度方面帶來了顯著改進(jìn)，提供更真實(shí)穩(wěn)定的韻律，同時(shí)保持更好的發(fā)音準(zhǔn)確性"。

這一原本就相當(dāng)出色的系統(tǒng)現(xiàn)在變得更加準(zhǔn)確，令人擔(dān)憂。微軟稱："這項(xiàng)能力開啟了廣泛的應(yīng)用場(chǎng)景，從定制聊天機(jī)器人語音到用演員原聲為視頻內(nèi)容進(jìn)行多語言配音，實(shí)現(xiàn)真正沉浸式的個(gè)性化音頻體驗(yàn)。"

然而，這項(xiàng)技術(shù)也可能被惡意或欺騙性目的所利用，我們可以想象使用該服務(wù)制作的音頻深度偽造內(nèi)容將變得越來越難以識(shí)別。

但不必?fù)?dān)心——除了添加水印以便更容易識(shí)別生成的音頻（盡管人耳無法聽出），微軟堅(jiān)持表示"所有客戶都必須同意我們的使用政策，包括要求獲得原始說話者的明確同意、披露所創(chuàng)建內(nèi)容的合成性質(zhì)，以及禁止冒充任何人或使用個(gè)人語音服務(wù)欺騙他人"。

微軟并非首家提供僅需幾秒音頻即可克隆用戶語音服務(wù)的公司。今年早些時(shí)候，總部位于帕洛阿爾托的AI初創(chuàng)公司Zyphra推出了一對(duì)開源文本轉(zhuǎn)語音模型，聲稱只需幾秒鐘的音頻樣本。在我們的測(cè)試中發(fā)現(xiàn)，大約需要30秒的語音樣本才能創(chuàng)建出令人毛骨悚然的準(zhǔn)確效果。

近年來，AI語音克隆已成為一個(gè)嚴(yán)重問題，因?yàn)榧夹g(shù)發(fā)展速度超過了安全保障措施。今年3月，《消費(fèi)者報(bào)告》指出四家提供AI語音克隆軟件的公司未能提供有意義的安全保障，而FBI也警告稱，詐騙者正在使用美國(guó)政府高級(jí)官員的深度偽造語音進(jìn)行大規(guī)模欺詐活動(dòng)。

Q&A

Q1：Azure AI Speech的個(gè)人語音功能有什么新升級(jí)？

A：微軟將Azure AI Speech升級(jí)為"DragonV2.1Neural"零樣本文本轉(zhuǎn)語音模型，只需幾秒鐘音頻樣本就能生成更自然、更富表現(xiàn)力的語音復(fù)制品，支持100多種語言，在語音自然度、韻律穩(wěn)定性和發(fā)音準(zhǔn)確性方面都有顯著改進(jìn)。

Q2：AI語音克隆技術(shù)存在哪些安全風(fēng)險(xiǎn)？

A：AI語音克隆可能被用于惡意或欺騙目的，包括制作難以識(shí)別的音頻深度偽造內(nèi)容。FBI已經(jīng)警告詐騙者正在使用深度偽造的政府官員語音進(jìn)行大規(guī)模欺詐活動(dòng)，這項(xiàng)技術(shù)的發(fā)展速度已經(jīng)超過了安全保障措施。

Q3：微軟采取了哪些措施來防止AI語音克隆被濫用？

A：微軟要求所有客戶同意使用政策，包括必須獲得原始說話者的明確同意、披露內(nèi)容的合成性質(zhì)、禁止冒充他人或欺騙用戶。此外，生成的音頻還會(huì)添加水印以便識(shí)別，盡管人耳無法直接聽出。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.