微軟已升級(jí)Azure AI Speech服務(wù),用戶現(xiàn)在只需幾秒鐘的音頻樣本就能快速生成令人信服的語音復(fù)制品。
個(gè)人語音功能于2024年5月21日正式發(fā)布。雖然之前版本已經(jīng)相當(dāng)出色,但需要一定的訓(xùn)練才能獲得最佳效果。據(jù)微軟介紹,該功能已升級(jí)為名為"DragonV2.1Neural"的全新零樣本文本轉(zhuǎn)語音模型,能夠生成"更自然、更富表現(xiàn)力的語音",并支持100多種語言的音頻生成。
微軟表示,與之前的模型相比,此次升級(jí)"在語音自然度方面帶來了顯著改進(jìn),提供更真實(shí)穩(wěn)定的韻律,同時(shí)保持更好的發(fā)音準(zhǔn)確性"。
這一原本就相當(dāng)出色的系統(tǒng)現(xiàn)在變得更加準(zhǔn)確,令人擔(dān)憂。微軟稱:"這項(xiàng)能力開啟了廣泛的應(yīng)用場(chǎng)景,從定制聊天機(jī)器人語音到用演員原聲為視頻內(nèi)容進(jìn)行多語言配音,實(shí)現(xiàn)真正沉浸式的個(gè)性化音頻體驗(yàn)。"
然而,這項(xiàng)技術(shù)也可能被惡意或欺騙性目的所利用,我們可以想象使用該服務(wù)制作的音頻深度偽造內(nèi)容將變得越來越難以識(shí)別。
但不必?fù)?dān)心——除了添加水印以便更容易識(shí)別生成的音頻(盡管人耳無法聽出),微軟堅(jiān)持表示"所有客戶都必須同意我們的使用政策,包括要求獲得原始說話者的明確同意、披露所創(chuàng)建內(nèi)容的合成性質(zhì),以及禁止冒充任何人或使用個(gè)人語音服務(wù)欺騙他人"。
微軟并非首家提供僅需幾秒音頻即可克隆用戶語音服務(wù)的公司。今年早些時(shí)候,總部位于帕洛阿爾托的AI初創(chuàng)公司Zyphra推出了一對(duì)開源文本轉(zhuǎn)語音模型,聲稱只需幾秒鐘的音頻樣本。在我們的測(cè)試中發(fā)現(xiàn),大約需要30秒的語音樣本才能創(chuàng)建出令人毛骨悚然的準(zhǔn)確效果。
近年來,AI語音克隆已成為一個(gè)嚴(yán)重問題,因?yàn)榧夹g(shù)發(fā)展速度超過了安全保障措施。今年3月,《消費(fèi)者報(bào)告》指出四家提供AI語音克隆軟件的公司未能提供有意義的安全保障,而FBI也警告稱,詐騙者正在使用美國(guó)政府高級(jí)官員的深度偽造語音進(jìn)行大規(guī)模欺詐活動(dòng)。
Q&A
Q1:Azure AI Speech的個(gè)人語音功能有什么新升級(jí)?
A:微軟將Azure AI Speech升級(jí)為"DragonV2.1Neural"零樣本文本轉(zhuǎn)語音模型,只需幾秒鐘音頻樣本就能生成更自然、更富表現(xiàn)力的語音復(fù)制品,支持100多種語言,在語音自然度、韻律穩(wěn)定性和發(fā)音準(zhǔn)確性方面都有顯著改進(jìn)。
Q2:AI語音克隆技術(shù)存在哪些安全風(fēng)險(xiǎn)?
A:AI語音克隆可能被用于惡意或欺騙目的,包括制作難以識(shí)別的音頻深度偽造內(nèi)容。FBI已經(jīng)警告詐騙者正在使用深度偽造的政府官員語音進(jìn)行大規(guī)模欺詐活動(dòng),這項(xiàng)技術(shù)的發(fā)展速度已經(jīng)超過了安全保障措施。
Q3:微軟采取了哪些措施來防止AI語音克隆被濫用?
A:微軟要求所有客戶同意使用政策,包括必須獲得原始說話者的明確同意、披露內(nèi)容的合成性質(zhì)、禁止冒充他人或欺騙用戶。此外,生成的音頻還會(huì)添加水印以便識(shí)別,盡管人耳無法直接聽出。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.