近年來(lái),語(yǔ)音通信作為最直接的信息交流方式,廣泛應(yīng)用于無(wú)線通信領(lǐng)域,但也面臨語(yǔ)音合成、錄音回放和語(yǔ)音模仿等欺騙性攻擊的威脅。與指紋、面部虹膜、DNA等生物識(shí)別技術(shù)相比,聲紋識(shí)別具有動(dòng)態(tài)、非接觸和遠(yuǎn)程實(shí)施的優(yōu)勢(shì),尤其適用于電信防詐騙等場(chǎng)景。然而,現(xiàn)有聲學(xué)傳感器在聲電轉(zhuǎn)換性能、信號(hào)提取能力和復(fù)雜環(huán)境下的識(shí)別效果方面仍存在顯著不足,尤其是傳統(tǒng)傳感器在靈敏度、帶寬和功耗方面的局限,制約了聲紋識(shí)別技術(shù)的發(fā)展。
針對(duì)上述挑戰(zhàn),華中科技大學(xué)王云明教授、李貴剛教授和國(guó)防科技大學(xué)Xu Lingjuan合作成功研制出一種基于L-聚乳酸/絲素蛋白(PLLA/SF)的聲學(xué)驅(qū)動(dòng)納米纖維氣凝膠(ANA),該材料具備三維多孔結(jié)構(gòu),能夠在聲波激勵(lì)下產(chǎn)生顯著的結(jié)構(gòu)形變,從而提升聲電轉(zhuǎn)換性能。該器件在90–1000 Hz范圍內(nèi)實(shí)現(xiàn)寬頻響應(yīng),靈敏度高達(dá)16 V·Pa?1,最大輸出電壓和電流分別達(dá)到65.6 V和10.59 μA,頻率分辨率優(yōu)于1 Hz。通過對(duì)其電響應(yīng)信號(hào)進(jìn)行特征頻譜分析,該傳感器可有效識(shí)別說(shuō)話人身份與情緒狀態(tài),為未來(lái)自供電人機(jī)語(yǔ)音交互系統(tǒng)提供了新思路。相關(guān)論文以“Piezoelectric Voiceprint Recognition Based on 3D Nanofiber Aerogel”為題,發(fā)表在
Advanced Functional Materials上,論文第一作者為Xia Weibang。
在研究過程中,團(tuán)隊(duì)通過濕法靜電紡絲與水基聚氨酯復(fù)合交聯(lián)的策略,構(gòu)建出結(jié)構(gòu)穩(wěn)定的三維納米纖維網(wǎng)絡(luò)。圖1a展示了PLLA/SF ANA用于聲紋識(shí)別的示意圖。隨后,圖1b顯示不同納米分散濃度(1%、3%和5%)下材料在90–1000 Hz頻帶內(nèi)的輸出電壓表現(xiàn),其中3%濃度下性能最優(yōu)。圖1c進(jìn)一步表明,該傳感器能準(zhǔn)確識(shí)別包含100、110和120 Hz的復(fù)合音頻信號(hào),經(jīng)快速傅里葉變換(FFT)分析后,頻譜峰值與原始信號(hào)高度一致。此外,當(dāng)帶有“悲傷”情緒說(shuō)出“Good luck”時(shí),傳感器不僅能提取時(shí)間域上的振幅起伏、間隔停頓等特征,還能在頻域上識(shí)別出140 Hz和284 Hz等情緒相關(guān)頻段(圖1d),顯示出其在多維度聲紋分析中的潛力。
圖1 a) 基于PLLA/SF納米纖維氣凝膠的聲紋識(shí)別原理示意圖。 b) 不同納米分散濃度(1%、3%、5%)PLLA/SF ANA在90–1000 Hz頻帶內(nèi)的輸出電壓。 c) ANA對(duì)100、110、120 Hz三頻混合聲的電壓時(shí)域信號(hào)與FFT譜圖。 d) 受試者以悲傷情緒說(shuō)出“Good luck”時(shí)的電壓波形及FFT譜。
圖2a比較了不同紡絲濃度下材料的輸出電壓,發(fā)現(xiàn)18%濃度下性能最佳。在120 dB聲壓級(jí)、90–1000 Hz頻率范圍內(nèi),器件的開路電壓和短路電流在150 Hz處達(dá)到峰值,分別為65.6 V和10.59 μA(圖2b–c)。隨后,研究人員讓不同受試者向傳感器說(shuō)出“Hi Nanoscience”,并記錄其時(shí)域電壓信號(hào)(圖2d)。通過FFT和短時(shí)傅里葉變換(STFT)分析,男性和女性的基頻分布差異顯著(圖2e),男性集中于200 Hz以下,女性則大約在240 Hz,體現(xiàn)出其在天生生理結(jié)構(gòu)差異上的敏感性。
圖2 a) 不同納米纖維分散濃度下ANA的輸出電壓對(duì)比。 b) 最優(yōu)參數(shù)ANA在90–1000 Hz范圍內(nèi)的開路電壓。 c) 對(duì)應(yīng)短路電流。 d) 四位受試者朗讀“Hi Nanoscience”的時(shí)域電壓信號(hào)。 e) 相應(yīng)FFT與STFT譜,顯示性別與節(jié)奏差異。
圖3進(jìn)一步評(píng)估了器件在不同聲壓、距離和角度下的性能。隨著聲壓級(jí)從87 dB升至120 dB,輸出電壓從7.2 V提高至65.6 V(圖3a)。聲源距離越近,聲壓衰減越明顯,電壓響應(yīng)也隨之變化(圖3b)。器件的聲學(xué)靈敏度在低SPL下最高可達(dá)16 V·Pa?1(圖3c)。經(jīng)FFT帶通濾波處理后,信號(hào)在150 Hz處保持高度純凈,信噪比達(dá)58 dB(圖3d–e)。此外,傳感器表現(xiàn)出明顯的“8字形”方向響應(yīng)特性(圖3f),說(shuō)明其具備聲源定向感知能力。在經(jīng)過5萬(wàn)次強(qiáng)聲循環(huán)和9個(gè)月存儲(chǔ)后,器件仍保持穩(wěn)定的電輸出(圖3g–h),顯示出優(yōu)異的耐久性。
圖3 a) 輸出電壓隨聲壓級(jí)(87–120 dB)的變化。 b) 2 cm與25 cm聲源距離下的電壓波形對(duì)比。 c) 靈敏度隨聲壓級(jí)變化曲線,最高16 V·Pa?1。 d) 經(jīng)140–160 Hz帶通濾波前后150 Hz信號(hào)對(duì)比。 e) 150 Hz主頻信噪比達(dá)58 dB。 f) 不同入射角度的“8”字形指向響應(yīng)。 g) 5萬(wàn)次120 dB循環(huán)沖擊后的電壓穩(wěn)定性。 h) 九個(gè)月老化后性能保持率超過90%。
為驗(yàn)證其高精度頻率分辨能力,團(tuán)隊(duì)生成了多組雙頻信號(hào)(100/200 Hz、130/131 Hz、150/150.01 Hz),PLLA/SF ANA均能清晰分辨出頻率間隔小至0.01 Hz的峰值(圖4a–b、d–e、g–h)。此外,該傳感器還能準(zhǔn)確識(shí)別狗、豬、豹等動(dòng)物叫聲(圖4c、f、i),并成功模擬了對(duì)詐騙電話音頻的響應(yīng),顯示出其在多種實(shí)際場(chǎng)景中良好的聲紋識(shí)別能力。
圖4 a、b) 對(duì)100/200 Hz雙頻信號(hào)的時(shí)域與FFT分辨。 d、e) 對(duì)130/131 Hz雙頻信號(hào)的分辨。 g、h) 對(duì)150/150.01 Hz雙頻信號(hào)的分辨。 c、f、i) 記錄并識(shí)別狗、豬、豹叫聲的電壓波形與頻譜。
綜上所述,該研究開發(fā)的PLLA/SF聲驅(qū)動(dòng)納米纖維氣凝膠在寬頻響應(yīng)、高靈敏度、高分辨率和穩(wěn)定性方面表現(xiàn)出色,能夠通過聲電響應(yīng)頻譜有效識(shí)別說(shuō)話人身份與情緒。這一技術(shù)有望推動(dòng)個(gè)性化AI語(yǔ)音交互服務(wù)的發(fā)展,并在可穿戴/植入式語(yǔ)音識(shí)別設(shè)備中發(fā)揮長(zhǎng)遠(yuǎn)作用,為人機(jī)交互領(lǐng)域帶來(lái)新的技術(shù)突破。
來(lái)源:高分子科學(xué)前沿
聲明:僅代表作者個(gè)人觀點(diǎn),作者水平有限,如有不科學(xué)之處,請(qǐng)?jiān)谙路搅粞灾刚?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.