智東西
作者 陳駿達(dá)
編輯 李水青
智東西9月15日?qǐng)?bào)道,今天,阿里巴巴通義實(shí)驗(yàn)室推出了FunAudio-ASR端到端語(yǔ)音識(shí)別大模型。這款模型通過(guò)創(chuàng)新的Context模塊,針對(duì)性優(yōu)化了“幻覺(jué)”、“串語(yǔ)種”等關(guān)鍵問(wèn)題,在高噪聲的場(chǎng)景下,幻覺(jué)率從78.5%下降至10.7%,下降幅度接近70%。
FunAudio-ASR使用了數(shù)千萬(wàn)小時(shí)的音頻數(shù)據(jù),融合了大語(yǔ)言模型的語(yǔ)義理解能力,從而提升語(yǔ)音識(shí)別的上下文一致性與跨語(yǔ)言切換能力。
通義實(shí)驗(yàn)室打造了5大類測(cè)試集,重點(diǎn)關(guān)注語(yǔ)音識(shí)別在遠(yuǎn)場(chǎng)、嘈雜背景等挑戰(zhàn)性場(chǎng)景下的表現(xiàn),并結(jié)合開(kāi)源測(cè)試集評(píng)估了模型的性能。FunAudio-ASR實(shí)現(xiàn)了超越Seed-ASR、KimiAudio-8B等業(yè)內(nèi)知名模型的表現(xiàn)。
同時(shí),F(xiàn)unAudio-ASR在實(shí)際落地方面也進(jìn)行了全面優(yōu)化,支持低延遲流式識(shí)別、跨中英文自然切換以及用戶可自定義的熱詞識(shí)別,能夠覆蓋視頻會(huì)議、實(shí)時(shí)字幕、智能終端等多樣化應(yīng)用場(chǎng)景。
FunAudio-ASR提供兩個(gè)版本,滿血版由0.7B參數(shù)量的編碼器和7B參數(shù)量的大語(yǔ)言模型組成,追求最高精度;輕量的nano版本由0.2B參數(shù)量的編碼器和0.6B參數(shù)量的大語(yǔ)言模型,平衡效率與精度。目前,F(xiàn)unAudio-ASR已在釘釘?shù)?strong>“AI聽(tīng)記”、視頻會(huì)議、DingTalk A1硬件等多個(gè)場(chǎng)景中應(yīng)用。
FunAudio-ASR已上線阿里云百煉平臺(tái),API定價(jià)為0.00022元/秒,轉(zhuǎn)錄一段一小時(shí)的音頻大約需要8毛錢。這款模型的技術(shù)報(bào)告已經(jīng)發(fā)布,開(kāi)發(fā)者也可在魔搭社區(qū)體驗(yàn)其效果。
魔搭社區(qū)體驗(yàn):
https://modelscope.cn/studios/iic/FunAudio-ASR
阿里云百煉平臺(tái):
https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1
技術(shù)報(bào)告:
https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf
一、幻覺(jué)、串語(yǔ)種問(wèn)題獲針對(duì)性優(yōu)化,一手體驗(yàn)高噪聲環(huán)境識(shí)別效果
相比于文本大模型,語(yǔ)音大模型的“幻覺(jué)”問(wèn)題尤為突出。這是因?yàn)槁晫W(xué)特征與文本特征在向量空間上天然存在差異,導(dǎo)致模型在“聽(tīng)”完音頻后,容易“腦補(bǔ)”出大量不存在的內(nèi)容。
盡管通過(guò)訓(xùn)練,可以將將聲學(xué)特征對(duì)齊到文本特征空間,但聲學(xué)特征Embedding與真實(shí)的文本Embedding仍然存在這一定的差距,這會(huì)導(dǎo)致大語(yǔ)言模型在生成文本時(shí)發(fā)生幻覺(jué)的現(xiàn)象。
▲聲學(xué)特征Embedding與真實(shí)的文本Embedding分布差異(圖片來(lái)源:https://arxiv.org/pdf/2410.18908)
通義實(shí)驗(yàn)室發(fā)現(xiàn),給語(yǔ)音大模提供必要的上下文,可以減少文本生產(chǎn)時(shí)候的幻覺(jué)現(xiàn)象。為此,他們?cè)O(shè)計(jì)了Context增強(qiáng)模塊:該模塊通過(guò)CTC解碼器快速生成第一遍解碼文本,并將該結(jié)果作為上下文信息輸入大語(yǔ)言模型,輔助其理解音頻內(nèi)容。
由于CTC結(jié)構(gòu)輕量且為非自回歸模型,幾乎不增加額外推理耗時(shí)。
例如,對(duì)于這段由AI生成、模仿海盜說(shuō)話風(fēng)格的音頻,F(xiàn)unAudio-ASR做到了一字不差的識(shí)別。
(待插入)
此外,通義實(shí)驗(yàn)室還觀察到幻覺(jué)問(wèn)題在高噪聲場(chǎng)景中更易發(fā)生,因此在訓(xùn)練數(shù)據(jù)中加入了大量仿真數(shù)據(jù)。
為評(píng)估模型在高噪聲情況下的表現(xiàn),他們構(gòu)建了一個(gè)包含28條易觸發(fā)幻覺(jué)音頻的測(cè)試集,經(jīng)優(yōu)化后,幻覺(jué)率從78.5%下降至10.7%。
智東西在實(shí)測(cè)中體驗(yàn)了FunAudio-ASR在嘈雜場(chǎng)景的識(shí)別能力。這段音頻是在嘈雜的展會(huì)現(xiàn)場(chǎng)錄制的。可以聽(tīng)到,模型基本準(zhǔn)確識(shí)別了片段中男性說(shuō)話者的聲音,但在聲音音量驟降后識(shí)別錯(cuò)誤了。
(待插入)
同時(shí),這段音頻中有兩位說(shuō)話者,F(xiàn)unAudio-ASR在識(shí)別兩人同時(shí)說(shuō)話的部分時(shí),遺漏了一些信息。
與OpenAI Whisper Large V3的識(shí)別結(jié)果對(duì)比,F(xiàn)unAudio-ASR識(shí)別出了更多正確的信息。
“串語(yǔ)種”是語(yǔ)音大模型落地中的另一類典型問(wèn)題,例如,輸入音頻內(nèi)容為英文,模型輸出卻為中文文本。
這是因?yàn)槲谋敬竽P捅旧砭邆浞g能力,在聲學(xué)特征映射不夠精確時(shí),模型可能在推理過(guò)程中“自動(dòng)啟動(dòng)”翻譯功能,從而影響語(yǔ)音識(shí)別的準(zhǔn)確性。
在FunAudio-ASR的Context增強(qiáng)模塊中,CTC解碼器經(jīng)過(guò)高質(zhì)量數(shù)據(jù)訓(xùn)練,本身發(fā)生串語(yǔ)種的概率極低。通過(guò)將CTC的第一遍解碼結(jié)果作為提示詞輸入給大語(yǔ)言模型,可有效引導(dǎo)模型聚焦于語(yǔ)音識(shí)別任務(wù),緩解“翻譯”行為的發(fā)生。
二、支持術(shù)語(yǔ)定制化識(shí)別,召回率提升明顯
在企業(yè)運(yùn)用語(yǔ)音識(shí)別模型時(shí),個(gè)性化定制是必不可少的技術(shù)。所謂定制化,是指在識(shí)別過(guò)程中對(duì)特定詞/短語(yǔ)(如人名、地名、品牌、專業(yè)術(shù)語(yǔ)等)施加額外概率偏好,從而顯著提高它們的識(shí)別召回率,同時(shí)盡量不損傷通用識(shí)別準(zhǔn)確率。
當(dāng)前行業(yè)的主流做法是將用戶提供的領(lǐng)域詞,直接作為提示詞輸入大語(yǔ)言模型。該方法雖簡(jiǎn)單有效,但隨著詞量增加,干擾也隨之上升,導(dǎo)致召回率下降——即“定制化能力衰減”。
為緩解這一問(wèn)題,通義實(shí)驗(yàn)室在Context增強(qiáng)結(jié)構(gòu)中引入RAG(檢索增強(qiáng)生成)機(jī)制,這一機(jī)制的運(yùn)作方式如下:
(1)構(gòu)建知識(shí)庫(kù):將用戶配置的定制詞構(gòu)建成專屬RAG庫(kù);
(2)動(dòng)態(tài)檢索:依據(jù)CTC第一遍解碼結(jié)果,從RAG庫(kù)中抽取相關(guān)詞匯;
(3)精準(zhǔn)注入:僅將相關(guān)詞匯注入大語(yǔ)言模型的提示詞中,避免無(wú)關(guān)信息干擾。
該方案在不增加推理復(fù)雜度的前提下,將定制化上文數(shù)量擴(kuò)充到上千個(gè)以上,并且保持較高的定制化識(shí)別效果。
為驗(yàn)證模型的定制化效果,通義實(shí)驗(yàn)室在微積分學(xué)、有機(jī)化學(xué)、物理學(xué)、哲學(xué)、人名等5個(gè)領(lǐng)域,選取了1000個(gè)專業(yè)詞匯進(jìn)行測(cè)試。FunAudio-ASR在關(guān)鍵詞準(zhǔn)確率上表現(xiàn)超越了支持同類功能的語(yǔ)音識(shí)別模型。
例如,采用FunAudio-ASR模型的釘釘“AI聽(tīng)記”,擁有對(duì)互聯(lián)網(wǎng)、科技、家裝、畜牧、汽車等10+領(lǐng)域、200+細(xì)分行業(yè)術(shù)語(yǔ)的識(shí)別能力,并支持在企業(yè)授權(quán)前提下,結(jié)合通訊錄、日程等上下文信息進(jìn)行推理優(yōu)化,進(jìn)一步提升結(jié)果可靠性。
三、預(yù)訓(xùn)練使用數(shù)千萬(wàn)小時(shí)數(shù)據(jù),僅用8張A100完成強(qiáng)化學(xué)習(xí)
技術(shù)報(bào)告中,通義實(shí)驗(yàn)室闡述了FunAudio-ASR的技術(shù)細(xì)節(jié)。這一模型包含四個(gè)核心組件:
(1)音頻編碼器(Audio Encoder):提取語(yǔ)音特征,使用多層Transformer Encoder。
(2)音頻適配器(Audio Adaptor):連接編碼器和LLM,使用兩層Transformer Encoder。
(3)CTC解碼器:用于初步識(shí)別假設(shè),支持熱詞定制。
(4)基于大語(yǔ)言模型的解碼器:結(jié)合音頻特征和CTC預(yù)測(cè)生成最終輸出。
▲FunAudio-ASR模型架構(gòu)
預(yù)訓(xùn)練階段,F(xiàn)unAudio-ASR使用了數(shù)千萬(wàn)小時(shí)的音頻數(shù)據(jù),包括無(wú)標(biāo)注音頻和有標(biāo)注的音頻-文本數(shù)據(jù),數(shù)據(jù)涵蓋AI、生物、電商、教育等多個(gè)領(lǐng)域。
預(yù)訓(xùn)練分為自監(jiān)督預(yù)訓(xùn)練和有監(jiān)督預(yù)訓(xùn)練。在自監(jiān)督階段,F(xiàn)unAudio-ASR創(chuàng)新地使用Qwen3的權(quán)重初始化編碼器,加速收斂并提升表示質(zhì)量。
有監(jiān)督預(yù)訓(xùn)練則在編碼器-解碼器架構(gòu)(AED)下進(jìn)行,使編碼器能夠從大規(guī)模標(biāo)注數(shù)據(jù)中學(xué)習(xí)更豐富的聲學(xué)-語(yǔ)言特征,為后續(xù)與大語(yǔ)言模型的整合奠定基礎(chǔ)。
▲FunAudio-ASR預(yù)訓(xùn)練管線
在此基礎(chǔ)上,F(xiàn)unAudio-ASR進(jìn)入有監(jiān)督微調(diào)(SFT)階段,該階段進(jìn)一步分為五個(gè)子階段,逐步優(yōu)化不同模塊:
(1)訓(xùn)練適配器以對(duì)齊音頻表示與大語(yǔ)言模型的語(yǔ)義空間;
(2)優(yōu)化編碼器和適配器;
(3)使用LoRA微調(diào)大語(yǔ)言模型以防止災(zāi)難性遺忘;
(4)全參數(shù)微調(diào)階段;
(5)引入CTC解碼器用于后續(xù)的熱詞檢索與增強(qiáng)生成(RAG)。
整個(gè)SFT過(guò)程使用了數(shù)百萬(wàn)小時(shí)的多源數(shù)據(jù),包括人工標(biāo)注語(yǔ)料、偽標(biāo)注數(shù)據(jù)、合成語(yǔ)音和噪聲增強(qiáng)數(shù)據(jù)等,確保了模型在多樣化場(chǎng)景下的泛化能力。
為了進(jìn)一步提升模型對(duì)長(zhǎng)音頻和上下文信息的理解能力,團(tuán)隊(duì)還構(gòu)建了超過(guò)5萬(wàn)小時(shí)的上下文增強(qiáng)訓(xùn)練數(shù)據(jù)。
通過(guò)提取關(guān)鍵詞、合成相關(guān)上下文并混合無(wú)關(guān)語(yǔ)境,模型學(xué)會(huì)了在保持高識(shí)別精度的同時(shí),有效利用對(duì)話歷史信息,顯著提升了在復(fù)雜語(yǔ)境下的表現(xiàn)。
在強(qiáng)化學(xué)習(xí)(RL)階段,團(tuán)隊(duì)提出了專為音頻-語(yǔ)言模型設(shè)計(jì)的FunRL框架,支持多模塊高效協(xié)同訓(xùn)練。
▲FunRL框架
該框架采用GRPO算法,并設(shè)計(jì)了多目標(biāo)獎(jiǎng)勵(lì)函數(shù),綜合優(yōu)化識(shí)別準(zhǔn)確率、關(guān)鍵詞召回、幻覺(jué)抑制和語(yǔ)言一致性。模型僅使用8張A100顯卡,在一天內(nèi)完成RL訓(xùn)練。
RL訓(xùn)練數(shù)據(jù)涵蓋硬樣本、長(zhǎng)音頻、幻覺(jué)樣本、關(guān)鍵詞樣本和常規(guī)ASR數(shù)據(jù),顯著提升了模型在困難場(chǎng)景下的魯棒性和用戶體驗(yàn)。
最后,F(xiàn)unAudio-ASR還針對(duì)實(shí)際應(yīng)用需求進(jìn)行了全面優(yōu)化,包括流式識(shí)別支持、噪聲魯棒性增強(qiáng)、中英代碼切換處理、熱詞定制和幻覺(jué)抑制等。
結(jié)語(yǔ):生成式AI賦能新一代ASR系統(tǒng),或成智能交互重要入口
基于生成式AI的新一代語(yǔ)音識(shí)別模型,正在從“能聽(tīng)清”走向“能理解”,并在幻覺(jué)抑制、跨語(yǔ)種識(shí)別、上下文一致性等關(guān)鍵問(wèn)題上展現(xiàn)出進(jìn)展。
與傳統(tǒng)以聲學(xué)建模與統(tǒng)計(jì)學(xué)習(xí)為主的語(yǔ)音識(shí)別系統(tǒng)相比,這類模型不僅具備更強(qiáng)的語(yǔ)義理解與任務(wù)適配能力,還能在復(fù)雜噪聲、多說(shuō)話人、跨領(lǐng)域等場(chǎng)景中保持更高的魯棒性和可控性??梢灶A(yù)見(jiàn),未來(lái)語(yǔ)音識(shí)別有望告別單純的“輸入工具”,成為終端智能交互的重要入口。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.