在大型語言模型(LLM)的浪潮下,多模態(tài) AI 取得了飛速發(fā)展,尤其是在視覺語言(LVLM)領(lǐng)域,已經(jīng)形成了成熟的研究范式。然而,與之形成鮮明對比的是,大型語音語言模型(LSLM)的發(fā)展卻顯得零散且步調(diào)緩慢。
該領(lǐng)域長期被碎片化的架構(gòu)、不透明的訓(xùn)練數(shù)據(jù)和缺失的評估標準所困擾,導(dǎo)致研究之間難以進行公平比較,嚴重阻礙了技術(shù)的可復(fù)現(xiàn)性和社區(qū)的系統(tǒng)性進步。許多研究雖然發(fā)布了模型權(quán)重,但其賴以成功的關(guān)鍵 —— 訓(xùn)練數(shù)據(jù)和配置細節(jié) —— 卻常常被 “雪藏” 起來。
為了打破這一僵局,北京深度邏輯智能科技有限公司推出了 LLaSO—— 首個完全開放、端到端的語音語言模型研究框架。
LLaSO 旨在為整個社區(qū)提供一個統(tǒng)一、透明且可復(fù)現(xiàn)的基礎(chǔ)設(shè)施,其貢獻是 “全家桶” 式的,包含了一整套開源的數(shù)據(jù)、基準和模型,希望以此加速 LSLM 領(lǐng)域的社區(qū)驅(qū)動式創(chuàng)新。
- 論文標題:LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
- 論文地址:https://arxiv.org/abs/2508.15418v1
- 代碼地址:https://github.com/EIT-NLP/LLaSO
- 模型地址:https://huggingface.co/papers/2508.15418
LSLM 領(lǐng)域的技術(shù)挑戰(zhàn)與研究痛點
相比視覺語言模型(LVLM)領(lǐng)域已形成 CLIP 編碼器 + LLaVA 范式的成熟生態(tài),LSLM 研究面臨四大核心挑戰(zhàn):
1. 架構(gòu)路徑分化嚴重
當(dāng)前 LSLM 架構(gòu)主要包括外部特征融合、跨模態(tài)注意力機制、隱式對齊等多種技術(shù)方案,缺乏如 LVLM 領(lǐng)域般的統(tǒng)一范式。不同研究團隊采用差異化架構(gòu),導(dǎo)致技術(shù)進展難以積累和比較。
2. 訓(xùn)練數(shù)據(jù)嚴重私有化
主流 LSLM 如 Qwen-Audio、Kimi-Audio等均依賴私有數(shù)據(jù)訓(xùn)練,數(shù)據(jù)規(guī)模、質(zhì)量、構(gòu)成等關(guān)鍵信息不透明。這使得:
- 可復(fù)現(xiàn)性差:其他研究者無法復(fù)現(xiàn)相同結(jié)果
- 性能歸因模糊:難以判斷性能提升源于架構(gòu)創(chuàng)新還是數(shù)據(jù)優(yōu)勢
- 研究門檻高:新入場者需要大量資源構(gòu)建私有數(shù)據(jù)集
3. 任務(wù)覆蓋局限性明顯
現(xiàn)有數(shù)據(jù)集主要聚焦語義理解任務(wù),對語音中的副語言學(xué)信息(paralinguistic information)如情感、口音、韻律、說話人特征等覆蓋不足,限制了模型的全面語音理解能力。
4. 交互模態(tài)單一化
大多數(shù) LSLM 僅支持 "文本指令 + 音頻輸入" 的單一交互模式,缺乏對 "音頻指令 + 文本輸入" 和純音頻交互等復(fù)雜模態(tài)組合的系統(tǒng)性支持。
LLaSO 框架:三大核心組件構(gòu)建完整生態(tài)
圖一:llaso 語料庫的制作流程
LLaSO 框架通過三個核心開源組件解決上述挑戰(zhàn):
LLaSO-Align:大規(guī)模語音 - 文本對齊數(shù)據(jù)集
- 數(shù)據(jù)規(guī)模:1200 萬語音 - 文本對齊樣本
- 數(shù)據(jù)來源:聚合對話、有聲書、多口音語音等多樣化來源
- 技術(shù)目標:通過自動語音識別(ASR)任務(wù)建立語音表示與文本語義空間的精確對齊
- 質(zhì)量控制:采用多重過濾機制確保數(shù)據(jù)質(zhì)量和說話人多樣性
LLaSO-Instruct:多任務(wù)指令微調(diào)數(shù)據(jù)集
- 數(shù)據(jù)規(guī)模:1350 萬多任務(wù)指令樣本
- 任務(wù)覆蓋:涵蓋語言學(xué)、語義學(xué)、副語言學(xué)三大類共 20 項任務(wù)
- 語言學(xué)任務(wù):ASR、翻譯、總結(jié)等基礎(chǔ)語言理解
- 語義學(xué)任務(wù):問答、推理、內(nèi)容分析等高級認知
- 副語言學(xué)任務(wù):情感識別、口音檢測、說話人分析等
- 模態(tài)支持:系統(tǒng)性支持三種交互配置
- 文本指令 + 音頻輸入(Text-Audio)
- 音頻指令 + 文本輸入(Audio-Text)
- 純音頻指令與輸入(Audio-Audio)
圖二:LLaSO 語料庫的任務(wù)組成
LLaSO-Eval:標準化評估基準
- 樣本規(guī)模:15,044 個測試樣本
- 數(shù)據(jù)隔離:與訓(xùn)練集嚴格分離,確保評估公平性
- 評估維度:覆蓋所有 20 項任務(wù)的 comprehensive evaluation
- 可復(fù)現(xiàn)性:提供統(tǒng)一評估協(xié)議和自動化評估工具
圖三:LLaSO-Base 在 LLaSO-Eval 基準測試上的表現(xiàn)結(jié)果
這三大組件共同構(gòu)成了一個完整的訓(xùn)練、微調(diào)和評估流水線,為 LSLM 研究提供了前所未有的開放性和便利性。
LLaSO-Base:技術(shù)驗證與性能基準
為驗證框架有效性,邏輯智能團隊基于 LLaSO 數(shù)據(jù)訓(xùn)練了 38 億參數(shù)的參考模型 LLaSO-Base。
模型架構(gòu)設(shè)計
采用經(jīng)典三階段架構(gòu):
- 語音編碼器:Whisper-large-v3,負責(zé)語音特征提取
- 模態(tài)投影器:多層感知機(MLP),實現(xiàn)語音 - 文本特征空間映射
- 語言模型backbone:Llama-3.2-3B-Instruct,提供語言理解和生成能力
兩階段訓(xùn)練策略
- 對齊階段:凍結(jié)編碼器和 LLM,僅訓(xùn)練投影器,使用 LLaSO-Align 數(shù)據(jù)建立 modality alignment
- 指令微調(diào)階段:聯(lián)合訓(xùn)練投影器和 LLM,使用 LLaSO-Instruct 數(shù)據(jù)學(xué)習(xí) complex instruction following
圖四:LLaSO 模型架構(gòu)示意圖
LLaSO-Base 模型實驗結(jié)果分析
我們在一系列嚴格設(shè)計的實驗中,將 LLaSO-Base 與多個業(yè)界領(lǐng)先的語音語言模型(LSLMs)進行了直接對比。所有實驗均在我們構(gòu)建的標準化評估基準 LLaSO-Eval 上完成,確保了比較的公平性和結(jié)果的可復(fù)現(xiàn)性。
實驗設(shè)置與評估基準
為確保評估的全面性,我們選取了 10 個主流的語音語言模型作為基準,包括 Qwen2-Audio、Typhoon-Audio、Salmonn、GLM-4-Voice、Mini-Omni、Kimi-Audio 等。所有模型的評估均在統(tǒng)一的 LLaSO-Eval 測試集上進行。
圖五:詳細描述了 LLaSO-Eval 評估基準的構(gòu)成。
該基準包含 15,044 個樣本,覆蓋了 20 種不同任務(wù)。這些任務(wù)被系統(tǒng)地劃分為三大類別,以實現(xiàn)對模型能力的深度剖析:
- 語言學(xué)任務(wù)(Linguistic): 核心是自動語音識別 (ASR),評估模型最基礎(chǔ)的語音轉(zhuǎn)文本能力 。
- 語義任務(wù) (Semantic): 核心是音頻問答 (AQA),評估模型對音頻內(nèi)容的高層次理解、推理和生成能力 。
- 副語言學(xué)任務(wù) (Paralinguistic): 進一步細分為 “以說話人為中心”(如性別、年齡、口音識別)和 “以內(nèi)容為中心”(如意圖預(yù)測、實體提?。﹥深悾荚谠u估模型對言外之意的捕捉能力 。
評估指標說明
我們的評估體系采用了多種指標,以確保對模型各方面性能的精確衡量 :
- WER/CER (詞 / 字錯誤率): 用于 ASR 等轉(zhuǎn)錄任務(wù),數(shù)值越低,表示準確率越高。
- Accuracy (準確率): 用于分類任務(wù)(如性別、口音識別),數(shù)值越高,性能越好。
- MAE (平均絕對誤差): 用于數(shù)值預(yù)測任務(wù)(如年齡識別),數(shù)值越低,預(yù)測越精準。
- GPT-4o Score (GPT-4o 評分): 針對 AQA 等開放式生成任務(wù),我們使用 GPT-4o 對模型輸出的相關(guān)性和準確性進行 1-5 分的打分,分數(shù)越高代表表現(xiàn)越好。
- Abstention Rate (拒絕回答率): 衡量模型在面對不熟悉或困難任務(wù)時的 “回避” 傾向。此比率越低,說明模型的指令遵循能力和魯棒性越強。
總體性能對比:LLaSO-Base 表現(xiàn)全面領(lǐng)先
圖六: 直觀地展示了所有模型在 LLaSO-Eval 上的總體性能得分(經(jīng)過歸一化處理)。
從圖中可以清晰地看到,LLaSO-Base 取得了 0.72 的最高分,位列第一 。這一成績顯著優(yōu)于其他所有競爭模型,例如表現(xiàn)次之的 Kimi-Audio (0.65) 和 Qwen2-Audio (0.57) 。這一結(jié)果強有力地證明了 LLaSO-Base 的綜合實力。研究發(fā)現(xiàn),像 LLaSO-Base 這樣在更多樣化的任務(wù)上進行訓(xùn)練的模型,其綜合性能遠超那些主要針對 AQA 等少數(shù)任務(wù)進行優(yōu)化的模型(如 Llama-Omni 和 Mini-Omni)。這凸顯了我們所提倡的廣泛任務(wù)覆蓋訓(xùn)練策略的有效性。
詳細任務(wù)性能分析
圖七: 深入比較了各模型在語言學(xué) (ASR) 和語義 (AQA) 任務(wù)上的具體表現(xiàn) 。
- 在 ASR 任務(wù)上,LLaSO-Base 展現(xiàn)了壓倒性優(yōu)勢。其 WER 和 CER 分別低至 0.08 和 0.03,是所有模型中最低的,這意味著它擁有最精準的語音轉(zhuǎn)錄能力 。相比之下,即便是 Kimi-Audio (WER 0.14) 和 Typhoon-Audio (WER 0.11) 等強勁對手,也存在明顯差距 。
- 在 AQA 任務(wù)上,競爭十分激烈。Kimi-Audio 在標準 “文本指令 + 音頻輸入” 模態(tài)下表現(xiàn)突出,獲得了 3.35 的高分 。LLaSO-Base 在此項上得分 2.58,表現(xiàn)穩(wěn)健 。但值得注意的是,在更具挑戰(zhàn)性的 “音頻指令 + 文本輸入” 模態(tài)下,
LLaSO-Base 的得分 (2.70) 展現(xiàn)了更強的模態(tài)適應(yīng)性,超過了多數(shù)模型。
圖八:呈現(xiàn)了在 18 個細分的副語言學(xué)任務(wù)上的對比結(jié)果,這是對模型能否理解 “弦外之音” 的終極考驗。
在這些更復(fù)雜的任務(wù)上,LLaSO-Base 幾乎在所有任務(wù)上都取得了頂尖或接近頂尖的成績。
- 以說話人為中心的任務(wù):在說話人性別識別 (SGC) 和口音分類 (AC) 任務(wù)上,LLaSO-Base 的準確率名列前茅,展現(xiàn)了對說話人特征的敏銳洞察力 。
- 以內(nèi)容為中心的任務(wù):LLaSO-Base 的優(yōu)勢更為顯著。在音素識別 (PR) 任務(wù)中,其 PER 僅為 0.03;在語音命令識別 (SCR) 任務(wù)中,WER/CER 低至 0.04/0.02 。這兩項指標均以數(shù)量級的優(yōu)勢領(lǐng)先于所有其他模型,展示了其在精細語音內(nèi)容分析上的卓越能力。
- 指令遵循能力:更重要的是,LLaSO-Base 在這些任務(wù)中的拒絕回答率極低。相比之下,Llama-Omni 和 Mini-Omni 等模型在許多副語言學(xué)任務(wù)上直接選擇 “拒絕回答”(表格中標記為 "Reject"),這表明它們?nèi)狈μ幚泶祟惾蝿?wù)的能力。LLaSO-Base 的穩(wěn)定響應(yīng)證明了其強大的指令遵循能力和任務(wù)泛化性。
模態(tài)泛化與任務(wù)覆蓋度分析
圖九:模型在不同輸入模態(tài)下的性能穩(wěn)定性
- 模態(tài)泛化能力 (Figure 9): 該圖分析了模型在不同輸入模態(tài)(純音頻、文本 + 音頻、音頻 + 文本)下的性能穩(wěn)定性。結(jié)果顯示,大多數(shù)模型在切換到不熟悉的模態(tài)時性能會下降。雖然 LLaSO-Base 也存在性能波動,但其在標準模態(tài)下的峰值性能遠高于其他模型,這是其總體得分領(lǐng)先的關(guān)鍵。同時,研究也發(fā)現(xiàn),采用 “交錯或并行解碼” 策略的模型(如 Mini-Omni、GLM-4-Voice)通常表現(xiàn)出更好的穩(wěn)定性。
圖十:模型訓(xùn)練正相關(guān)關(guān)系
- 任務(wù)覆蓋度的重要性 (Figure 10): 該圖清晰地揭示了模型訓(xùn)練任務(wù)數(shù)量與其性能和拒絕回答率之間的正相關(guān)關(guān)系。
LLaSO-Base 經(jīng)過 20 個任務(wù)的訓(xùn)練,其總體性能和指令遵循能力(低拒絕回答率)均處于領(lǐng)先地位 。而那些訓(xùn)練任務(wù)較少的模型,性能普遍偏低,且更容易 “拒絕” 回答,這進一步驗證了 LLaSO 框架設(shè)計理念的正確性與前瞻性。
開源策略的技術(shù)價值與社區(qū)影響
對學(xué)術(shù)研究的推動作用
1.可復(fù)現(xiàn)性保障:完整開放的訓(xùn)練數(shù)據(jù)和代碼實現(xiàn)
2.公平比較基礎(chǔ):統(tǒng)一評估基準消除 evaluation bias
3.研究門檻降低:研究者可專注于算法創(chuàng)新而非數(shù)據(jù)收集
4.技術(shù)積累加速:基于統(tǒng)一框架的增量改進更易實現(xiàn)
對工業(yè)應(yīng)用的促進效應(yīng)
1.開發(fā)成本降低:相比私有數(shù)據(jù)方案節(jié)省數(shù)千萬數(shù)據(jù)構(gòu)建成本
2.技術(shù)風(fēng)險可控:開源方案的透明性降低技術(shù)選型風(fēng)險
3.定制化便利:開放架構(gòu)支持針對性的領(lǐng)域 adaptation
4.生態(tài)建設(shè)基礎(chǔ):為 LSLM 生態(tài)標準化提供參考實現(xiàn)
技術(shù)局限與未來方向
當(dāng)前局限性
1.模型規(guī)模:38 億參數(shù)相比 GPT-4 級別模型仍有性能 gap
2.多語言支持:主要針對英文和中文,其他語言覆蓋有限
3.實時性能:大模型推理延遲對實時應(yīng)用仍有挑戰(zhàn)
4.長音頻處理:對超長音頻序列的處理效率有待優(yōu)化
發(fā)展方向
1.模型 scaling:探索更大規(guī)模模型的性能上限
2.效率優(yōu)化:模型壓縮、量化等技術(shù)降低部署門檻
3.多模態(tài)擴展:集成視覺信息實現(xiàn) Audio-Visual-Language understanding
4.領(lǐng)域適應(yīng):針對醫(yī)療、教育、客服等垂直領(lǐng)域的專用優(yōu)化
結(jié)論
LLaSO 作為全球首個完全開源的 LSLM 研究框架,通過提供大規(guī)模數(shù)據(jù)、統(tǒng)一基準和參考實現(xiàn),為語音語言模型研究建立了透明、可復(fù)現(xiàn)的技術(shù)基礎(chǔ)設(shè)施。其開源策略不僅降低了研究門檻,更重要的是為 LSLM 領(lǐng)域建立了統(tǒng)一的技術(shù)標準,有望推動該領(lǐng)域從 "各自為戰(zhàn)" 向 "協(xié)同創(chuàng)新" 轉(zhuǎn)變。
隨著框架的廣泛采用和社區(qū)貢獻,LLaSO 有望成為 LSLM 研究的 "ImageNet 時刻",為構(gòu)建真正理解人類語音 nuance 的 AI 系統(tǒng)奠定堅實基礎(chǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.