智東西
作者 程茜
編輯 李水青
智東西9月19日消息,剛剛,小米正式開源首個原生端到端語音模型Xiaomi-MiMo-Audio,該模型參數(shù)規(guī)模70億,預訓練數(shù)據(jù)達到超1億小時,且在開源模型中的語音智能和音頻理解基準測試中都實現(xiàn)了SOTA,在多項測試超越同參數(shù)量開源模型、谷歌Gemini-2.5-Flash、OpenAI GPT-4o-Audio-Preview。
這一模型不僅可以做到和用戶聊人生理想、談物理知識等都對話流暢自然,被打斷也能快速反應,還具有全面的音頻字幕、音頻推理、長時間音頻理解等多種能力。
MiMo-Audio說天津方言十分自然,直接寫了一段快板詞開始夸自己,說完快板還會為自己找補“雖然沒有竹板聲音,但節(jié)奏感很到位”。
與此同時,研究人員還提到,該模型首次在語音領域實現(xiàn)基于ICL(上下文學習)的少樣本泛化,并在預訓練觀察到明顯的“涌現(xiàn)”行為。例如其訓練數(shù)據(jù)中缺失的語音轉換、風格遷移、語音編輯等任務,MiMo-Audio都能應對。這也是目前開源領域首個有語音續(xù)寫能力的語音模型。小米將MiMo-Audio的發(fā)布稱作“語音閉源屆的GPT-3時刻”、“語音開源屆的Llama時刻”。
目前,小米已經(jīng)開源了預訓練模型MiMo-Audio-7B-Base、指令微調模型 MiMo-Audio-7B-Instruct、MiMo-Audio Tokenizer模型、技術報告、評估框架。
其中,MiMo-Audio-7B-Instruct可通過提示詞切換非思考、思考兩種模式,可以作為研究語音強化學習和Agentic訓練的全新基座模型。
小米開源主頁:
https://huggingface.co/XiaomiMiMo
技術報告:
https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf
一、化身心靈導師、英語口語陪練,還能聊網(wǎng)絡熱梗、哲學故事
作為一個語音模型,MiMo-Audio能和人談哲學、談人生、談理想,還能學網(wǎng)絡熱梗、化身英語陪練,甚至直接接替人類做游戲直播、上課、唱歌、講脫口秀。
在上面的演示中,面對“如果我的手機內存不足,必須把你和GPT刪掉一個,應該刪誰?”這樣的難題,MiMo-Audio選擇了客觀分析,先讓用戶清緩存,最后實在沒辦法開始分析自己和GPT的優(yōu)勢,讓用戶自己做選擇,最后來一波感情攻勢表忠心。
還有圖靈測試的難題,MiMo-Audio講解生動有趣,即使回答中途被提問者打斷也能快速接上,在后面探討“自己能不能通過圖靈測試”時,最后還會反問提問者“比起能不能通過圖靈測試,你認為AI應該怎樣和人類相處?”。
學“gogogo,出發(fā)咯”的網(wǎng)絡熱梗,MiMo-Audio也能快速接上,但不知道為什么說到這句的時候其音調很奇怪,不如說其他句子時絲滑流利。
MiMo-Audio也能化身英語口語陪練導師,聽完提問者說的句子后,其先會給出更正的句子版本,然后指出修正了哪些部分,以及為什么這些部分的語法不對。
該模型還能做心靈導師,當被問“Mimo你想活出怎樣的人生”,它也始終不忘人設,希望“活成大家身邊最貼心的聲音伙伴”。
小米放出的官方演示中,提問者基于MiMo-Audio創(chuàng)建了自己的數(shù)字分身,然后討論起了哲學問題。
面對“為什么要假設西西弗斯是幸福的?”,MiMo-Audio先給了一波情緒價值,然后進行清晰有邏輯的解釋,中間穿插著“首先呢”、“對吧”這類人類口癖,交流自然。當被問到第二個問題“假如明天是世界末日,你會去做什么?”,MiMo-Audio還會結合前面西西弗斯的故事進行闡釋。
二、多項測試超主流開閉源模型,達到SOTA
通過將MiMo-Audio的預訓練數(shù)據(jù)擴展到超過1億小時,研究人員觀察到模型在各種音頻任務中出現(xiàn)了少量涌現(xiàn)能力。
MiMo-Audio-7B-Base可以泛化到其訓練數(shù)據(jù)中缺失的任務,例如語音轉換、風格遷移和語音編輯,對于其語音延續(xù)能力,模型能夠生成高度逼真的脫口秀、朗誦、直播和辯論。
在后訓練階段,他們策劃了多樣化的指令調諧語料庫,并將思維機制引入音頻理解和生成中。MiMo-Audio在MMSU、MMAU、MMAR、MMAU-Pro等音頻理解基準,Big Bench Audio、MultiChallenge Audio等口語對話基準以及instruct-TTS評估上實現(xiàn)開源SOTA,接近或超越閉源模型。
在通用語音理解及對話等多項標準評測基準中,MiMo-Audio超越了同參數(shù)量的開源模型,取得7B最佳性能;在音頻理解基準MMAU的標準測試集上,MiMo-Audio超過谷歌閉源語音模型Gemini-2.5-Flash;在面向音頻復雜推理的基準Big Bench Audio S2T任務中,MiMo-Audio超越了OpenAI閉源的語音模型GPT-4o-Audio-Preview。
三、語音續(xù)寫、語音編輯絲滑,還有超強音頻理解能力
通過對大規(guī)模語音語料庫的生成預訓練,MiMo-Audio獲得通用語音延續(xù)能力。給定音頻提示,它會生成連貫且適合上下文的延續(xù),從而保留關鍵的聲學特性,例如說話者身份、韻律和環(huán)境聲音。
以下是各種語音風格的延續(xù)示例:新聞廣播、有聲讀物旁白、播客節(jié)目、方言演講、游戲直播、教師講座、相聲表演、詩歌朗誦和廣播節(jié)目。研究人員為MiMo-Audio設計了少樣本上下文學習評估任務,以評估模型僅依靠上下文語音示例完成語音轉語音生成任務而無需參數(shù)更新的能力。該基準測試旨在系統(tǒng)地評估模型在語音理解和生成方面的綜合潛力,其希望觀察到類似于GPT-3在文本領域所展示的緊急上下文學習能力。其功能包括風格轉換、語音轉換、語音翻譯和語音編輯。此外,在音頻理解方面,MiMo-Audio具有音頻字幕、音頻推理、長時間音頻理解功能。音頻字幕可以提供跨各種領域和場景的音頻內容的詳細描述。
音頻推理可以深入理解和分析復雜的音頻內容,包括上下文識別和邏輯推理。
長時間的音頻理解,能夠處理和分析冗長的音頻序列,并具有持續(xù)的注意力和連貫的解釋。
MiMo-Audio集成了Instruct TTS功能,并結合了思考模式來優(yōu)化生成結果。
四、三大技術創(chuàng)新點,評估基準已開源
小米官方博客提到,MiMo-Audio的三個技術創(chuàng)新點在于:
1、首次證明把語音無損壓縮預訓練Scaling至1億小時可以“涌現(xiàn)”出跨任務的泛化性,表現(xiàn)為少樣本學習能力,見證語音領域的“GPT-3時刻”;
2、首個明確語音生成式預訓練的目標和定義,并開源一套完整的語音預訓練方案,包括無損壓縮的Tokenizer、全新模型結構、訓練方法和評測體系,開啟語音領域的“Llama時刻”;
3、首個把思考同時引入語音理解和語音生成過程中的開源模型,支持混合思考。
具體來看,現(xiàn)有音頻分詞方法的主要挑戰(zhàn)在于如何有效平衡音頻信號中語義和聲學信息之間的固有權衡,假設音頻分詞器的首要標準是重建保真度,并且它的token應該適合下游語言建模,基于此,小米推出了MiMo-Audio-Tokenizer。
MiMo-Audio-Tokenizer參數(shù)規(guī)模是1.2B,基于Transformer架構,包括編碼器、離散化層和解碼器,以25Hz幀速率運行,并通過8層殘差矢量量化(RVQ)每秒生成200個token。通過整合語義和重建目標,研究人員在1000萬小時的語料庫上從頭開始訓練它,在重建質量方面表現(xiàn)較好,并促進了下游語言建模。
MiMo-Audio是統(tǒng)一的生成音頻語言模型,它聯(lián)合對文本和音頻token序列進行建模。該模型接受文本和音頻token作為輸入,并自回歸地預測文本或音頻token,從而支持涉及文本和音頻模態(tài)任意組合的全面任務。
為了提高高token率序列的建模效率,并減輕語音和文本模態(tài)之間的長度差異,研究人員提出了一種結合補丁編碼器、大模型和補丁解碼器的新型架構。補丁編碼器將RVQ token的四個連續(xù)時間步長聚合到一個補丁中,將序列下采樣為大模型的6.25Hz表示。隨后,補丁解碼器自回歸地生成完整的25Hz RVQ token序列。
此外,小米還開發(fā)了全面基準,評估該模型在語音領域的語境學習能力。該基準旨在評估多個方面,包括模態(tài)不變的常識、聽覺理解和推理,以及一系列豐富的語音到語音生成任務。結語:小米將持續(xù)開源,發(fā)力語音AGI
此外小米全面開源的模型、基準評估工具等,可以用來評估MiMo-Audio和論文中提到的其他最新音頻大模型,為開發(fā)者提供了靈活且可擴展的框架,支持廣泛的數(shù)據(jù)集、任務和模型。
這一模型的開源也將加速語音大模型研究對齊到語言大模型,為語音AGI的發(fā)展提供重要基礎,小米官方博客也提到,他們講持續(xù)開源,用開放與協(xié)作邁向語音AI的“奇點”,走進未來的人機交互時代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.