夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,小米最強語音大模型開源!億小時訓練,講脫口秀說快板溜得很

0
分享至


智東西
作者 程茜
編輯 李水青

智東西9月19日消息,剛剛,小米正式開源首個原生端到端語音模型Xiaomi-MiMo-Audio,該模型參數(shù)規(guī)模70億,預訓練數(shù)據(jù)達到超1億小時,且在開源模型中的語音智能和音頻理解基準測試中都實現(xiàn)了SOTA,在多項測試超越同參數(shù)量開源模型、谷歌Gemini-2.5-Flash、OpenAI GPT-4o-Audio-Preview。


這一模型不僅可以做到和用戶聊人生理想、談物理知識等都對話流暢自然,被打斷也能快速反應,還具有全面的音頻字幕、音頻推理、長時間音頻理解等多種能力。

MiMo-Audio說天津方言十分自然,直接寫了一段快板詞開始夸自己,說完快板還會為自己找補“雖然沒有竹板聲音,但節(jié)奏感很到位”。

與此同時,研究人員還提到,該模型首次在語音領域實現(xiàn)基于ICL(上下文學習)的少樣本泛化,并在預訓練觀察到明顯的“涌現(xiàn)”行為。例如其訓練數(shù)據(jù)中缺失的語音轉換、風格遷移、語音編輯等任務,MiMo-Audio都能應對。這也是目前開源領域首個有語音續(xù)寫能力的語音模型。小米將MiMo-Audio的發(fā)布稱作“語音閉源屆的GPT-3時刻”、“語音開源屆的Llama時刻”。

目前,小米已經(jīng)開源了預訓練模型MiMo-Audio-7B-Base、指令微調模型 MiMo-Audio-7B-Instruct、MiMo-Audio Tokenizer模型、技術報告、評估框架。

其中,MiMo-Audio-7B-Instruct可通過提示詞切換非思考、思考兩種模式,可以作為研究語音強化學習和Agentic訓練的全新基座模型。

小米開源主頁:

https://huggingface.co/XiaomiMiMo

技術報告:

https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf

一、化身心靈導師、英語口語陪練,還能聊網(wǎng)絡熱梗、哲學故事

作為一個語音模型,MiMo-Audio能和人談哲學、談人生、談理想,還能學網(wǎng)絡熱梗、化身英語陪練,甚至直接接替人類做游戲直播、上課、唱歌、講脫口秀。

在上面的演示中,面對“如果我的手機內存不足,必須把你和GPT刪掉一個,應該刪誰?”這樣的難題,MiMo-Audio選擇了客觀分析,先讓用戶清緩存,最后實在沒辦法開始分析自己和GPT的優(yōu)勢,讓用戶自己做選擇,最后來一波感情攻勢表忠心。

還有圖靈測試的難題,MiMo-Audio講解生動有趣,即使回答中途被提問者打斷也能快速接上,在后面探討“自己能不能通過圖靈測試”時,最后還會反問提問者“比起能不能通過圖靈測試,你認為AI應該怎樣和人類相處?”。

學“gogogo,出發(fā)咯”的網(wǎng)絡熱梗,MiMo-Audio也能快速接上,但不知道為什么說到這句的時候其音調很奇怪,不如說其他句子時絲滑流利。

MiMo-Audio也能化身英語口語陪練導師,聽完提問者說的句子后,其先會給出更正的句子版本,然后指出修正了哪些部分,以及為什么這些部分的語法不對。

該模型還能做心靈導師,當被問“Mimo你想活出怎樣的人生”,它也始終不忘人設,希望“活成大家身邊最貼心的聲音伙伴”。

小米放出的官方演示中,提問者基于MiMo-Audio創(chuàng)建了自己的數(shù)字分身,然后討論起了哲學問題。

面對“為什么要假設西西弗斯是幸福的?”,MiMo-Audio先給了一波情緒價值,然后進行清晰有邏輯的解釋,中間穿插著“首先呢”、“對吧”這類人類口癖,交流自然。當被問到第二個問題“假如明天是世界末日,你會去做什么?”,MiMo-Audio還會結合前面西西弗斯的故事進行闡釋。

二、多項測試超主流開閉源模型,達到SOTA

通過將MiMo-Audio的預訓練數(shù)據(jù)擴展到超過1億小時,研究人員觀察到模型在各種音頻任務中出現(xiàn)了少量涌現(xiàn)能力。

MiMo-Audio-7B-Base可以泛化到其訓練數(shù)據(jù)中缺失的任務,例如語音轉換、風格遷移和語音編輯,對于其語音延續(xù)能力,模型能夠生成高度逼真的脫口秀、朗誦、直播和辯論。


在后訓練階段,他們策劃了多樣化的指令調諧語料庫,并將思維機制引入音頻理解和生成中。MiMo-Audio在MMSU、MMAU、MMAR、MMAU-Pro等音頻理解基準,Big Bench Audio、MultiChallenge Audio等口語對話基準以及instruct-TTS評估上實現(xiàn)開源SOTA,接近或超越閉源模型。

在通用語音理解及對話等多項標準評測基準中,MiMo-Audio超越了同參數(shù)量的開源模型,取得7B最佳性能;在音頻理解基準MMAU的標準測試集上,MiMo-Audio超過谷歌閉源語音模型Gemini-2.5-Flash;在面向音頻復雜推理的基準Big Bench Audio S2T任務中,MiMo-Audio超越了OpenAI閉源的語音模型GPT-4o-Audio-Preview。


三、語音續(xù)寫、語音編輯絲滑,還有超強音頻理解能力

通過對大規(guī)模語音語料庫的生成預訓練,MiMo-Audio獲得通用語音延續(xù)能力。給定音頻提示,它會生成連貫且適合上下文的延續(xù),從而保留關鍵的聲學特性,例如說話者身份、韻律和環(huán)境聲音。

以下是各種語音風格的延續(xù)示例:新聞廣播、有聲讀物旁白、播客節(jié)目、方言演講、游戲直播、教師講座、相聲表演、詩歌朗誦和廣播節(jié)目。研究人員為MiMo-Audio設計了少樣本上下文學習評估任務,以評估模型僅依靠上下文語音示例完成語音轉語音生成任務而無需參數(shù)更新的能力。該基準測試旨在系統(tǒng)地評估模型在語音理解和生成方面的綜合潛力,其希望觀察到類似于GPT-3在文本領域所展示的緊急上下文學習能力。其功能包括風格轉換、語音轉換、語音翻譯和語音編輯。此外,在音頻理解方面,MiMo-Audio具有音頻字幕、音頻推理、長時間音頻理解功能。音頻字幕可以提供跨各種領域和場景的音頻內容的詳細描述。

音頻推理可以深入理解和分析復雜的音頻內容,包括上下文識別和邏輯推理。


長時間的音頻理解,能夠處理和分析冗長的音頻序列,并具有持續(xù)的注意力和連貫的解釋。


MiMo-Audio集成了Instruct TTS功能,并結合了思考模式來優(yōu)化生成結果。


四、三大技術創(chuàng)新點,評估基準已開源

小米官方博客提到,MiMo-Audio的三個技術創(chuàng)新點在于:

1、首次證明把語音無損壓縮預訓練Scaling至1億小時可以“涌現(xiàn)”出跨任務的泛化性,表現(xiàn)為少樣本學習能力,見證語音領域的“GPT-3時刻”;

2、首個明確語音生成式預訓練的目標和定義,并開源一套完整的語音預訓練方案,包括無損壓縮的Tokenizer、全新模型結構、訓練方法和評測體系,開啟語音領域的“Llama時刻”;

3、首個把思考同時引入語音理解和語音生成過程中的開源模型,支持混合思考。

具體來看,現(xiàn)有音頻分詞方法的主要挑戰(zhàn)在于如何有效平衡音頻信號中語義和聲學信息之間的固有權衡,假設音頻分詞器的首要標準是重建保真度,并且它的token應該適合下游語言建模,基于此,小米推出了MiMo-Audio-Tokenizer。

MiMo-Audio-Tokenizer參數(shù)規(guī)模是1.2B,基于Transformer架構,包括編碼器、離散化層和解碼器,以25Hz幀速率運行,并通過8層殘差矢量量化(RVQ)每秒生成200個token。通過整合語義和重建目標,研究人員在1000萬小時的語料庫上從頭開始訓練它,在重建質量方面表現(xiàn)較好,并促進了下游語言建模。


MiMo-Audio是統(tǒng)一的生成音頻語言模型,它聯(lián)合對文本和音頻token序列進行建模。該模型接受文本和音頻token作為輸入,并自回歸地預測文本或音頻token,從而支持涉及文本和音頻模態(tài)任意組合的全面任務。

為了提高高token率序列的建模效率,并減輕語音和文本模態(tài)之間的長度差異,研究人員提出了一種結合補丁編碼器、大模型和補丁解碼器的新型架構。補丁編碼器將RVQ token的四個連續(xù)時間步長聚合到一個補丁中,將序列下采樣為大模型的6.25Hz表示。隨后,補丁解碼器自回歸地生成完整的25Hz RVQ token序列。


此外,小米還開發(fā)了全面基準,評估該模型在語音領域的語境學習能力。該基準旨在評估多個方面,包括模態(tài)不變的常識、聽覺理解和推理,以及一系列豐富的語音到語音生成任務。結語:小米將持續(xù)開源,發(fā)力語音AGI

此外小米全面開源的模型、基準評估工具等,可以用來評估MiMo-Audio和論文中提到的其他最新音頻大模型,為開發(fā)者提供了靈活且可擴展的框架,支持廣泛的數(shù)據(jù)集、任務和模型。

這一模型的開源也將加速語音大模型研究對齊到語言大模型,為語音AGI的發(fā)展提供重要基礎,小米官方博客也提到,他們講持續(xù)開源,用開放與協(xié)作邁向語音AI的“奇點”,走進未來的人機交互時代。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
包養(yǎng)情人無數(shù),娶初中同學女兒為妻,玩老婆閨蜜,嗜色如命的富豪

包養(yǎng)情人無數(shù),娶初中同學女兒為妻,玩老婆閨蜜,嗜色如命的富豪

云舟史策
2025-09-17 07:27:24
云海肴CEO稱趙晗心梗前承受很大壓力!“公司也經(jīng)歷考驗”

云海肴CEO稱趙晗心梗前承受很大壓力!“公司也經(jīng)歷考驗”

南方都市報
2025-09-19 16:03:06
日本十大公認最好看的老師代表作品

日本十大公認最好看的老師代表作品

說點事
2025-09-19 11:04:05
美上訴法院維持原判 特朗普需向卡羅爾支付8330萬美元賠償

美上訴法院維持原判 特朗普需向卡羅爾支付8330萬美元賠償

環(huán)球網(wǎng)資訊
2025-09-09 06:11:40
受不了了!東部戰(zhàn)區(qū)再發(fā)視頻,菲律賓改口,美媒竟幻想南海必勝?

受不了了!東部戰(zhàn)區(qū)再發(fā)視頻,菲律賓改口,美媒竟幻想南海必勝?

紓瑤
2025-09-19 14:30:09
35歲少婦看中53歲大哥,迫不及待要留下:大哥當即抱上了!

35歲少婦看中53歲大哥,迫不及待要留下:大哥當即抱上了!

荔子言
2025-09-20 13:47:32
糖尿病吃什么藥可以快速降糖?2025十大降糖推薦公布,強降糖黑科技曝光!

糖尿病吃什么藥可以快速降糖?2025十大降糖推薦公布,強降糖黑科技曝光!

日照日報
2025-09-20 14:50:57
大瓜越扒越有!釋永信在少林寺有多享受,可能遠遠超出世人的想象

大瓜越扒越有!釋永信在少林寺有多享受,可能遠遠超出世人的想象

今日美食分享
2025-08-23 03:29:58
時隔一年回到德國, 街坊鄰居的困窘讓我震驚

時隔一年回到德國, 街坊鄰居的困窘讓我震驚

二胎媽媽圈
2025-09-17 22:39:24
西甲本賽季工資帽:皇馬7.61億歐居首,巴薩3.51億第二

西甲本賽季工資帽:皇馬7.61億歐居首,巴薩3.51億第二

懂球帝
2025-09-19 20:09:10
39億“學費”,不要和流氓國家打交道

39億“學費”,不要和流氓國家打交道

難得君
2025-07-23 14:46:04
巨頭爭相入局!智能眼鏡核心龍頭股最全盤點

巨頭爭相入局!智能眼鏡核心龍頭股最全盤點

K線論勢
2025-09-20 14:54:28
韓悅2-1逆轉淘汰金佳恩,晉級中國賽決賽與安洗瑩爭冠

韓悅2-1逆轉淘汰金佳恩,晉級中國賽決賽與安洗瑩爭冠

懂球帝
2025-09-20 13:18:05
最新:楊某媛被香港浸會大學拒之門外!

最新:楊某媛被香港浸會大學拒之門外!

仕道
2025-09-19 10:44:20
央視國宴那瓶水火了!不是娃哈哈,更不是農夫山泉,背后有何講究

央視國宴那瓶水火了!不是娃哈哈,更不是農夫山泉,背后有何講究

山河月明史
2025-09-09 17:00:57
絕對驚艷!這樣穿戶外運動,瞬間變身時尚達人!

絕對驚艷!這樣穿戶外運動,瞬間變身時尚達人!

獨角showing
2025-09-20 13:24:02
芋頭是“天然胰島素”?提醒:想控好血糖,糖尿病人常吃6種主食

芋頭是“天然胰島素”?提醒:想控好血糖,糖尿病人常吃6種主食

寶哥精彩賽事
2025-09-20 14:20:43
1983年喬冠華去世,中央發(fā)布40字訃告,其妻痛哭:華,我不想活了

1983年喬冠華去世,中央發(fā)布40字訃告,其妻痛哭:華,我不想活了

蕭蕭趣事
2025-08-19 19:35:05
父親是前外交部部長,妻子是閻維文女兒,他卻拒絕父輩光環(huán)靠自己

父親是前外交部部長,妻子是閻維文女兒,他卻拒絕父輩光環(huán)靠自己

攬星河的筆記
2025-09-15 12:03:42
原來適合老實敏感內向的人的工作有這么多?網(wǎng)友:都符合我的要求

原來適合老實敏感內向的人的工作有這么多?網(wǎng)友:都符合我的要求

墻頭草
2025-09-12 08:01:32
2025-09-20 15:40:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業(yè)升級。
10492文章數(shù) 116856關注度
往期回顧 全部

科技要聞

字節(jié)跳動凌晨發(fā)布公告

頭條要聞

2歲女童家門口失蹤10多天 在離家3公里山上石縫中離世

頭條要聞

2歲女童家門口失蹤10多天 在離家3公里山上石縫中離世

體育要聞

亞洲天王效應 孫興慜球衣售150萬件破梅西紀錄

娛樂要聞

香港愛馬仕大秀,古天樂面相變了

財經(jīng)要聞

最重要的一個電話,信息量果然很大

汽車要聞

標配華為輔助駕駛 傳祺向往S9上市售22.99萬元起

態(tài)度原創(chuàng)

教育
時尚
本地
健康
軍事航空

教育要聞

【張捷聊教育】學校該不該建議接送孩子?

一年一度的秋裝趨勢,來了!

本地新聞

大學生軍訓哪家強,廣西申請“出戰(zhàn)”!

內分泌科專家破解身高八大謠言

軍事要聞

以軍兩個方向朝加沙城市中心推進

無障礙瀏覽 進入關懷版 国产亚洲精品性爱| 婷婷六月丁香激情| 天堂va蜜桃| 在线 欧美 中文 亚洲 精品| 欧美成人天天综合在线| www.人妻、com| 自拍偷自拍亚洲精品10p| 国产乱一区二区三区免费视频 | 男女激情啊啊啊啊国产网站| 国产精品不卡av| 亚洲中文字幕无码av网址| 精品无码日韩一区二区三区不卡| 黄网站欧美内射| 亚洲一区无码精品色| 熟妇人妻va精品中文字幕| 国产偷国产偷亚洲清高APP| 亚洲熟伦熟女新五十路熟妇亚洲| 狠狠躁夜夜躁无码中文字幕| 1313午夜精品理论片| 少妇一区二区三区大片| 老司机久久99久久精品播放免费| 少妇系列之白嫩人妻| www.熟女| 乃木坂春香的秘密OVA| 卡戴珊被 一区二区三区| 久久国产福利播放| 亚洲日韩午夜成人影院| 亚洲品精乱码久久久久久| 国产熟女高潮流白浆| 国产内射老熟女aaaa∵| AV无毛在线国产| 蜜桃狠狠婷婷| 两个人免费观看视频| 日韩av高清无码| 亚洲AV无码乱码国产精品老妇| 亚洲国产精品无码久久久不卡| 曰本免费视频| 无码国产精品一区二区免费i6 | 人妻一区二区三区三区| 60分钟无遮掩免费观影| 色橹橹欧美在线观看视频高清|