夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

又一國產(chǎn)多模態(tài)大模型開源,復(fù)雜聲音一耳朵分辨,多測試SOTA,還能聊哲學(xué)

0
分享至


智東西
作者 王涵
編輯 漠影

智東西9月1日消息,今天上午,階躍星辰正式發(fā)布開源端到端語音大模型Step-Audio 2 mini,該模型在通用多模態(tài)音頻理解等多個國際基準(zhǔn)測試集上取得SOTA成績。

Step-Audio 2 mini將語音理解、音頻推理與生成統(tǒng)一建模,在音頻理解、語音識別、跨語種翻譯、情感與副語言解析、語音對話等任務(wù)中表現(xiàn)較好,并支持語音原生的Tool Calling能力,可實現(xiàn)聯(lián)網(wǎng)搜索等操作。

一句話總結(jié),Step-Audio 2 mini可以“聽得清楚、想得明白、說得自然”。

該模型現(xiàn)已上線階躍星辰開放平臺、GitHub、Hugging Face、魔搭社區(qū)等平臺:


體驗地址:

https://realtime-console.stepfun.com

GitHub:

https://github.com/stepfun-ai/Step-Audio2

Hugging Face:

https://huggingface.co/stepfun-ai/Step-Audio-2-mini

魔搭社區(qū):

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-2-mini

一、口語對話能力第一名,拿捏方言和小語種

Step-Audio 2 mini在多個關(guān)鍵基準(zhǔn)測試中取得SOTA成績,在音頻理解、語音識別、翻譯和對話場景中表現(xiàn)突出,綜合性能超越Qwen-Omni、Kimi-Audio在內(nèi)的開源端到端語音模型,并在大部分任務(wù)上超越GPT-4o Audio。


  • 通用多模態(tài)音頻理解測試集MMAU上,Step-Audio 2 mini以73.2的得分位列開源端到端語音模型榜首;
  • 在衡量口語對話能力的URO Bench上,Step-Audio 2 mini在基礎(chǔ)與專業(yè)賽道均拿下開源端到端語音模型最高分,超越Qwen-Omni和Kimi-Audio
  • 中英互譯任務(wù)方面,Step-Audio 2 mini在CoVoST 2和CVSS評測集上分別取得39.3和29.1的分?jǐn)?shù),領(lǐng)先GPT-4o Audio;
  • 語音識別任務(wù)上,Step-Audio 2 mini取得多語言和多方言第一。其中開源中文測試集平均CER(字錯誤率)3.19,開源英語測試集平均WER(詞錯誤率)3.50


在不同語種的基準(zhǔn)測試上,Step-Audio 2 mini在評價中文能力的FLEURS Chinese上取得第一名的成績。

二、引入CoT還支持web檢索,擴(kuò)大語音模型的知識面

過往的AI語音常被吐槽智商、情商雙低。一是“沒知識”,缺乏文本大模型一樣的知識儲備和推理能力;二是“冷冰冰”,聽不懂潛臺詞,語氣、情緒、笑聲這些“弦外之音”。Step-Audio 2 mini通過創(chuàng)新架構(gòu)設(shè)計,試圖解決此類問題。

端到端多模態(tài)架構(gòu):Step-Audio 2 mini突破傳統(tǒng)ASR+LLM+TTS三級結(jié)構(gòu),實現(xiàn)原始音頻輸入到語音響應(yīng)輸出的直接轉(zhuǎn)換,架構(gòu)更簡潔、時延更低,并能有效理解副語言信息與非人聲信號。


CoT推理結(jié)合強(qiáng)化學(xué)習(xí):Step-Audio 2 mini在端到端語音模型中首次引入鏈?zhǔn)剿季S推理(Chain-of-Thought,CoT)與強(qiáng)化學(xué)習(xí)聯(lián)合優(yōu)化,能對情緒、語調(diào)、音樂等副語言和非語音信號進(jìn)行精細(xì)理解、推理并自然回應(yīng)。

音頻知識增強(qiáng):模型支持包括web檢索等外部工具,有助于模型解決幻覺問題,并賦予模型在多場景擴(kuò)展上的能力。

三、實測:可以精準(zhǔn)識別鳥鳴和引擎聲,但沒分清Meta和微軟

智東西第一時間對Step-Audio 2 mini進(jìn)行了實測??偟膩碚f,其生成的語音真人感比較強(qiáng),停頓和語氣都比較自然,但是Step-Audio 2 mini在信息識別上還需要加強(qiáng)。

其可以選擇的音色也有限,主頁只可以選擇男聲或女聲,其他條件可以在prompt中進(jìn)行調(diào)整。并且在Step-Audio 2 mini的體驗網(wǎng)頁上,個人用戶體驗只能對話一次,次數(shù)比較有限。


以下是一些實測案例:

在官方提供的案例中,Step-Audio 2 mini能分清鳥叫、流水、車聲和發(fā)條玩具聲這四種不同的聲音,它甚至能聽出汽車聲中的引擎加速變化。

https://oss.zhidx.com/54064cfbc9f99b30929a5b36b7b514e6/68b47180/uploads/2025/09/68b55079c70ef_68b55079bcb1c_68b55079bcaf4_%E5%88%86%E8%BE%A8%E9%B8%9F%E5%8F%AB%E3%80%81%E6%B5%81%E6%B0%B4%E3%80%81%E5%BC%95%E6%93%8E%E5%92%8C%E5%8F%91%E6%9D%A1%E7%8E%A9%E5%85%B7%E5%A3%B0.mp3

用戶也可以選擇聯(lián)網(wǎng)模式,讓Step-Audio 2 mini進(jìn)行實時搜索,并且用語音輸出。

https://oss.zhidx.com/dc699c540472cf28a16741b5c8d5a6bc/68b47180/uploads/2025/09/68b5508718ea7_68b55087148eb_68b55087148ae_%E5%AE%9E%E6%97%B6%E6%90%9C%E7%B4%A2OpenAI%E8%B5%84%E8%AE%AF.mp3

聊到OpenAI最新動態(tài),Step-Audio 2 mini通過工具調(diào)用搜索,迅速挖掘出最新語音模型資訊。

在這里智東西也進(jìn)行了實測,我問“你知道最近Meta最新的人工智能部門有什么新的動態(tài)嗎?”:

https://oss.zhidx.com/6714fdf35c2c5a5bb5c2a5825553c1d4/68b47180/uploads/2025/09/68b550cab6eff_68b550cab2d02_68b550cab2ccf_%E5%AE%9E%E6%97%B6%E6%90%9C%E7%B4%A2Meta%E8%B5%84%E8%AE%AF.wav

Step-Audio 2 mini卻回答成了微軟的AI動態(tài),但是語音識別出的是正確的Meta,其在生成準(zhǔn)確性上還需要加強(qiáng)。


用戶也可以通過語音控制,讓Step-Audio 2 mini調(diào)整語速。

比如,讓Step-Audio 2 mini變換語調(diào)讀《靜夜思》:

https://oss.zhidx.com/7c9a29a4d6cff7abdb76f5a20c767d49/68b47180/uploads/2025/09/68b551176120d_68b55117576ab_68b5511757678_%E6%94%B9%E5%8F%98%E8%AF%AD%E9%80%9F%E8%AF%BB%E3%80%8A%E9%9D%99%E5%A4%9C%E6%80%9D%E3%80%8B.mp3

當(dāng)被問及“愛美是自由還是枷鎖”這類哲學(xué)難題時,Step-Audio 2 mini可以與用戶進(jìn)行實時溝通,能將抽象問題轉(zhuǎn)化為“購物前問自己三個問題”的方法論。

(視頻)

結(jié)語:階躍星辰端到端語音大模型加速落地

此前,吉利發(fā)布了搭載階躍星辰端到端語音大模型的吉利銀河M9,這是行業(yè)內(nèi)端到端語音大模型首次實現(xiàn)量產(chǎn)上車。

據(jù)階躍星辰相關(guān)人士介紹,自去年發(fā)布國內(nèi)首個千億參數(shù)端到端語音大模型Step-1o Audio以來,階躍星辰持續(xù)迭代模型性能,并跟吉利、鯨魚機(jī)器人、TCL、Cyan青心意創(chuàng)等終端廠商達(dá)成合作,讓語音大模型在生活場景中加速落地。

開源方面,今年階躍星辰已開源8款多模態(tài)模型,覆蓋語音、視頻生成等領(lǐng)域,助力全球開源社區(qū)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我出差回家去樓下超市買避孕套,老板笑著說怎么又來,我頓感不妙

我出差回家去樓下超市買避孕套,老板笑著說怎么又來,我頓感不妙

白云故事
2025-09-03 22:00:04
一句全球范圍內(nèi)打擊,美歐齊齊改口,日本天塌了,韓國卻實現(xiàn)雙贏

一句全球范圍內(nèi)打擊,美歐齊齊改口,日本天塌了,韓國卻實現(xiàn)雙贏

影孖看世界
2025-09-04 02:13:18
俄羅斯人不解:為何強(qiáng)大的中國,幾千年都不要西伯利亞?

俄羅斯人不解:為何強(qiáng)大的中國,幾千年都不要西伯利亞?

知鑒明史
2025-08-21 10:30:08
婦產(chǎn)科男醫(yī)生自述:見到心動的女人,我也會把持不住犯錯

婦產(chǎn)科男醫(yī)生自述:見到心動的女人,我也會把持不住犯錯

親愛的落落
2023-09-13 14:48:36
31歲陳夢受邀觀禮閱兵式!她僅用一句話,讓整個體壇“沉默”了

31歲陳夢受邀觀禮閱兵式!她僅用一句話,讓整個體壇“沉默”了

順靜自然
2025-09-03 22:43:12
洪秀柱觀禮九三閱兵,發(fā)肺腑之言,讓民進(jìn)黨破防,宋楚瑜罕見發(fā)聲

洪秀柱觀禮九三閱兵,發(fā)肺腑之言,讓民進(jìn)黨破防,宋楚瑜罕見發(fā)聲

靜水流深003
2025-09-04 10:07:06
更換完身份證之后,一定要記得做這4件事,越早知道越好!

更換完身份證之后,一定要記得做這4件事,越早知道越好!

韓胖說裝修
2025-09-02 23:56:47
甘肅一母親癡呆40年,突然提及上海有舊房,兒女急忙帶母親趕過去

甘肅一母親癡呆40年,突然提及上海有舊房,兒女急忙帶母親趕過去

華人星光
2025-09-02 12:50:52
土耳其將大規(guī)模生產(chǎn)高超音速導(dǎo)彈

土耳其將大規(guī)模生產(chǎn)高超音速導(dǎo)彈

參考消息
2025-09-03 11:29:39
風(fēng)向大變?9月起“4大降價潮”或?qū)⑾碇袊习傩諔?yīng)早做準(zhǔn)備

風(fēng)向大變?9月起“4大降價潮”或?qū)⑾碇袊?,老百姓?yīng)早做準(zhǔn)備

靚仔情感
2025-09-03 22:15:52
“兒大要避母”,9歲男孩抱起年輕媽媽,媽媽“抬腿”配合惹爭議

“兒大要避母”,9歲男孩抱起年輕媽媽,媽媽“抬腿”配合惹爭議

第7情感
2025-08-28 14:43:50
前妻分走一半!PJ華盛頓4年9000w續(xù)約,西部格局變了!

前妻分走一半!PJ華盛頓4年9000w續(xù)約,西部格局變了!

籃壇大雜燴
2025-09-04 10:45:21
奧斯曼:我們還剩四場比賽,希望能最終奪冠,申京拿下歐洲杯MVP

奧斯曼:我們還剩四場比賽,希望能最終奪冠,申京拿下歐洲杯MVP

顏小白的籃球夢
2025-09-04 08:55:56
55歲再婚大媽哭訴:再婚后毛都沒有了,真的不想要這樣的婚姻了

55歲再婚大媽哭訴:再婚后毛都沒有了,真的不想要這樣的婚姻了

拾代談生活
2025-08-28 07:38:01
俄軍擬發(fā)起“秋季攻勢”,澤連斯基評價上合組織《天津宣言》

俄軍擬發(fā)起“秋季攻勢”,澤連斯基評價上合組織《天津宣言》

史政先鋒
2025-09-03 16:03:17
寧云祥再次出走德云社,澄清三件事,徹底撕開郭德綱的遮羞布

寧云祥再次出走德云社,澄清三件事,徹底撕開郭德綱的遮羞布

三公子娛樂丫
2025-09-04 10:23:24
八十周年晚會!劉敏濤宋春麗最感人,郭京飛最意外,雷佳音王雷穩(wěn)

八十周年晚會!劉敏濤宋春麗最感人,郭京飛最意外,雷佳音王雷穩(wěn)

鄉(xiāng)野小珥
2025-09-04 03:45:32
楊采玨“母憑子貴”失??!豪門男友家人堅決不同意,正妻已有人選

楊采玨“母憑子貴”失??!豪門男友家人堅決不同意,正妻已有人選

小楊侃事
2025-08-28 17:00:56
新能源巨頭董事長逝世,曾在江西任職

新能源巨頭董事長逝世,曾在江西任職

魯中晨報
2025-09-04 07:11:05
隊報:因轉(zhuǎn)播收入太低,法甲大部分球隊沒怎么花錢還被迫大量賣人

隊報:因轉(zhuǎn)播收入太低,法甲大部分球隊沒怎么花錢還被迫大量賣人

直播吧
2025-09-03 22:07:08
2025-09-04 11:23:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10413文章數(shù) 116843關(guān)注度
往期回顧 全部

科技要聞

傳蘋果自研AI搜索,明年iPhone將大升級

頭條要聞

原國家部委工作人員與外國女官員生下私生子 詳情披露

頭條要聞

原國家部委工作人員與外國女官員生下私生子 詳情披露

體育要聞

排面!德國大使館盛贊樊振東:世界級巨星

娛樂要聞

宋祖英春晚39年經(jīng)歷,先是被罵?

財經(jīng)要聞

美國8月份關(guān)稅突破310億美元 創(chuàng)歷史新高

汽車要聞

于柯鑫:XC70是沃爾沃超混領(lǐng)域的一張狠牌

態(tài)度原創(chuàng)

本地
旅游
手機(jī)
房產(chǎn)
公開課

本地新聞

換個城市過夏天 | “中式美學(xué)”打開夏日濰坊

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

紅魔 11“正式爆料”,宣稱史上最強(qiáng)紅魔手機(jī)

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 五月丁香亚洲综合499EE| 国精产品一二二线精华液| 亚洲熟妇无码另类久久久App| 欧美亚洲综合成人a∨在线| 色8久久久噜噜噜| 亚洲干逼视频| 国产综合色在线精品| 超碰人人摸人人操人人爱| 四虎国产精品永久入口| 亚洲高清无码一区二区三区免费视频| 国产无遮挡又黄又爽在线观看| 久久久久久美女| 蜜臀一区二区久在线播放| 人人澡人人妻人人爽人人蜜桃麻豆 | 精品久久久久久亚洲精品| 99久久成人亚洲精品观看 | 九九热这里有国产| 色噜噜无码av影院| 精品国产综合成人亚洲区| 在线播放77777四色米影盒| 精品成人免费看| 人人人操人人摸| 精品国产一区二区三区不卡蜜臂| 亚洲老熟女乱伦| A级国产乱理伦片在线播放| 成人一区在线观看| 国产乱伦一二三四区| 国产成人亚洲综合无码精品| 亚洲av淫乱电影| 中文高清操屄| 永久黄网站免费视频性色| 你懂的国产精品| 蜜芽MV色欲区一区二区三| 国产午夜影视大全免费观看| XXX黄色在线视频| 亚洲人成网站在线在线观看| 国产精品国产精品偷麻豆| 好吊色欧美一区二区三区视频色色| 欧美亚洲日本成| 精品人妻中文字幕av| 亚洲成人电影专区|