金磊 假裝發(fā)自 武漢
量子位 | 公眾號(hào) QbitAI
發(fā)瘋文學(xué)的“瘋”,終于是讓AI給吶喊出來(lái)了
例如電視劇《180天重啟計(jì)劃》中的這段發(fā)瘋名場(chǎng)面:
然后啊,我們讓AI用于謙+郭德綱的腔調(diào)打開(kāi)這段對(duì)話,畫(huà)風(fēng)是這樣的:
視頻地址:https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ
這要放以前,那些平平淡淡的AI語(yǔ)音,這癲感、這吶喊,大概率是發(fā)不出來(lái)的。
那為什么現(xiàn)在AI就可以做到了呢?
因?yàn)榫驮趧倓?,火山引擎?strong>豆包語(yǔ)音大模型升級(jí)了——
語(yǔ)音學(xué)會(huì)了思考,更能理解臺(tái)詞,情感表達(dá)更有張力。
具體來(lái)說(shuō),火山引擎這次主要升級(jí)了2個(gè)模型,分別是豆包語(yǔ)音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包聲音復(fù)刻模型2.0(Doubao-Seed-ICL 2.0)。
剛才的那段發(fā)瘋對(duì)話片段的制作過(guò)程,就是先上傳了郭德綱和于謙的音頻,讓豆包聲音復(fù)刻模型2.0在短短幾秒中的時(shí)間里復(fù)刻出聲音:
然后再在豆包語(yǔ)音合成模型2.0中,分別選擇于謙和郭德綱的聲音,并在臺(tái)詞的前面標(biāo)注了一下想要達(dá)到的情緒效果:
值得注意的是,上面這一步的操作,就是此次豆包語(yǔ)音合成模型2.0的一大關(guān)鍵點(diǎn),分為三種模式:
- 默認(rèn)模式:可以在臺(tái)詞前像我們剛才那樣,添加細(xì)節(jié)描述內(nèi)容;
- 語(yǔ)音指令:可以控制說(shuō)話的情緒、方言、語(yǔ)氣和語(yǔ)速等;
- 引入上文:把上文內(nèi)容引進(jìn)來(lái),讓AI更好地去理解完整內(nèi)容。
所以整體來(lái)看,這次火山引擎是想讓AI語(yǔ)音達(dá)到的效果,是要從“像人”走向“懂人”
那么效果到底幾何?老規(guī)矩,一波實(shí)測(cè),走起~
豆包的語(yǔ)音,學(xué)會(huì)了理解
提到AI語(yǔ)音的玩法,怎么能少的了經(jīng)典名劇《甄嬛傳》
有請(qǐng),華妃甄嬛
然后我們這次要模仿的片段,是閆妮和海清在一次頒獎(jiǎng)典禮上的一段有趣對(duì)話:
- 海清:大家晚上好,站在我身邊的是比我漂亮一點(diǎn)點(diǎn)的閆妮姐。
- 閆妮:站在我身邊的是比我難看一點(diǎn)點(diǎn)的美婦海清。
操作方式上,依舊是先用豆包聲音復(fù)刻模型2.0打造出華妃和甄嬛的聲音,然后再把魔改的臺(tái)詞注入到豆包語(yǔ)音合成模型2.0中。
這一次,我們采用的是“默認(rèn)+語(yǔ)音指令”的方式。
來(lái),聽(tīng)一下效果:
視頻地址:https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ
嘖嘖嘖,聽(tīng)完這個(gè)片段,華妃的大白眼兒都在腦海里翻上天了……
接下來(lái),我們?cè)儆酶鑹?dāng)紅炸子雞單依純的聲音來(lái)對(duì)比一下有無(wú)“語(yǔ)音指令”的區(qū)別。
臺(tái)詞是:
- 我逆轉(zhuǎn)時(shí)空九十九次救你,你卻次次死于同一支暗箭。謝珩,原來(lái)不是天要亡你……是你寧死也不肯為我活下去。
在沒(méi)有“語(yǔ)音指令”的時(shí)候,單依純的聲音念這段臺(tái)詞可以說(shuō)是平平淡淡、寡然無(wú)味:
音頻地址:https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ
但當(dāng)我們加上這么一句指令,“小品女王”單依純的情緒一下子就上來(lái)了:
音頻地址:https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ
不過(guò)有一說(shuō)一,單依純的聲線……還是適合用來(lái)唱歌。
至于有無(wú)“上下文引用”,AI語(yǔ)音生成的效果差距也是比較的。
例如給定一段臺(tái)詞:
- 北京…因?yàn)槲襾?lái),這是第二次,上一次是在一…八年還是什么時(shí)候來(lái)過(guò)一次但是時(shí)間很短也沒(méi)有時(shí)間去,真正的去游歷,所以北京對(duì)我來(lái)說(shuō)…只是…還存在一種想象之中啊,嗯沒(méi)有太多的,直觀的體驗(yàn)。
可以看到,這段臺(tái)詞有大量的停頓之處,這就需要AI精準(zhǔn)地去識(shí)別和思考。在沒(méi)有“上下文引用”的時(shí)候,效果是這樣的:
音頻地址:https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ
停頓可以說(shuō)是雜亂無(wú)章了。但若是家里一句[#你怎么評(píng)價(jià)北京這個(gè)城市?],效果就會(huì)截然不同:
音頻地址:https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ
至于火山引擎這次是如何讓AI語(yǔ)音能力提升的,背后的關(guān)鍵就是我們剛才提到的基于豆包大語(yǔ)言模型研發(fā)語(yǔ)音合成新架構(gòu)
它可以讓合成和復(fù)刻的聲音都能進(jìn)行深度語(yǔ)義理解,并拓展出上下文推理能力,從單純的文本朗讀進(jìn)化為 “理解后的精準(zhǔn)情感表達(dá)”
這意味著模型可以捕捉到對(duì)話的背景信息、用戶的潛在意圖甚至是細(xì)膩的心理活動(dòng),從而在聲音中注入真實(shí)的情感和擬人感。
基于這種深度的語(yǔ)義理解,模型不僅能實(shí)現(xiàn)更連貫、飽滿的情感演繹,還能精確遵循用戶的指令,靈活調(diào)控語(yǔ)氣、情緒和語(yǔ)速。
這也就不難理解升級(jí)的豆包語(yǔ)音模型能讓AI說(shuō)話這么有味道了。
不過(guò)基于此,火山引擎還解決了一個(gè)業(yè)界老大難的問(wèn)題——讓AI精準(zhǔn)地念出復(fù)雜公式
在現(xiàn)場(chǎng),團(tuán)隊(duì)就放出了用咱們很熟悉的聲音念出來(lái)的銅與濃硫酸反應(yīng)
視頻地址:https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ
據(jù)了解,目前市面上的同類模型朗讀準(zhǔn)確率普遍低于50%,但豆包語(yǔ)音大模型2.0版本,在小學(xué)至高中階段全學(xué)科的復(fù)雜公式朗讀中,能夠?qū)崿F(xiàn)90%左右的準(zhǔn)確率!
New的不僅僅是語(yǔ)音
除了語(yǔ)音上的大動(dòng)作之外,火山引擎這次在基座模型和多模態(tài)方面,同樣也有不少的動(dòng)作。
首先,作為技術(shù)底座的豆包大模型1.6迎來(lái)了重要升級(jí)。
此次升級(jí)最大的亮點(diǎn)是,它成為了國(guó)內(nèi)首個(gè)原生支持分檔調(diào)節(jié)思考長(zhǎng)度的Thinking模型。
在實(shí)際應(yīng)用中,深度思考模型常因推理時(shí)間過(guò)長(zhǎng)而導(dǎo)致響應(yīng)延遲和成本高昂,這成為許多企業(yè)望而卻步的門(mén)檻。
豆包大模型1.6通過(guò)訓(xùn)練四種不同的思考模式,讓客戶可以在效果、時(shí)延、成本三者之間找到最適合自身業(yè)務(wù)的平衡點(diǎn)。
例如,在低思考長(zhǎng)度模型下,模型效果與升級(jí)前保持不變,但總輸出tokens下降了77.5%,深度思考時(shí)間更是大幅縮短了84.6%。
與此同時(shí),火山引擎還首次推出了輕量化的豆包大模型1.6 Lite,為不同應(yīng)用場(chǎng)景提供了更靈活、高效的選擇。
更進(jìn)一步,火山引擎在國(guó)內(nèi)首次發(fā)布了智能模型路由(Smart Model Router)。
“沒(méi)有一款模型是萬(wàn)能的”,這是業(yè)界的共識(shí)。智能模型路由的核心價(jià)值在于,它能像一個(gè)智能調(diào)度中心,根據(jù)用戶任務(wù)的復(fù)雜度和類型,自動(dòng)匹配最合適的模型來(lái)執(zhí)行。
用戶可以在“效果優(yōu)先”、“成本優(yōu)先”和“平衡模式”之間自由切換,系統(tǒng)會(huì)自動(dòng)選取豆包系列或其他業(yè)界主流模型(如DeepSeek、Kimi等)中最優(yōu)的一個(gè)來(lái)完成任務(wù)。
這有效避免了“大材小用”造成的成本浪費(fèi)或是“小材大用”導(dǎo)致的效果不佳。測(cè)試數(shù)據(jù)顯示,在成本優(yōu)先模式下,路由后的綜合成本最高可下降71%,極大地降低了企業(yè)使用大模型的門(mén)檻。
中國(guó)公有云上,每?jī)蓚€(gè)token就有一個(gè)由火山引擎生產(chǎn)
從豆包圖像創(chuàng)作模型Seedream 4.0到豆包語(yǔ)音模型2.0,邁向AI云,這是今年火山引擎的迭代速度。
因此在最后,我們還需要討論一個(gè)問(wèn)題——這一系列密集的產(chǎn)品發(fā)布,意味著什么?
答案其實(shí)清晰地藏在火山引擎眼中全球大模型技術(shù)演進(jìn)的三大核心趨勢(shì):
更強(qiáng)的思考與理解能力更豐富的多模態(tài)交互以及更實(shí)用的Agent智能體
從能分檔調(diào)節(jié)思考長(zhǎng)度的豆包大模型1.6,到能理解上下文的對(duì)話式語(yǔ)音模型,再到精準(zhǔn)調(diào)度模型的智能路由,無(wú)一不體現(xiàn)了火山引擎對(duì)模型“思考與理解”能力的深度探索。
而豆包語(yǔ)音、圖像、視頻等一系列多模態(tài)模型的持續(xù)迭代和生產(chǎn)級(jí)應(yīng)用,則是在多模態(tài)趨勢(shì)上的堅(jiān)實(shí)布局。
這些技術(shù)創(chuàng)新并非停留在實(shí)驗(yàn)室的理論,而是已經(jīng)深入到了真實(shí)的商業(yè)場(chǎng)景中,并創(chuàng)造著實(shí)際價(jià)值。
例如,小米的智能助手小愛(ài)同學(xué)在接入豆包大模型1.6后,讓手機(jī)、智能眼鏡等終端設(shè)備同時(shí)擁有了智慧的大腦和眼睛,能夠結(jié)合看到的現(xiàn)實(shí)場(chǎng)景進(jìn)行對(duì)話和處理信息。
國(guó)內(nèi)領(lǐng)先的汽車平臺(tái)懂車帝,利用“AI選車”功能,讓復(fù)雜、模糊的購(gòu)車需求得到高質(zhì)量的回應(yīng),復(fù)雜需求搜索占比從過(guò)去的10%大幅提升至79.4%。
此外,包括OPPO、Keep、美圖、洋蔥學(xué)園在內(nèi)的眾多企業(yè)也已經(jīng)開(kāi)始應(yīng)用火山引擎的語(yǔ)音技術(shù),在對(duì)話助手、情感陪伴、內(nèi)容配音、教育等領(lǐng)域提升用戶體驗(yàn)。
這一切技術(shù)能力的實(shí)現(xiàn)與規(guī)?;涞?,都離不開(kāi)背后龐大算力和高質(zhì)量數(shù)據(jù)的支撐。
一個(gè)驚人的數(shù)字是,豆包大模型的日均tokens調(diào)用量,在一年多時(shí)間里從1200億增長(zhǎng)至超過(guò)30萬(wàn)億,實(shí)現(xiàn)了253倍的增長(zhǎng)。
根據(jù)IDC數(shù)據(jù),中國(guó)公有云上每?jī)蓚€(gè)token就有一個(gè)由火山引擎生產(chǎn)。
這背后正是火山引擎AI云所提供的穩(wěn)定、高效的基礎(chǔ)設(shè)施,它為模型的訓(xùn)練和推理提供了關(guān)鍵動(dòng)力,成為推動(dòng)AI技術(shù)從理論走向應(yīng)用的堅(jiān)實(shí)底座。
最后,豆包語(yǔ)音合成模型2.0和豆包聲音復(fù)刻模型2.0現(xiàn)在都已經(jīng)可以體驗(yàn)了,感興趣的小伙伴可以去試試嘍~
體驗(yàn)地址:
https://console.volcengine.com/speech/new/experience/clone?projectName=default
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.