網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

新豆包模型讓郭德綱喊出發(fā)瘋文學(xué)：(這班)不上了！不上了?。?！

2025-10-16 14:20:09　來(lái)源: 量子位

北京舉報(bào)

分享至

金磊假裝發(fā)自武漢
量子位 | 公眾號(hào) QbitAI

發(fā)瘋文學(xué)的“瘋”，終于是讓AI給吶喊出來(lái)了

例如電視劇《180天重啟計(jì)劃》中的這段發(fā)瘋名場(chǎng)面：

然后啊，我們讓AI用于謙+郭德綱的腔調(diào)打開(kāi)這段對(duì)話，畫(huà)風(fēng)是這樣的：

視頻地址：https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ

這要放以前，那些平平淡淡的AI語(yǔ)音，這癲感、這吶喊，大概率是發(fā)不出來(lái)的。

那為什么現(xiàn)在AI就可以做到了呢？

因?yàn)榫驮趧倓?，火山引擎?strong>豆包語(yǔ)音大模型升級(jí)了——

語(yǔ)音學(xué)會(huì)了思考，更能理解臺(tái)詞，情感表達(dá)更有張力。

具體來(lái)說(shuō)，火山引擎這次主要升級(jí)了2個(gè)模型，分別是豆包語(yǔ)音合成模型2.0（Doubao-Seed-TTS 2.0）和豆包聲音復(fù)刻模型2.0（Doubao-Seed-ICL 2.0）。

剛才的那段發(fā)瘋對(duì)話片段的制作過(guò)程，就是先上傳了郭德綱和于謙的音頻，讓豆包聲音復(fù)刻模型2.0在短短幾秒中的時(shí)間里復(fù)刻出聲音：

然后再在豆包語(yǔ)音合成模型2.0中，分別選擇于謙和郭德綱的聲音，并在臺(tái)詞的前面標(biāo)注了一下想要達(dá)到的情緒效果：

值得注意的是，上面這一步的操作，就是此次豆包語(yǔ)音合成模型2.0的一大關(guān)鍵點(diǎn)，分為三種模式：

默認(rèn)模式：可以在臺(tái)詞前像我們剛才那樣，添加細(xì)節(jié)描述內(nèi)容；
語(yǔ)音指令：可以控制說(shuō)話的情緒、方言、語(yǔ)氣和語(yǔ)速等；
引入上文：把上文內(nèi)容引進(jìn)來(lái)，讓AI更好地去理解完整內(nèi)容。

所以整體來(lái)看，這次火山引擎是想讓AI語(yǔ)音達(dá)到的效果，是要從“像人”走向“懂人”

那么效果到底幾何？老規(guī)矩，一波實(shí)測(cè)，走起~

豆包的語(yǔ)音，學(xué)會(huì)了理解

提到AI語(yǔ)音的玩法，怎么能少的了經(jīng)典名劇《甄嬛傳》

有請(qǐng)，華妃甄嬛

然后我們這次要模仿的片段，是閆妮和海清在一次頒獎(jiǎng)典禮上的一段有趣對(duì)話：

海清：大家晚上好，站在我身邊的是比我漂亮一點(diǎn)點(diǎn)的閆妮姐。
閆妮：站在我身邊的是比我難看一點(diǎn)點(diǎn)的美婦海清。

操作方式上，依舊是先用豆包聲音復(fù)刻模型2.0打造出華妃和甄嬛的聲音，然后再把魔改的臺(tái)詞注入到豆包語(yǔ)音合成模型2.0中。

這一次，我們采用的是“默認(rèn)+語(yǔ)音指令”的方式。

來(lái)，聽(tīng)一下效果：

視頻地址：https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ

嘖嘖嘖，聽(tīng)完這個(gè)片段，華妃的大白眼兒都在腦海里翻上天了……

接下來(lái)，我們?cè)儆酶鑹?dāng)紅炸子雞單依純的聲音來(lái)對(duì)比一下有無(wú)“語(yǔ)音指令”的區(qū)別。

臺(tái)詞是：

我逆轉(zhuǎn)時(shí)空九十九次救你，你卻次次死于同一支暗箭。謝珩，原來(lái)不是天要亡你……是你寧死也不肯為我活下去。

在沒(méi)有“語(yǔ)音指令”的時(shí)候，單依純的聲音念這段臺(tái)詞可以說(shuō)是平平淡淡、寡然無(wú)味：

音頻地址：https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ

但當(dāng)我們加上這么一句指令，“小品女王”單依純的情緒一下子就上來(lái)了：

音頻地址：https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ

不過(guò)有一說(shuō)一，單依純的聲線……還是適合用來(lái)唱歌。

至于有無(wú)“上下文引用”，AI語(yǔ)音生成的效果差距也是比較的。

例如給定一段臺(tái)詞：

北京…因?yàn)槲襾?lái)，這是第二次，上一次是在一…八年還是什么時(shí)候來(lái)過(guò)一次但是時(shí)間很短也沒(méi)有時(shí)間去，真正的去游歷，所以北京對(duì)我來(lái)說(shuō)…只是…還存在一種想象之中啊，嗯沒(méi)有太多的，直觀的體驗(yàn)。

可以看到，這段臺(tái)詞有大量的停頓之處，這就需要AI精準(zhǔn)地去識(shí)別和思考。在沒(méi)有“上下文引用”的時(shí)候，效果是這樣的：

音頻地址：https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ

停頓可以說(shuō)是雜亂無(wú)章了。但若是家里一句[#你怎么評(píng)價(jià)北京這個(gè)城市？]，效果就會(huì)截然不同：

音頻地址：https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ

至于火山引擎這次是如何讓AI語(yǔ)音能力提升的，背后的關(guān)鍵就是我們剛才提到的基于豆包大語(yǔ)言模型研發(fā)語(yǔ)音合成新架構(gòu)

它可以讓合成和復(fù)刻的聲音都能進(jìn)行深度語(yǔ)義理解，并拓展出上下文推理能力，從單純的文本朗讀進(jìn)化為 “理解后的精準(zhǔn)情感表達(dá)”

這意味著模型可以捕捉到對(duì)話的背景信息、用戶的潛在意圖甚至是細(xì)膩的心理活動(dòng)，從而在聲音中注入真實(shí)的情感和擬人感。

基于這種深度的語(yǔ)義理解，模型不僅能實(shí)現(xiàn)更連貫、飽滿的情感演繹，還能精確遵循用戶的指令，靈活調(diào)控語(yǔ)氣、情緒和語(yǔ)速。

這也就不難理解升級(jí)的豆包語(yǔ)音模型能讓AI說(shuō)話這么有味道了。

不過(guò)基于此，火山引擎還解決了一個(gè)業(yè)界老大難的問(wèn)題——讓AI精準(zhǔn)地念出復(fù)雜公式

在現(xiàn)場(chǎng)，團(tuán)隊(duì)就放出了用咱們很熟悉的聲音念出來(lái)的銅與濃硫酸反應(yīng)

視頻地址：https://mp.weixin.qq.com/s/X_8-1s6ZZqkZ9vS69_LeiQ

據(jù)了解，目前市面上的同類模型朗讀準(zhǔn)確率普遍低于50%，但豆包語(yǔ)音大模型2.0版本，在小學(xué)至高中階段全學(xué)科的復(fù)雜公式朗讀中，能夠?qū)崿F(xiàn)90%左右的準(zhǔn)確率！

New的不僅僅是語(yǔ)音

除了語(yǔ)音上的大動(dòng)作之外，火山引擎這次在基座模型和多模態(tài)方面，同樣也有不少的動(dòng)作。

首先，作為技術(shù)底座的豆包大模型1.6迎來(lái)了重要升級(jí)。

此次升級(jí)最大的亮點(diǎn)是，它成為了國(guó)內(nèi)首個(gè)原生支持分檔調(diào)節(jié)思考長(zhǎng)度的Thinking模型。

在實(shí)際應(yīng)用中，深度思考模型常因推理時(shí)間過(guò)長(zhǎng)而導(dǎo)致響應(yīng)延遲和成本高昂，這成為許多企業(yè)望而卻步的門(mén)檻。

豆包大模型1.6通過(guò)訓(xùn)練四種不同的思考模式，讓客戶可以在效果、時(shí)延、成本三者之間找到最適合自身業(yè)務(wù)的平衡點(diǎn)。

例如，在低思考長(zhǎng)度模型下，模型效果與升級(jí)前保持不變，但總輸出tokens下降了77.5%，深度思考時(shí)間更是大幅縮短了84.6%。

與此同時(shí)，火山引擎還首次推出了輕量化的豆包大模型1.6 Lite，為不同應(yīng)用場(chǎng)景提供了更靈活、高效的選擇。

更進(jìn)一步，火山引擎在國(guó)內(nèi)首次發(fā)布了智能模型路由（Smart Model Router）。

“沒(méi)有一款模型是萬(wàn)能的”，這是業(yè)界的共識(shí)。智能模型路由的核心價(jià)值在于，它能像一個(gè)智能調(diào)度中心，根據(jù)用戶任務(wù)的復(fù)雜度和類型，自動(dòng)匹配最合適的模型來(lái)執(zhí)行。

用戶可以在“效果優(yōu)先”、“成本優(yōu)先”和“平衡模式”之間自由切換，系統(tǒng)會(huì)自動(dòng)選取豆包系列或其他業(yè)界主流模型（如DeepSeek、Kimi等）中最優(yōu)的一個(gè)來(lái)完成任務(wù)。

這有效避免了“大材小用”造成的成本浪費(fèi)或是“小材大用”導(dǎo)致的效果不佳。測(cè)試數(shù)據(jù)顯示，在成本優(yōu)先模式下，路由后的綜合成本最高可下降71%，極大地降低了企業(yè)使用大模型的門(mén)檻。

中國(guó)公有云上，每?jī)蓚€(gè)token就有一個(gè)由火山引擎生產(chǎn)

從豆包圖像創(chuàng)作模型Seedream 4.0到豆包語(yǔ)音模型2.0，邁向AI云，這是今年火山引擎的迭代速度。

因此在最后，我們還需要討論一個(gè)問(wèn)題——這一系列密集的產(chǎn)品發(fā)布，意味著什么？

答案其實(shí)清晰地藏在火山引擎眼中全球大模型技術(shù)演進(jìn)的三大核心趨勢(shì)：

更強(qiáng)的思考與理解能力更豐富的多模態(tài)交互以及更實(shí)用的Agent智能體

從能分檔調(diào)節(jié)思考長(zhǎng)度的豆包大模型1.6，到能理解上下文的對(duì)話式語(yǔ)音模型，再到精準(zhǔn)調(diào)度模型的智能路由，無(wú)一不體現(xiàn)了火山引擎對(duì)模型“思考與理解”能力的深度探索。

而豆包語(yǔ)音、圖像、視頻等一系列多模態(tài)模型的持續(xù)迭代和生產(chǎn)級(jí)應(yīng)用，則是在多模態(tài)趨勢(shì)上的堅(jiān)實(shí)布局。

這些技術(shù)創(chuàng)新并非停留在實(shí)驗(yàn)室的理論，而是已經(jīng)深入到了真實(shí)的商業(yè)場(chǎng)景中，并創(chuàng)造著實(shí)際價(jià)值。

例如，小米的智能助手小愛(ài)同學(xué)在接入豆包大模型1.6后，讓手機(jī)、智能眼鏡等終端設(shè)備同時(shí)擁有了智慧的大腦和眼睛，能夠結(jié)合看到的現(xiàn)實(shí)場(chǎng)景進(jìn)行對(duì)話和處理信息。

國(guó)內(nèi)領(lǐng)先的汽車平臺(tái)懂車帝，利用“AI選車”功能，讓復(fù)雜、模糊的購(gòu)車需求得到高質(zhì)量的回應(yīng)，復(fù)雜需求搜索占比從過(guò)去的10%大幅提升至79.4%。

此外，包括OPPO、Keep、美圖、洋蔥學(xué)園在內(nèi)的眾多企業(yè)也已經(jīng)開(kāi)始應(yīng)用火山引擎的語(yǔ)音技術(shù)，在對(duì)話助手、情感陪伴、內(nèi)容配音、教育等領(lǐng)域提升用戶體驗(yàn)。

這一切技術(shù)能力的實(shí)現(xiàn)與規(guī)?；涞?，都離不開(kāi)背后龐大算力和高質(zhì)量數(shù)據(jù)的支撐。

一個(gè)驚人的數(shù)字是，豆包大模型的日均tokens調(diào)用量，在一年多時(shí)間里從1200億增長(zhǎng)至超過(guò)30萬(wàn)億，實(shí)現(xiàn)了253倍的增長(zhǎng)。

根據(jù)IDC數(shù)據(jù)，中國(guó)公有云上每?jī)蓚€(gè)token就有一個(gè)由火山引擎生產(chǎn)。

這背后正是火山引擎AI云所提供的穩(wěn)定、高效的基礎(chǔ)設(shè)施，它為模型的訓(xùn)練和推理提供了關(guān)鍵動(dòng)力，成為推動(dòng)AI技術(shù)從理論走向應(yīng)用的堅(jiān)實(shí)底座。

最后，豆包語(yǔ)音合成模型2.0和豆包聲音復(fù)刻模型2.0現(xiàn)在都已經(jīng)可以體驗(yàn)了，感興趣的小伙伴可以去試試嘍~

體驗(yàn)地址：
https://console.volcengine.com/speech/new/experience/clone?projectName=default

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.