“全球AI大模型正在三個(gè)方向上快速發(fā)展:一是深度思考模型正與多模態(tài)理解能力融合,二是視頻、圖像、語音模型逐步實(shí)現(xiàn)生產(chǎn)級(jí)水平,三是企業(yè)級(jí)復(fù)雜Agent正在走向成熟,為企業(yè)激發(fā)新的生產(chǎn)力潛能?!?025年10月16日,火山引擎總裁譚待在FORCE LINK AI創(chuàng)新巡展武漢站上指出?;诖?,在當(dāng)天活動(dòng)上火山引擎發(fā)布了豆包大模型的一系列更新:包括豆包大模型1.6、豆包大模型1.6 lite、豆包語音合成模型2.0、豆包聲音復(fù)刻模型2.0等全新模型。
豆包系列模型迎升級(jí),滿足多領(lǐng)域用戶需求
就豆包大模型 1.6來說,它實(shí)現(xiàn)了全新升級(jí),這讓其能提供Minimal、Low、Medium、High四種思考長度,平衡企業(yè)在不同場(chǎng)景下對(duì)模型效果、時(shí)延、成本的不同需求,并進(jìn)一步提升了思考效率。以低思考長度為例,相比模型升級(jí)之前的單一思考模式,升級(jí)后的豆包1.6模型總輸出Tokens下降77.5%、思考時(shí)間下降84.6%,模型效果保持不變。據(jù)了解,這也是國內(nèi)首個(gè)原生支持“分檔調(diào)節(jié)思考長度”的模型。在服務(wù)企業(yè)用戶的過程中,火山引擎發(fā)現(xiàn)當(dāng)開啟深度思考模式,模型效果平均可提升31%,但會(huì)提高模型延遲和使用成本,這導(dǎo)致在實(shí)際應(yīng)用中深度思考模式的使用占比僅有18%。而豆包大模型1.6可以很好地解決這一問題。
就豆包大模型1.6 lite來說,它能進(jìn)一步地滿足企業(yè)的多樣化需求。相比旗艦版本,它更加輕量、推理速度也更快。在效果上,它也優(yōu)于豆包大模型1.5 pro:在企業(yè)級(jí)場(chǎng)景測(cè)評(píng)中較豆包1.5 pro提升14%;在使用量最大的0-32k輸入?yún)^(qū)間里,綜合使用成本較豆包1.5 pro降低53.3%。
就豆包語音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包聲音復(fù)刻模型2.0(Doubao-Seed-ICL 2.0)來說,其具備更強(qiáng)的情感表現(xiàn)力、更精準(zhǔn)的指令遵循能力,還能準(zhǔn)確朗讀復(fù)雜公式。據(jù)介紹,該模型基于豆包大語言模型研發(fā)語音合成新架構(gòu),讓合成和復(fù)刻的聲音都能進(jìn)行深度語義理解,并能拓展出上下文推理能力,從單純的文本朗讀進(jìn)化為“理解后的精準(zhǔn)情感表達(dá)”。用戶還能通過自然語言,實(shí)現(xiàn)對(duì)語速、情緒、聲線、音調(diào)、風(fēng)格變化的精準(zhǔn)調(diào)整,大幅提升語音的可控性。在教育場(chǎng)景中,復(fù)雜公式和符號(hào)的朗讀一直是業(yè)界難題,目前市面上的同類模型朗讀準(zhǔn)確率普遍低于50%。豆包語音模型對(duì)此問題進(jìn)行了針對(duì)性優(yōu)化,目前在小學(xué)至高中階段全學(xué)科的復(fù)雜公式朗讀中,準(zhǔn)確率可達(dá)90%。自2024年5月首次發(fā)布以來,豆包語音模型家族已覆蓋語音合成、語音識(shí)別、聲音復(fù)刻、實(shí)時(shí)語音、同聲傳譯、音樂創(chuàng)作、播客創(chuàng)作等7大領(lǐng)域,已覆蓋超過4.6億臺(tái)智能終端??梢哉f,該模型在一定程度上推動(dòng)語音成為了AI應(yīng)用的核心交互方式。
圖 | 豆包語音合成、聲音復(fù)刻模型2.0發(fā)布,讓聲音能理解、會(huì)“表演”
同時(shí),火山引擎還在本次活動(dòng)上表示,豆包大模型的日均Tokens已經(jīng)超30萬億?;鹕揭婵偛米T待表示:“我在很早之前就表達(dá)過這一觀點(diǎn):一家企業(yè)說自己AI轉(zhuǎn)型做得好,首先看自己每天消耗多少Tokens,如果10億Tokens都沒有到,那肯定不好意思說自己在做AI轉(zhuǎn)型?!彼^續(xù)說道:“每次舉辦新的巡展豆包大模型的Tokens都漲了很多,未來還可以漲更多,可能會(huì)漲幾百倍,這個(gè)趨勢(shì)遠(yuǎn)遠(yuǎn)沒有結(jié)束。對(duì)于To B的業(yè)務(wù)來說每個(gè)企業(yè)都要花錢,企業(yè)做決策都很理性,愿意花錢買Tokens當(dāng)然是因?yàn)門okens創(chuàng)造了價(jià)值——讓它的硬件更好賣、讓它的品牌更好、讓它的服務(wù)效率更高、讓它的成本降低等等?!?/p>
發(fā)布智能模型路由,國內(nèi)首個(gè)模型智能選擇解決方案
模型越來越多,當(dāng)面對(duì)具體需求時(shí)如何選擇模型才是最有性價(jià)比?為了解決這個(gè)選擇難題,火山引擎智能模型路由(Smart Model Router)正式面世,據(jù)介紹這也是國內(nèi)首個(gè)針對(duì)模型智能選擇的解決方案。目前,火山引擎智能模型路由已能支持豆包大模型、DeepSeek、Qwen、Kimi等多種主流模型。以DeepSeek為例,經(jīng)過實(shí)測(cè),在效果優(yōu)先模式下,在智能路由之后模型的效果相比直接使用DeepSeek-V3.1提升14%;在成本優(yōu)先模式下,在實(shí)現(xiàn)DeepSeek-V3.1相似效果的條件下,模型的綜合成本最高下降超過70%。談及火山引擎智能路由,譚待表示:“Tokens太長也會(huì)帶來成本,所以我們今天做了智能路由、做了分段的思考長度,把長度降下來也能進(jìn)一步降低成本和降低開發(fā)難度?!蹦壳?,用戶可以在火山方舟上選擇“智能模型路由”功能,該功能支持“平衡模式”、“效果優(yōu)先模式”和“成本優(yōu)先模式”三種方案,可針對(duì)任務(wù)請(qǐng)求自動(dòng)選擇最合適的模型,達(dá)到效果與成本的最優(yōu)解,即日起用戶即可使用這一功能。譚待解釋稱,分檔理解起來很簡(jiǎn)單,因?yàn)槟P褪前碩okens計(jì)費(fèi)的,選擇不同檔位以后輸出的Tokens長度不一樣。很多問題沒有那么復(fù)雜,不用思考那么長時(shí)間,畢竟思考那么長時(shí)間又慢又花錢,而能夠自動(dòng)選擇就會(huì)好很多。與此同時(shí),模型路由本身不收費(fèi),路由到哪個(gè)模型就按照哪個(gè)模型收費(fèi)。
而在企業(yè)合作上,譚待表示:“很多車廠之所以選擇火山引擎是因?yàn)橹涝谀P头?wù)上我們做得最好?!蹦壳?,火山引擎和已經(jīng)幾家車廠在 座艙上做共創(chuàng),并已和手機(jī)智能助手做共創(chuàng),瑞幸和茶百道等絕大部分茶飲企業(yè)都在使用豆包大模型。展望未來譚待表示:“未來,我們將能看到更多案例,不僅僅是汽車和終端零售等領(lǐng)域,可能更加傳統(tǒng)的能源行業(yè)合作案例也會(huì)展現(xiàn)?!彼a(bǔ)充稱:“AI不是一個(gè)新概念,今天的AI和10年前、20年前、5年前最大的區(qū)別是什么?最大的區(qū)別是大模型的服務(wù)。對(duì)于火山引擎來說,AI云最重要的事情也有可能是唯一的事情就是大模型服務(wù)。所以,我們一直努力地在大模型服務(wù)商之中保持領(lǐng)先,通過不斷的基礎(chǔ)創(chuàng)新、模型創(chuàng)新、工具創(chuàng)新、AI云原生的創(chuàng)新,來實(shí)現(xiàn)Tokens調(diào)用和模型服務(wù)市場(chǎng)的領(lǐng)先?!?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.