時隔一個多月,字節(jié)豆包大模型再度“上新”。
7月31日消息,字節(jié)跳動旗下云和AI服務(wù)平臺火山引擎于30日發(fā)布全新的豆包·圖像編輯模型3.0、豆包·同聲傳譯模型2.0,豆包大模型1.6系列升級版等產(chǎn)品。
同時,面向Agent智能體開發(fā)和落地,火山引擎持續(xù)優(yōu)化AI云原生全棧服務(wù),并發(fā)布企業(yè)自有模型托管方案、Responses API等多個模型服務(wù)和工具產(chǎn)品,并利用Agent技術(shù)提供數(shù)字員工解決方案。
火山引擎總裁譚待表示,截至今年5月,豆包大模型日均tokens使用量超過16.4萬億,較去年5月首次發(fā)布(1200億)時增長137倍。據(jù)IDC報告,豆包大模型在中國公有云大模型服務(wù)調(diào)用量上位居第一,占比達46.4%。
“過去幾年,大家提到AI最直接的感受就是速度,每天AI領(lǐng)域都發(fā)布很多新的創(chuàng)新技術(shù)?!弊T待稱,大模型能力的不斷提升,正是當(dāng)前技術(shù)大變革的縮影。我們正處于PC到移動、再到AI的三個“時代”變化當(dāng)中,主體從網(wǎng)站、App,到如今的AI Agent智能體,讓軟件第一次從被動的工具變成了主動的執(zhí)行者。
火山引擎總裁譚待
據(jù)悉,過去一年,豆包大模型全面加速技術(shù)迭代、應(yīng)用場景拓展和商業(yè)化落地。
今年6月,豆包大模型升級為1.6版,同時發(fā)布了豆包·視頻生成模型Seedance 1.0 pro、豆包?語音播客模型等新模型。
應(yīng)用場景拓展和商業(yè)化層面,隨著生成式AI產(chǎn)業(yè)已經(jīng)從“百模大戰(zhàn)”,轉(zhuǎn)向通過AI Agent智能化實現(xiàn)商業(yè)落地,AI正從“工具”升級為“助手”,甚至“代理人”。因此,如何將大模型能力轉(zhuǎn)化為具備商業(yè)價值的應(yīng)用,已經(jīng)成為企業(yè)發(fā)展的關(guān)鍵要素。
據(jù)IDC發(fā)布的《中國公有云大模型服務(wù)市場格局分析,2025年一季度》報告顯示,2024年,中國公有云大模型調(diào)用量達114.2萬億tokens。按照大模型調(diào)用量的市場份額來看,火山引擎獨占46.4%的市場份額,位列第一,超過百度智能云(19.3%)和阿里云(19.3%)的總和。其余的15%則由騰訊云、移動云、天翼云等其他廠商獲得。
有消息稱,火山引擎2024年營收超過120億,2025年營收目標(biāo)翻倍超過250億元,預(yù)計將超越百度云年營收水平。
今年6月譚待透露,8-10年(2030年左右),只要世界和平,經(jīng)濟發(fā)展,火山引擎或?qū)⑦_到年收入1000億元。“馬拉松剛跑了500米,未來市場空間最少會擴大100倍,火山會持續(xù)保持國內(nèi) AI 第一。”
此次,火山引擎團隊加速技術(shù)迭代,發(fā)布一系列產(chǎn)品和服務(wù)。
其中,全新豆包·圖像編輯模型3.0(SeedEdit 3.0)。該模型通過強化指令遵循能力、圖像保持能力及生成質(zhì)量,讓用戶僅憑自然語言即可完成消除冗余、調(diào)整光影、替換元素等操作,還能實現(xiàn)風(fēng)格轉(zhuǎn)換、材質(zhì)變換、姿勢調(diào)整等創(chuàng)新修圖場景,從而廣泛適用于影像創(chuàng)作、廣告營銷等領(lǐng)域,企業(yè)用戶可在火山方舟調(diào)用其API,個人用戶則能通過即夢或豆包app體驗。
豆包·同聲傳譯模型2.0。采用全雙工框架,將語音延遲從8-10秒降至2-3秒,較傳統(tǒng)系統(tǒng)降低超60%,實現(xiàn)文本與語音同步生成。更支持0樣本聲音復(fù)刻,無需提前錄制即可實時生成同音色外語語音。
豆包大模型1.6系列全面升級。其中,極速版Doubao-Seed-1.6-flash模型在強視覺理解能力外,還強化了代碼、推理、數(shù)學(xué)等語言模型能力,以更全模型能力,更快速度和更低成本,適配智能巡檢、手機助手等大規(guī)模商業(yè)化場景,該模型首Token輸出時間(PerToken延遲)低至10ms,為業(yè)界領(lǐng)先;成本上,在0-32k輸入文本長度區(qū)間(企業(yè)最常用),每百萬tokens輸入僅0.15元、輸出1.5元,在客戶使用案例中,已實現(xiàn)延遲下降60%、成本降低70%;而全模態(tài)向量化模型Seed 1.6-Embedding首次實現(xiàn)“文本+圖像+視頻”混合模態(tài)融合檢索,在圖片模態(tài)MMEB_v2 Image 榜單中領(lǐng)先第二名5.6分,超過Qwen2 7B等模型。
AI Agent開發(fā)平臺扣子核心能力正式開源,涵蓋一站式可視化開發(fā)工具扣子開發(fā)平臺(Coze Studio),和全鏈路管理工具扣子羅盤(Coze Loop)。開源僅三天,Coze Studio星標(biāo)數(shù)破萬,Coze Loop星標(biāo)數(shù)超3000。
火山方舟升級API體系,推出Responses API。該API具備原生上下文管理能力,支持多輪對話鏈?zhǔn)焦芾砑拔谋?、圖像等多模態(tài)數(shù)據(jù)銜接,結(jié)合緩存能力可降低80%成本;還支持單次請求聯(lián)動多工具與模型組合響應(yīng),將智能助手Agent開發(fā)從460行代碼、1-2天,縮減至60行代碼、1小時,大幅提升效率。
同時,隨著扣子核心能力開源,火山引擎對大模型RLHF訓(xùn)練框架veRL、Coze Studio、Coze Loop、分布式操作系統(tǒng)KubeWharf、DeepResearch開源項目Deerflow等多個技術(shù)棧進行開源。
譚待表示,未來,火山引擎會持續(xù)開源更多的高質(zhì)量項目,幫助企業(yè)做好產(chǎn)品設(shè)計,助力開發(fā)者AI創(chuàng)新,為共建繁榮開源生態(tài)貢獻自己的力量。
此外,值得一提的是,火山引擎還公布了數(shù)字員工交互入口——HiAgent一站式智能體工作臺,包括千人千面的工作畫布形態(tài),更高效的日常工作模式,更靈活的多人協(xié)作、人機協(xié)作模式,從而實現(xiàn)AI時代“混合組織”的高效協(xié)同工作臺。
火山引擎副總裁張鑫表示,很多人上班的一天日常是執(zhí)行代辦、開會、數(shù)據(jù)處理、會議紀(jì)要等,整個過程會面臨內(nèi)容、執(zhí)行流程等問題。如果從系統(tǒng)工程角度看,這暴露了企業(yè)效率的三個瓶頸:第一、大量的工時被這種規(guī)則性任務(wù)所消耗;第二、系統(tǒng)來回切換,導(dǎo)致上下文中斷;第三、信息的孤島制約了決策的效率。因此,HiAgent作為企業(yè)一站式智能體工作臺,希望通過幫企業(yè)源源不斷派遣“數(shù)字員工”,拓展人類服務(wù)邊界和認(rèn)知邊界,從而解決上述問題。
具體來說,HiAgent數(shù)字員工提供千人千面的畫布形態(tài)作為數(shù)字員工的交互入口,銷售人員看到的是客戶管理的看板,而HR看到的則是招聘助手和績效管理助手,讓每個人的工作臺都在自己的需求方向上。另外,通過畫布連接企業(yè)所有的系統(tǒng),讓“數(shù)字員工”充當(dāng)中轉(zhuǎn)站,搞定所有流程,從而讓人可以專注在自己的目標(biāo)上。
“在整個智能體的生命周期里,如何讓‘?dāng)?shù)字員工’變得越來越聰明。一個關(guān)鍵詞就叫做干中學(xué),并且讓數(shù)據(jù)支撐貫穿始終。”張鑫稱,整個過程中,企業(yè)要通過數(shù)據(jù)支持的反饋和考核,來幫助數(shù)字員工邊干、邊學(xué)、變聰明。而對于企業(yè)來說,一個數(shù)字員工好不好用,并不是入職即巔峰,而是要越用越懂你。
目前,HiAgent數(shù)字員工方案已經(jīng)開始落地。例如,廣交數(shù)科基于HiAgent平臺打造AI數(shù)字員工平臺解決方案,覆蓋車輛維修、公交廣告、經(jīng)濟運行分析等場景,支撐企業(yè)快速實現(xiàn)AI 轉(zhuǎn)型、管理變革和競爭力重塑;廈門大學(xué)基于HiAgent平臺打造廈門大學(xué)招生咨詢助手 “廈小招”,為考生及家長提供招生政策解讀、 專業(yè)特色介紹、校園生活咨詢、錄取流程指導(dǎo)等一站式咨詢服務(wù),支撐招生咨詢效率提升與考生服務(wù)體驗優(yōu)化等。
實際上,盡管“數(shù)字員工”這一理念提出了很多年,之前也有很多初創(chuàng)公司進行研發(fā)和提供解決方案,但如今,火山引擎的加入,將加速“數(shù)字員工”領(lǐng)域的商業(yè)落地。
那么,現(xiàn)在AI不僅可以幫我寫內(nèi)容、剪輯視頻、生成圖片,甚至機器人、數(shù)字人可以替代我說話,而如今,“數(shù)字員工”的落地,已經(jīng)讓我感受到了濃濃的危機感。
據(jù)了解,目前豆包團隊依然在發(fā)力全模態(tài)模型,并且豆包同聲傳譯模型即將在8月上線到Ola Friend耳機當(dāng)中。
譚待認(rèn)為,云計算行業(yè)的第一次浪潮是在線化,在線化積累了很多數(shù)據(jù),但這些數(shù)據(jù)價值可能只發(fā)揮了1%到5%。第二次浪潮是智能化,智能化不只能發(fā)揮出數(shù)據(jù)的價值,還能端到端地做很多事,包括MaaS(模型即服務(wù))、AI Agent(智能體),而在智能化的浪潮下,大家都在同一條起跑線上,都要使勁跑?!拔业囊笫遣荒苡卸贪?,因為云計算的客戶很多元,行業(yè)差異很大。當(dāng)然智能化的事情,比如豆包大模型、AI云原生要做得更好?!?/p>
譚待強調(diào),火山引擎希望用更好的技術(shù)和產(chǎn)品,持續(xù)幫助企業(yè)和開發(fā)者,在AI時代不斷創(chuàng)新、加速發(fā)展。(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|蓋虹達)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.