《鳳凰WEEKLY財(cái)經(jīng)》獲悉,8月21日,百度蒸汽機(jī)(MuseSteamer)音視頻一體化模型完成重大升級,在行業(yè)內(nèi)首次實(shí)現(xiàn)多人有聲視頻一體化生成。其Turbo版、Lite版、Pro版及全系有聲版全面開放,用戶可通過百度搜索“百度蒸汽機(jī)”或登錄“繪想”平臺體驗(yàn),企業(yè)用戶可在千帆平臺享受高性能視頻生成服務(wù)。
據(jù)介紹,百度蒸汽機(jī)是全球首個(gè)中文音視頻一體化生成的I2V模型,不僅支持環(huán)境音效,更支持多角色語音的一體化生成。百度蒸汽機(jī)2.0有聲版模型讓AIGC視頻創(chuàng)作徹底告別了配音,創(chuàng)作者只需要一張圖和提示詞。
國際知名視效指導(dǎo)姚騏使用百度蒸汽機(jī)模型制作了科幻短片《歸途》后表示,“它讓好萊塢級大片鏡頭不再需要百萬預(yù)算。”據(jù)他介紹,該作品共有40多個(gè)鏡頭,每個(gè)鏡頭生成3次,共用AI生成超120個(gè)片段素材,成本低至百元。
百度同時(shí)表示,該系列大模型已經(jīng)在百度搜索、營銷等多個(gè)場景落地應(yīng)用,針對不同需求用戶,平臺提供了梯度會員服務(wù),價(jià)格低至行業(yè)同類產(chǎn)品的70%。
百度商業(yè)研發(fā)首席架構(gòu)師李雙龍對《鳳凰WEEKLY財(cái)經(jīng)》透露,在百度蒸汽機(jī)研發(fā)過程中,主要面臨兩大核心技術(shù)難點(diǎn):一方面,由于需要實(shí)現(xiàn)“生成與應(yīng)用一體化”,且要適配多角色場景,如何構(gòu)建有效的規(guī)劃機(jī)制,將多角色的語音、動作與聲音進(jìn)行精準(zhǔn)匹配和統(tǒng)籌協(xié)調(diào),確保整體呈現(xiàn)的一致性與流暢性,是首要攻克的難題;另一方面,鑒于產(chǎn)品采用一體化生成模式,整個(gè)流程并非將模型拆分為多個(gè)獨(dú)立環(huán)節(jié)分步處理,而是通過端到端的技術(shù)路徑完成,因此如何在該技術(shù)路徑下實(shí)現(xiàn)高效渲染并保障最終效果,成為了另一關(guān)鍵挑戰(zhàn)。
而在需求收集過程中,百度也發(fā)現(xiàn),除質(zhì)量外,成本是用戶核心關(guān)切點(diǎn)。百度副總裁、移動生態(tài)商業(yè)體系負(fù)責(zé)人陳一凡表示,若成本居高不下,用戶接受度低,質(zhì)量優(yōu)勢也難以落地。因此,團(tuán)隊(duì)在模型訓(xùn)練階段便注重成本控制。依托在 GPU 計(jì)算領(lǐng)域的深厚積累,團(tuán)隊(duì)通過調(diào)整訓(xùn)練集、優(yōu)化相關(guān)流程等大量工作,實(shí)現(xiàn)了效率提升。相較于上一代更側(cè)重算法策略的思路,本次充分發(fā)揮商業(yè)團(tuán)隊(duì)在大模型工程領(lǐng)域的豐富經(jīng)驗(yàn),僅用幾十天便同步達(dá)成質(zhì)量提升與成本降低,更好滿足用戶需求。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.