智東西AI前瞻(公眾號:zhidxcomAI)
作者 江宇
編輯 漠影
智東西8月21日報(bào)道,今日,百度正式發(fā)布百度蒸汽機(jī)2.0大模型,是全球首個(gè)支持中文音視頻一體化生成的大模型。在原有圖生視頻能力基礎(chǔ)上,本次新增“有聲版”,具備支持環(huán)境音效、人聲對白及嘴型同步能力,支持畫面與聲音的同步生成。
蒸汽機(jī)2.0具備“形神音容”一體化生成能力,將原本需要分別完成的三個(gè)步驟——視頻畫面、配音效與對白同步,整合為一次生成完成,也被形容為“三步并一步”。
價(jià)格方面,蒸汽機(jī)Turbo有聲版定價(jià)為1.4元/5秒,據(jù)百度蒸汽機(jī)透露,這一價(jià)格大約是行業(yè)平均成本的七成。
一、從“靜音圖像”到“全聲動態(tài)”,蒸汽機(jī)強(qiáng)化鏡頭語言與聲音整合
相比傳統(tǒng)視頻生成流程需逐步完成圖像、音效、對白等環(huán)節(jié),百度此次發(fā)布的蒸汽機(jī)“有聲版”模型嘗試將這些過程整合至單一模型內(nèi)完成。
該模型還引入了更復(fù)雜的鏡頭語言,包括“繞鏡”等動態(tài)運(yùn)鏡方式,同時(shí)配合大規(guī)模提示詞理解能力的升級,使得用戶即便輸入較為簡短的自然語言,也能生成畫面流暢、鏡頭調(diào)度自然的視頻內(nèi)容。
同時(shí),在聲音方面,蒸汽機(jī)模型不僅同步生成環(huán)境聲與人聲,還嘗試做到人物動作與唇形的匹配。
該模型支持“多人對話、嘴型對齊、角色情緒同步”等多模態(tài)生成任務(wù),背后由“多模態(tài)潛在空間規(guī)劃”機(jī)制支持,能在建模階段統(tǒng)一安排角色身份、語氣、對話內(nèi)容與視覺呈現(xiàn),使得成片更具整體感與敘事一致性。
此外,百度也強(qiáng)調(diào)了中文場景的適配能力,包括中文發(fā)音結(jié)構(gòu)的唇形匹配、語境識別與本地化音色模擬,在中文語境下具備更高擬真度。
二、體驗(yàn):畫面風(fēng)格不同,聲音能力初步開放
智東西上手體驗(yàn)了百度蒸汽機(jī)2.0視頻模型的四個(gè)版本,分別對應(yīng)不同的生成能力側(cè)重。
1、蒸汽機(jī)2.0 Turbo(標(biāo)準(zhǔn)基礎(chǔ)款):沖浪者與巨浪共舞
這段效果很好,陽光透過海浪的光感很自然,畫面層次感強(qiáng)。沖浪者的動作也很順暢,整體看不太出是AI生成的,挺接近實(shí)拍的質(zhì)感。
2、蒸汽機(jī)2.0 Pro(精準(zhǔn)響應(yīng),畫質(zhì)清晰):海底世界的美麗魚群
魚群游動的畫面非常逼真,魚鰓這些細(xì)節(jié)都保留得不錯(cuò),海底的珊瑚也非常統(tǒng)一,視覺上挺舒服的。就是偶爾幾幀里,魚尾有點(diǎn)失真。
3、蒸汽機(jī)2.0 Lite(創(chuàng)意簡單表達(dá),極速生成):雨夜霓虹,城市漫步
前景的行人走路還算自然,但背景里有些人動作有點(diǎn)僵硬,甚至還有“瞬間消失”的Bug。不過雨夜氛圍保留得不錯(cuò),水塘里的雨滴、霓虹倒影這些細(xì)節(jié)挺到位的,整體畫面觀感還行。
4、蒸汽機(jī)2.0 有聲版(支持音效生成):鐘馗出場
本次體驗(yàn)首幀圖選用了游戲科學(xué)最新發(fā)布的《黑神話·鐘馗》預(yù)告片中的一幕。智東西嘗試了三個(gè)不同提示詞的生成結(jié)果,人物形象沒問題,老虎的形象也挺還原,背景音效基本跟提示詞能對上。
比較有意思的是,起初的兩次嘗試,“怒吼”這個(gè)關(guān)鍵詞在兩段視頻中被模型理解成了不同的主體:一段是鐘馗怒吼,一段則是老虎發(fā)聲。而提示詞中提到的“倒吸涼氣”聲效未響應(yīng),不過背景音的氛圍感呈現(xiàn)尚可。
在第三次調(diào)整提示詞后,鐘馗的臺詞得到了較準(zhǔn)確的還原,音色、語氣與人物形象較為契合,嘴型同步效果也很清晰,聲音生成與畫面銜接更為自然。
提示詞1:需背景音。主體(虎背上的鐘馗)低頭靜止,緩慢抬頭,抬頭瞬間,背后有兩三人傳出倒吸涼氣的害怕聲。同時(shí),坐騎老虎有一聲怒吼。場景為山林、低霧、陰雨天氣,整體氛圍壓抑、肅殺。
提示詞2:需背景音。主體低頭靜止,緩慢抬頭,抬頭瞬間,背后有兩三人傳出倒吸涼氣的害怕聲。同時(shí),坐騎老虎有一聲怒吼。場景為山林、低霧、陰雨天氣,整體氛圍壓抑、肅殺。
提示詞3:需背景音。主體為騎在虎背上的鐘馗,初始低頭靜止,隨后緩慢抬頭。在抬頭至目視前方的瞬間,鐘馗開口喊道:“罰惡司——鐘馗!”聲音洪亮、有氣勢。陰雨天氣,氛圍壓抑肅殺。
結(jié)語:一體化生成已站穩(wěn),表現(xiàn)仍需持續(xù)打磨
百度此次將“畫面、音效、對白”打包生成,仍具一定標(biāo)志性。相比早期“靜音片段+后期配音”的做法,如今一體化生成的路徑的確更省力也更直觀。
但從當(dāng)前體驗(yàn)來看,聲音生成的準(zhǔn)確性與口型協(xié)調(diào)仍存在一定差距,尤其在多角色對話、強(qiáng)調(diào)動作與臺詞同步的場景下,模型的時(shí)序控制還未完全成熟。不過,整體上百度蒸汽機(jī)在“形神音容”一體化生成方向上,邁出了可見的一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.