一句話，讓黑神話鐘馗開口說話！體驗(yàn)百度蒸汽機(jī)2.0的音畫同步，口型還能對得上嗎？

2025-08-22 10:20:06　來源: 智東西

北京舉報(bào)

分享至

智東西AI前瞻（公眾號：zhidxcomAI）
作者江宇
編輯漠影

智東西8月21日報(bào)道，今日，百度正式發(fā)布百度蒸汽機(jī)2.0大模型，是全球首個(gè)支持中文音視頻一體化生成的大模型。在原有圖生視頻能力基礎(chǔ)上，本次新增“有聲版”，具備支持環(huán)境音效、人聲對白及嘴型同步能力，支持畫面與聲音的同步生成。

蒸汽機(jī)2.0具備“形神音容”一體化生成能力，將原本需要分別完成的三個(gè)步驟——視頻畫面、配音效與對白同步，整合為一次生成完成，也被形容為“三步并一步”。

價(jià)格方面，蒸汽機(jī)Turbo有聲版定價(jià)為1.4元/5秒，據(jù)百度蒸汽機(jī)透露，這一價(jià)格大約是行業(yè)平均成本的七成。

一、從“靜音圖像”到“全聲動態(tài)”，蒸汽機(jī)強(qiáng)化鏡頭語言與聲音整合

相比傳統(tǒng)視頻生成流程需逐步完成圖像、音效、對白等環(huán)節(jié)，百度此次發(fā)布的蒸汽機(jī)“有聲版”模型嘗試將這些過程整合至單一模型內(nèi)完成。

該模型還引入了更復(fù)雜的鏡頭語言，包括“繞鏡”等動態(tài)運(yùn)鏡方式，同時(shí)配合大規(guī)模提示詞理解能力的升級，使得用戶即便輸入較為簡短的自然語言，也能生成畫面流暢、鏡頭調(diào)度自然的視頻內(nèi)容。

同時(shí)，在聲音方面，蒸汽機(jī)模型不僅同步生成環(huán)境聲與人聲，還嘗試做到人物動作與唇形的匹配。

該模型支持“多人對話、嘴型對齊、角色情緒同步”等多模態(tài)生成任務(wù)，背后由“多模態(tài)潛在空間規(guī)劃”機(jī)制支持，能在建模階段統(tǒng)一安排角色身份、語氣、對話內(nèi)容與視覺呈現(xiàn)，使得成片更具整體感與敘事一致性。

此外，百度也強(qiáng)調(diào)了中文場景的適配能力，包括中文發(fā)音結(jié)構(gòu)的唇形匹配、語境識別與本地化音色模擬，在中文語境下具備更高擬真度。

二、體驗(yàn)：畫面風(fēng)格不同，聲音能力初步開放

智東西上手體驗(yàn)了百度蒸汽機(jī)2.0視頻模型的四個(gè)版本，分別對應(yīng)不同的生成能力側(cè)重。

1、蒸汽機(jī)2.0 Turbo（標(biāo)準(zhǔn)基礎(chǔ)款）：沖浪者與巨浪共舞

這段效果很好，陽光透過海浪的光感很自然，畫面層次感強(qiáng)。沖浪者的動作也很順暢，整體看不太出是AI生成的，挺接近實(shí)拍的質(zhì)感。

2、蒸汽機(jī)2.0 Pro（精準(zhǔn)響應(yīng)，畫質(zhì)清晰）：海底世界的美麗魚群

魚群游動的畫面非常逼真，魚鰓這些細(xì)節(jié)都保留得不錯(cuò)，海底的珊瑚也非常統(tǒng)一，視覺上挺舒服的。就是偶爾幾幀里，魚尾有點(diǎn)失真。

3、蒸汽機(jī)2.0 Lite（創(chuàng)意簡單表達(dá)，極速生成）：雨夜霓虹，城市漫步

前景的行人走路還算自然，但背景里有些人動作有點(diǎn)僵硬，甚至還有“瞬間消失”的Bug。不過雨夜氛圍保留得不錯(cuò)，水塘里的雨滴、霓虹倒影這些細(xì)節(jié)挺到位的，整體畫面觀感還行。

4、蒸汽機(jī)2.0 有聲版（支持音效生成）：鐘馗出場

本次體驗(yàn)首幀圖選用了游戲科學(xué)最新發(fā)布的《黑神話·鐘馗》預(yù)告片中的一幕。智東西嘗試了三個(gè)不同提示詞的生成結(jié)果，人物形象沒問題，老虎的形象也挺還原，背景音效基本跟提示詞能對上。

比較有意思的是，起初的兩次嘗試，“怒吼”這個(gè)關(guān)鍵詞在兩段視頻中被模型理解成了不同的主體：一段是鐘馗怒吼，一段則是老虎發(fā)聲。而提示詞中提到的“倒吸涼氣”聲效未響應(yīng)，不過背景音的氛圍感呈現(xiàn)尚可。

在第三次調(diào)整提示詞后，鐘馗的臺詞得到了較準(zhǔn)確的還原，音色、語氣與人物形象較為契合，嘴型同步效果也很清晰，聲音生成與畫面銜接更為自然。

提示詞1：需背景音。主體（虎背上的鐘馗）低頭靜止，緩慢抬頭，抬頭瞬間，背后有兩三人傳出倒吸涼氣的害怕聲。同時(shí)，坐騎老虎有一聲怒吼。場景為山林、低霧、陰雨天氣，整體氛圍壓抑、肅殺。

提示詞2：需背景音。主體低頭靜止，緩慢抬頭，抬頭瞬間，背后有兩三人傳出倒吸涼氣的害怕聲。同時(shí)，坐騎老虎有一聲怒吼。場景為山林、低霧、陰雨天氣，整體氛圍壓抑、肅殺。

提示詞3：需背景音。主體為騎在虎背上的鐘馗，初始低頭靜止，隨后緩慢抬頭。在抬頭至目視前方的瞬間，鐘馗開口喊道：“罰惡司——鐘馗！”聲音洪亮、有氣勢。陰雨天氣，氛圍壓抑肅殺。

結(jié)語：一體化生成已站穩(wěn)，表現(xiàn)仍需持續(xù)打磨

百度此次將“畫面、音效、對白”打包生成，仍具一定標(biāo)志性。相比早期“靜音片段+后期配音”的做法，如今一體化生成的路徑的確更省力也更直觀。

但從當(dāng)前體驗(yàn)來看，聲音生成的準(zhǔn)確性與口型協(xié)調(diào)仍存在一定差距，尤其在多角色對話、強(qiáng)調(diào)動作與臺詞同步的場景下，模型的時(shí)序控制還未完全成熟。不過，整體上百度蒸汽機(jī)在“形神音容”一體化生成方向上，邁出了可見的一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.