網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，好萊塢特效師展示AI生成的中文科幻大片，成本只有330元

2025-08-21 21:54:35　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

多模態(tài)的生成，是 AI 未來的方向。

最近，AI 領(lǐng)域的氣氛正在發(fā)生微妙的變化。比如，剛剛推出了 Grok 4 的 xAI 卻在重點宣傳他們的視頻生成模型 Grok Image。

與此前使用文字提示生成視頻的方式不同，新一代的工具已經(jīng)實現(xiàn)全鏈路覆蓋：先用文字或語音生成圖像，再用圖像生成視頻。你也可以直接上傳圖片來生成視頻，還能自帶音效，然后一鍵發(fā)到社交媒體瘋狂轉(zhuǎn)發(fā)。

如果說很長一段時間里，我們印象中的 AI 還停留在寫稿子、畫張圖，那么現(xiàn)在，它們已經(jīng)能一鍵生成一部「電影級大片」了。不得不說，這就像是正在進(jìn)行的一場工業(yè)革命：過去需要整支團隊、大量資金和很長周期才能完成的創(chuàng)意性工作，現(xiàn)在只需要一張圖片、一段文本指令就能實現(xiàn)。

就在今天下午，百度把視頻生成 AI 技術(shù)推向了新的高度，其全球首發(fā)中文音視頻一體化模型百度蒸汽機（MuseSteamer）2.0，實現(xiàn)了生成視頻中人物口型、表情、動作的毫秒級同步

這個 7 月初首次亮相的視頻生成模型，從剛開始合成高質(zhì)量音效到如今音畫高度一致，完成了質(zhì)的飛躍，讓國產(chǎn) AI 視頻真正邁入到了「有聲有色」的全新階段。

百度蒸汽機全系視頻模型 & 應(yīng)用升級發(fā)布會現(xiàn)場。

在人物口型與語音毫秒級對齊之外，表情、動作同樣自然流暢，連運鏡都像是出自大師之手。從角色對白到鏡頭推進(jìn)，仿佛背后真有一個經(jīng)驗豐富的導(dǎo)演在操控。

此次，百度蒸汽機 2.0 對Turbo 版、Lite 版、Pro 版及有聲版本來了一波全方位升級，并全部開放給用戶使用。各個模型版本在視頻分辨率、生成時長以及主打特性上各有側(cè)重，為不同創(chuàng)作需求提供了靈活選擇，其中：

Turbo 版可生成分辨率 720p 和時長 5s 的視頻，適合快速體驗與廣泛應(yīng)用；
Lite 版是 Turbo 更輕量級的版本，生成速度更快，成本更低，適合追求效率和性價比的用戶使用；
Pro 版輸出分辨率 1080p 和時長 5s，主打高分辨率與電影級質(zhì)感，適合追求高畫質(zhì)的創(chuàng)作者；
最后是有聲版，分辨率 720p 和時長 5s/10s，專注于音畫一體的沉浸式體驗，是此次的重頭戲。

與此同時，百度蒸汽機 2.0 在價格這塊也極具競爭力，全系價格僅為國內(nèi)主流競品的 70%，Turbo 版生成 5 秒有聲視頻限時價格僅為 1.4 元，這就為用戶帶來了更高的性價比。

百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林在活動中

目前，用戶既可以在百度搜索、百度 APP 以及各個手機瀏覽器的百度搜索入口直接進(jìn)行體驗，也可以登錄百度蒸汽機的應(yīng)用平臺「繪想」進(jìn)行創(chuàng)作。

繪想平臺地址：https://huixiang.baidu.com/

一張圖、一段話，便能生成有聲視頻。真的有那么神奇嗎？帶著這個疑問，我們對百度蒸汽機 2.0 來了波實測。

第一手實測

AI 生成的人物對話，就像在演情景劇

在「繪想」用戶界面，我們可以看到，百度蒸汽機 2.0 全系模型現(xiàn)已正式上線。

用戶上傳的首幀圖支持 JPEG、PNG、WEBP 等多種格式，并且可以根據(jù)自己的需求自由選擇是否加入背景音。

我們「牛刀小試」，來個單人吃播場景，音畫同步的效果可以說是杠杠的。

動作整體保持流暢，畫面清晰度和亮度都比較穩(wěn)定，沒有明顯的閃爍或抖動；眨眼、嘴角咀嚼的一些細(xì)小動作也讓人物更加地鮮活。

不過，既然百度蒸汽機 2.0 有聲版的核心亮點之一是「多人對話互動」，我們重點測了一波多人場景，看看它是否能拿捏住不同角色和復(fù)雜語境。

我們先讓模型復(fù)現(xiàn) OpenAI 發(fā)布 o1 時的景象，將 o 系列前核心架構(gòu)師 Hyung Won Chung 的介紹轉(zhuǎn)換成中文，說起來還是很溜的。

最近國產(chǎn)動畫電影《浪浪山小妖怪》大賣，我們找一個截圖，讓幾位主角（小豬妖、蛤蟆精、黃鼠狼精和猩猩怪）來場對話。

整體看下來，動作切換沒有出現(xiàn)明顯的「卡頓」或機械感，流暢度很高；此外，各個主角的面部細(xì)節(jié)與神態(tài)轉(zhuǎn)換也很自然。

打了一場大勝仗的 AI「丞相」，開心地扇著小風(fēng)扇，終于可以享受享受了。

除了中文，英文語境同樣可以 hold 住。多個人加上多個動物，也能表現(xiàn)出穩(wěn)定的效果，貓頭鷹的腦袋在以正確的方式轉(zhuǎn)動。

側(cè)臉場景也能穩(wěn)穩(wěn)拿下。最近，OpenAI 被 Meta 挖人挖麻了，雙方在人才戰(zhàn)中火藥味十足。這兩家 AI 巨頭的 CEO 面對面坐下來之后，會發(fā)生怎樣有趣的對話呢？

口型與聲音的同步雖不如正臉那樣嚴(yán)絲合縫，但保持了基本的自然銜接，兩人的動作與神態(tài)演繹得相當(dāng)?shù)轿?，包括肢體起伏、眨眼細(xì)節(jié)，更貼近真實場景。

進(jìn)一步測試中，我們嘗試了不同運鏡語言下的畫面生成

例如，生成一段車水馬龍的延時攝影，它能精準(zhǔn)模擬車流的動態(tài)變化和時間流逝的效果，紅白交織的車燈在畫面中迅速閃現(xiàn)，呈現(xiàn)出延時攝影中常見的快速移動感和光影交錯的美感，畫面自然連貫，幾乎看不出什么瑕疵。

同時，背景音的加入也為整體畫面增添了真實感。

提示詞：快速的延時攝影，熙熙攘攘的車流極快速行駛，出現(xiàn)一道道紅白相間的燈光，車輛行駛的聲音需背景音

多個鏡頭語言疊加的場景中，模型同樣表現(xiàn)出色

比如下面這則視頻，鏡頭一開始聚焦于男人，隨后平滑轉(zhuǎn)移到身后的女孩，鏡頭推拉與焦點切換的過程都非常流暢，畫面絲毫沒有出現(xiàn)崩壞或突兀的情況。

提示詞：聚焦于看向女孩的男人，鏡頭焦點隨后轉(zhuǎn)移到女孩身上，她自信地看向鏡頭并擺出姿勢

經(jīng)過數(shù)輪測試，我們發(fā)現(xiàn)百度蒸汽機 2.0 的主要優(yōu)勢在于一步到位 —— 相比于其他視頻生成模型，它生成的內(nèi)容音畫俱全，而且需要再次調(diào)整的地方較少，經(jīng)常能夠達(dá)到直接可用的程度。

為讓 AI 學(xué)會「編劇」，革新模型架構(gòu)

從最初只能生成扭曲畫面、配點塑料音效 bgm，到如今的電影級運鏡，人物聲音精準(zhǔn)對上口型，AI 視頻生成需要跨越一條艱難的技術(shù)鴻溝。要真正做到「有聲有色」，模型必須同時攻克以下兩大核心難題。

一是時序?qū)R，視頻是按幀生成的，而語音是連續(xù)波形，這就導(dǎo)致兩者的采樣率和時間粒度不同。因此，音畫同步首要解決的便是口型與語音的毫秒級對齊，較高的延遲會給人「口型對不上聲」的不適感。二是多模態(tài)特征融合，語音不單單要對上口型，其自身還承載了節(jié)奏、情感、力度，它們與表情、動作、環(huán)境的協(xié)調(diào)決定了畫面是否自然，因此模型要能理解并生成跨模態(tài)細(xì)粒度特征，比如語調(diào)對應(yīng)的面部微表情變化。

此外，模型還要解決長時序生成與連貫性，數(shù)秒甚至十?dāng)?shù)秒內(nèi)保持音畫一致；環(huán)境音效與動作的匹配，如走路有腳步聲、門開有開門聲；以及多角色場景的交互，要精確定位到誰在說話、誰在聽，保證不同聲音與對應(yīng)人物同步，避免多人口型重疊或者角色錯位。

今年 5 月推出的谷歌 Veo 3 解決了音畫同步面臨的絕大多數(shù)挑戰(zhàn)，但仍有不足，比如聚焦單人場景，多角色交互雖然也能生成，但規(guī)劃性與自然度不足。另外，它雖支持多語言，但非英文場景體驗很差。這些都限制了本土創(chuàng)作者的發(fā)揮空間，于是更符合「中國創(chuàng)作者體質(zhì)」的百度蒸汽機應(yīng)運而生。

作為國內(nèi)首個支持聲畫同步的視頻生成模型，蒸汽機的參數(shù)體量達(dá)到了百億，在實現(xiàn)畫面與音效、人聲協(xié)同創(chuàng)作的同時，更在多角色互動、豐富運鏡、跨場景表達(dá)方面深度優(yōu)化。此前在權(quán)威視頻生成評測基準(zhǔn)的圖生視頻榜單 VBench I2V 中，蒸汽機 1.0 以 89.38% 的總分成為了全球第一。

榜單地址：https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

2.0 版的成績我們暫時還不知道，不過在實際體驗上，新版本的蒸汽機相對于 1.0 版在指令遵循、運鏡能力、敘事流暢度等維度上面取得了顯著提升。

從數(shù)據(jù)到模型，百度蒸汽機 2.0 在技術(shù)上帶來了一系列進(jìn)步。

在數(shù)據(jù)方面，模型利用大量多模態(tài)數(shù)據(jù)進(jìn)行了訓(xùn)練。在構(gòu)建數(shù)據(jù)集時，工程師利用多模態(tài)理解模型、語音識別模型對海量視頻語料的多模信號進(jìn)行抽取、數(shù)據(jù)清洗和對齊，其中包括內(nèi)容、主體、人聲、臺詞和環(huán)境音的抽取和對齊。百度重點打造了面向中文語音和語境的有聲視頻模型，模型訓(xùn)練加入了海量精選的中文語料庫，實現(xiàn)了 Veo 3 等模型目前不支持的中文能力。

同時，百度也完成了一些數(shù)據(jù)生成工作，通過少量專業(yè)人工精標(biāo)，訓(xùn)練出專精的鏡頭語言理解模型，進(jìn)而產(chǎn)出海量的運鏡訓(xùn)練數(shù)據(jù)。

在實現(xiàn)視頻內(nèi)容中多角色身份、情感和互動邏輯的統(tǒng)一規(guī)劃時，我們會面臨一系列的新挑戰(zhàn)，如角色規(guī)劃編排的合理性：需要讓 AI 能夠準(zhǔn)確理解用戶的輸入，確定「誰來說」、「什么時候說」；同時也要保證生成角色形神音容的一致性，解決角色的音色、語調(diào)、動作和表情跟用戶輸入表達(dá)匹配度，以及多角色對話的自然度。

百度蒸汽機 2.0 重點優(yōu)化了角色間交互的自然度和一致性，以保證有聲視頻的可用率。

在模型架構(gòu)方面，蒸汽機首創(chuàng)了 LMMP（Latent Multi-Modal Planner），能讓 AI 自行規(guī)劃出生成內(nèi)容里的多個角色身份、他們的臺詞、情感以及互動邏輯，帶來協(xié)調(diào)一致的畫面生成，呈現(xiàn)出更真實、更具表現(xiàn)力的多人對話互動。

作為一個基于擴散架構(gòu)的規(guī)劃思考模型，LMMP 在視頻生成前期會先生成規(guī)劃思考內(nèi)容，再基于思考內(nèi)容在擴散中后期完成視頻生成。它最大的特點是將「思考能力」融入視頻生成模型中，在敘事邏輯、鏡頭銜接、動作合理性等方面保持更強的一致性和可控性。

此外，在完整的音視頻一體化生成系統(tǒng)中，Planner 和視頻生成是端到端訓(xùn)練優(yōu)化，以多目標(biāo)的方式保障規(guī)劃思考與視頻內(nèi)容的正確性。規(guī)劃層的思考與生成層的執(zhí)行相互校正，保證最終輸出的視頻在語義和邏輯等方面更加準(zhǔn)確與可靠。

百度工程師表示，未來他們還希望結(jié)合長視頻生成技術(shù)來實現(xiàn)更好的故事續(xù)寫和全局呈現(xiàn)?；蛟S過不了多久，我們就能夠欣賞到 AI 生成的長鏡頭視頻。

需求驅(qū)動

AI 的多模態(tài)還能更實用

不同于「實驗室里的模型」，蒸汽機開創(chuàng)了應(yīng)用驅(qū)動模型研發(fā)的新范式，即由應(yīng)用需求牽引、從百度自身生態(tài)里生長出來。該模型在追求技術(shù)指標(biāo)之外，緊扣百度現(xiàn)有的搜索、內(nèi)容、商業(yè)和云生態(tài)，形成了場景催生模型 —— 模型反哺業(yè)務(wù)的應(yīng)用閉環(huán)。

目前，蒸汽機模型已經(jīng)深度融入到百度移動生態(tài)中，還進(jìn)一步強化了百度的全鏈路多模態(tài)體驗，讓搜索更具表現(xiàn)力，讓內(nèi)容更具創(chuàng)造力，讓商業(yè)更具想象力。對于用戶和企業(yè)而言，也獲得了更強的創(chuàng)造力和生產(chǎn)力工具。

創(chuàng)作門檻進(jìn)一步降低，更多中小型創(chuàng)作者以及普通用戶都有機會參與到專業(yè)級視頻的生成中，真正實現(xiàn)「人人皆可導(dǎo)演」。企業(yè)借助蒸汽機，可以在商業(yè)營銷、產(chǎn)品推廣等相關(guān)應(yīng)用場景中，以更低的成本、更快的周期產(chǎn)出高質(zhì)量視頻內(nèi)容。

曾參與《2012》《黑客帝國 3》《變形金剛 3》等多部好萊塢大片以及國產(chǎn)科幻劇《三體》視效工作的姚騏，借助百度蒸汽機 2.0，僅用一周左右就制作出一個時長 2 分鐘的科幻短片《歸途》。該作品共有 40 多個鏡頭，創(chuàng)作過程中每個鏡頭生成 3 次左右，共用 AI 生成了 120 多個片段素材。

《歸途》片段

如果按照傳統(tǒng)影視制作方式，這個科幻短片可能需要花費上百萬，AI 的運用讓這一成本直接降到了幾百塊（約 330 元），簡直是降維打擊

AI 視頻化表達(dá)的前景已經(jīng)全面鋪開，百度蒸汽機正扮演著「加速器」的角色。

文中視頻鏈接：https://mp.weixin.qq.com/s/xC7vjXpdtR5SI2UPATWEKw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.