網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI視頻進(jìn)入蒸汽機(jī)時代

2025-09-26 10:08:51　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心報道

機(jī)器之心編輯部

AI 視頻生成行業(yè)天花板再次被拉高。

百度殺入 AI 視頻生成賽道后，就一直加班加點卷個不停。

7 月初，百度第一次正式官宣蒸汽機(jī) 1.0 模型，以極致指令遵循能力驚艷亮相；8 月底，百度又發(fā)布全球首個中文音視頻一體化模型百度蒸汽機(jī) 2.0，實現(xiàn)生成視頻中人物口型、表情、動作的毫秒級同步。

而現(xiàn)在，距離上次發(fā)布僅短短一個月，百度蒸汽機(jī) 2.0 又迎來重磅升級，推出了行業(yè)首個通用 AI 長視頻生成功能

此次升級，百度蒸汽機(jī)不僅突破了 5 秒和 10 秒的生成時長限制，理論上可生成任意長度的長視頻，還引入交互式需求表達(dá)功能，允許在生成過程中實時更新提示詞。這意味著創(chuàng)作者可以隨時調(diào)整視頻內(nèi)容，創(chuàng)作體驗更為靈活高效。

長視頻生成對 AI 模型提出了更高要求，模型需要具備對時間、空間的深度理解能力，同時要能精確控制信息密度和視覺連貫性，這一直是該領(lǐng)域的技術(shù)難點。

為延長視頻時長，業(yè)內(nèi)普遍采用「首尾幀續(xù)寫」技術(shù)，或者視頻延長的簡單續(xù)寫能力，雖然能勉強(qiáng)填補時長空白，但容易導(dǎo)致視頻缺乏連貫性，畫質(zhì)和細(xì)節(jié)呈現(xiàn)不穩(wěn)定，難以承載復(fù)雜的創(chuàng)作需求。同時首尾幀續(xù)寫需要用戶每個鏡頭上傳圖片以及提示詞，一個鏡頭普遍 1-6 秒，生成幾十秒成片可能需要 10 組以上圖片和提示詞描述，操作門檻非常高，且很難實現(xiàn)無限時生成。

與這一淺層技術(shù)方案不同，百度蒸汽機(jī)采用流式生成技術(shù)，用戶只需輸入圖像和提示詞，就能生成任意時長的視頻，并可以在生成過程中隨時調(diào)整提示詞，實時續(xù)寫內(nèi)容或指定任意幀繼續(xù)生成，用戶無需復(fù)雜操作，只需要一張圖 + 提示詞，即可完成無限時視頻生成。如果對于前面的內(nèi)容不滿意，可以馬上暫停調(diào)整，不需要完整推理過程結(jié)束，區(qū)別于行業(yè)其他長視頻技術(shù)能力，百度蒸汽機(jī)的長視頻生成能力不僅僅大幅度提升了創(chuàng)作效率，還可以實現(xiàn)靈活、流暢的創(chuàng)作體驗。

首尾幀續(xù)寫長視頻能力

百度蒸汽機(jī)流式生成長視頻能力

百度蒸汽機(jī)的這次迭代升級，不僅是技術(shù)上的一次革新，也在商業(yè)應(yīng)用層面帶來新的可能性。創(chuàng)作者可以在短時間內(nèi)完成高質(zhì)量長視頻制作，降低了創(chuàng)作成本，提高內(nèi)容產(chǎn)出效率，為各行業(yè)內(nèi)容創(chuàng)作提供了新的工具和商業(yè)價值。

在下面這段蒸汽機(jī)長視頻生成的視頻中，小鴨子劃水、上岸等動作連貫流暢，沒有出現(xiàn)卡頓或不自然的現(xiàn)象，水面的漣漪、小鴨子的羽毛等細(xì)節(jié)也都處理得細(xì)膩逼真。

提示詞：小鴨子在水中嬉戲，有幾只喝水，有幾只劃水，接下來排著隊往前游，游到了岸邊，拍打著小翅膀，往前邊的草地上走去。

再比如，蒸汽機(jī)長視頻模型還成功生成了一段西部牛仔風(fēng)格視頻，效果堪比電影大片。

該模型能夠精準(zhǔn)執(zhí)行復(fù)雜的鏡頭運動與人物動作，在提示詞的指引下，以一鏡到底的方式呈現(xiàn)出牛仔走向馬車、推門而入等場景轉(zhuǎn)換。

鏡頭跟隨、人物動作以及視角切換的銜接都很絲滑，尤其是在人物向前走和鏡頭右搖的場景中，模型能夠精確控制鏡頭的角度與人物的位置變化，保持畫面的自然過渡。

提示詞：1-5s 鏡頭跟隨，牛仔走向右方馬車。6-10s 人物向前走，鏡頭跟隨。11-15s 人物向前走，鏡頭跟隨，右搖 16-20s 鏡頭跟隨，牛仔推開門進(jìn)去。

在另一段長視頻中，蒸汽機(jī) 2.0 真實還原了水流的動態(tài)變化以及小紙船在水面上漂動的軌跡，畫面沒有任何破綻或失真的情況，細(xì)節(jié)把控也很到位。提示詞：小紙船在小河里漂流。

本次百度蒸汽機(jī)還發(fā)布了首尾幀功能，支持用戶提供首尾幀2張圖片和提示詞可完成圖片的理解和5S視頻生成，為創(chuàng)作者提供更便利的視頻片段生成能力。

提示詞：黃色折紙在工作臺上逐步折疊，變形為彩色折紙猴，定格動畫逐幀展現(xiàn)折紙過程，固定鏡頭。

我們只需上傳首尾幀圖片并輸入提示詞，蒸汽機(jī) 2.0 便能「腦補」出中間的劇情，實現(xiàn)完整的畫面銜接。

比如一段電影風(fēng)格的鏡頭中，平靜的水面突然冒出三個全副武裝、手持沖鋒槍的士兵，生成的畫面幾乎可以以假亂真：

提示詞：固定鏡頭，平靜的水面蕩起波紋，三個士兵慢慢露出水面，他警惕的看著四周。

還有這個動漫風(fēng)格的鏡頭，即使二次元小姐姐轉(zhuǎn)個圈也能保持前后人物一致性，角色面部不會崩壞：

提示詞：鏡頭環(huán)繞著人物

首尾幀功能特別適用于延時攝影。蒸汽機(jī)生成了一段樹木從秋季黃葉到冬季積雪的自然變化，季節(jié)過渡平滑自然，樹葉飄落與雪花覆蓋的細(xì)節(jié)也處理得很細(xì)膩。

提示詞：固定鏡頭大延時攝影，天?變化到冬天，背景云霧變化。

在商業(yè)化場景中，百度蒸汽機(jī)還能制作各類廣告大片。在下面的案例中，只見鏡頭慢慢拉遠(yuǎn)，光澤感十足的耳機(jī)被拿在手中，流線型的反射效果顯得極具質(zhì)感，生成的手部非常自然，手指與物體的銜接部分也毫無違和感。

提示詞：耳機(jī)合上蓋子，伸出一只手拿著耳機(jī)。

此外，百度蒸汽機(jī)在 8 月還率先推出「多人對話音視頻一體化生成」能力，也是全球首個中文音視頻一體化生成模型，該模型基于多模態(tài)信息的精準(zhǔn)同步與自然交互，支持多角色自然對話，并保持高畫質(zhì)輸出、大師級運鏡。依托海量中文語料深度訓(xùn)練，中文語音細(xì)節(jié)還原度超 98%。

現(xiàn)在，所有用戶都可以通過百度搜索、百度 APP 或訪問「繪想」平臺進(jìn)行體驗。

體驗鏈接：https://huixiang.baidu.com

可交互長視頻生成的難點在哪？

現(xiàn)階段，AI 視頻生成雖然發(fā)展迅猛，目前行業(yè)內(nèi)視頻生成均集中在 5s/10s，且由于視頻生成多采用基于 transformer 的擴(kuò)散模型，在生成時長和實時性方面仍然存在很大的局限（生成時間長，且生成成本隨生成時長呈平長級膨脹，不支持實時生成也無法交互）。較短的視頻在應(yīng)用上主要在工具層面，集中在視頻片段、視頻素材制作上，而互動視頻、直播場景對視頻時長和實時性都提出了更高的要求。同時，可交互的長視頻生成技術(shù)可能重塑人類與媒介的互動方式，從「被動消費」轉(zhuǎn)向「共同創(chuàng)作」，甚至催生全新的藝術(shù)形式與商業(yè)模式。

挑戰(zhàn) 1 ：時長

長視頻生成中存在長上下文記憶難題，模型需在長時間范圍內(nèi)有效保留和檢索關(guān)鍵事件，同時避免信息崩潰或漂移。

遺忘的問題：模型在生成長視頻時，難以長期記憶早期幀的內(nèi)容，導(dǎo)致時間維度上存在不一致

漂移的問題：生成過程中誤差逐幀累積，導(dǎo)致生成的視覺質(zhì)量逐漸下降。隨著生成時長的增加，簡單續(xù)寫的方式，累積誤差問題逐漸加劇，生成視頻質(zhì)量不斷衰減，主體一致性逐漸下降。

挑戰(zhàn) 2 ：成本

由于視頻生成模型中 Transformer 的二次復(fù)雜度，導(dǎo)致計算成本隨著視頻生成時長呈平方級增長。直接訓(xùn)練或推理更長視頻，對 GPU 顯存和計算效率提出更高要求，成本膨脹嚴(yán)重。

蒸汽機(jī)的解法與思考：

從分治到全局，引入自回歸擴(kuò)散模型

結(jié)合自回歸長序列能力和擴(kuò)散一致性強(qiáng)的優(yōu)點

1.引入長時間一致性建模技術(shù)，解決長的問題：連續(xù)性 + 一致性

從全局整體生成到局部生成

動態(tài)緩沖區(qū)管理：通過「移動緩沖區(qū)」機(jī)制實時管理多幀畫面，允許模型同時處理模糊草圖、半完成幀與高精度畫面，實現(xiàn)「邊生成邊調(diào)整」的實時交互。

階梯獨立噪聲構(gòu)造

獨立噪聲：基于時間步采樣，為視頻擴(kuò)散模型的每一幀添加不同強(qiáng)度的噪聲。根據(jù)噪聲調(diào)度器曲線，每一個預(yù)測 chunk 被分配不同的噪聲級別（與推理期間使用的噪聲調(diào)度保持一致）

2.引入歷史參考幀，保障片段生成與前序內(nèi)容的連續(xù)性，讓動作像「接力賽」一樣流暢

引入 History 序列的訓(xùn)練

「零」噪聲片引入：Diffusion Forcing 給了我們啟發(fā)，基于 noise as masking 的思路。訓(xùn)練過程中可直接將歷史參考幀引入與生成目標(biāo)幀一起訓(xùn)練，提升生成的連續(xù)性。

History 增強(qiáng)策略，歷史幀越來越多，如何選擇好的是核心優(yōu)化點

多樣性與魯棒性：進(jìn)行歷史幀的概率擾動，提升模型的自我糾錯能力，緩解自回歸模型的累積誤差問題。

歷史幀壓縮：a) 按時間臨近性、幀重要度進(jìn)行采樣，提升全局 history 對當(dāng)前視頻生成的有效控制。b) 注意力門控機(jī)制：模型根據(jù)當(dāng)前幀內(nèi)容動態(tài)選擇相關(guān)歷史幀進(jìn)行參考，避免無關(guān)信息的干擾，提升記憶效率。

訓(xùn)練中引入指導(dǎo)幀，引導(dǎo)模型不跑偏，緩解視頻遺忘的問題

抗偏移的方法：在生成中同時生成首尾的部分幀，后續(xù)一起用來預(yù)測后續(xù)幀，逐步往后生成。

以上技術(shù)的突破讓蒸汽機(jī)長視頻生成能力變得更大，正如百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林所表示的：長時一致性和實時性問題的解決，使得用戶可以隨時進(jìn)行交互，并且在交互過程中，用戶可以不斷調(diào)整輸入 prompt，直到生成自己滿意的視頻為止。

在中文場景適配層面，如前文所述，百度蒸汽機(jī) 2.0 在語音還原度上超過 98%，這對用戶而言意味著可以獲得更自然、更沉浸的交互體驗。無論是在長視頻配音、虛擬角色對白，還是個性化講解，用戶都能聽到幾乎與真人無異的中文表達(dá)。同時，高精度的語音還原也讓情緒（如喜悅、驚訝）傳遞更加細(xì)膩。對于內(nèi)容創(chuàng)作者而言，這不僅降低了后期配音和剪輯的門檻，還大幅提升了成品的質(zhì)量與效率。

值得一提的是，百度蒸汽機(jī) 2.0 在畫質(zhì)和運鏡上也不輸專業(yè)團(tuán)隊。通過多條件協(xié)同建模，端到端人物生成，以及百萬級專業(yè)運鏡數(shù)據(jù)微調(diào)，從而實現(xiàn)電影級畫質(zhì)、大師級復(fù)雜運鏡。這也意味著過去需要龐大團(tuán)隊與昂貴設(shè)備才能實現(xiàn)的鏡頭效果，如今只需一段提示即可完成。毫不夸張地說，百度蒸汽機(jī) 2.0 讓人人都能拍電影成為可能。

可以看出，百度蒸汽機(jī) 2.0 此次升級，并不是單點突破，而是在多個維度優(yōu)化與創(chuàng)新的結(jié)果，它不僅解決了傳統(tǒng)視頻生成中短時長、不連貫、缺乏敘事的痛點，還將專業(yè)團(tuán)隊級別的影像表現(xiàn)力帶到普通創(chuàng)作者手中。

結(jié)語

前段時間，香港老牌電視臺 TVB 掀起了一場「AI 風(fēng)暴」。

他們推出了香港電視界首部全 AI 生成的青春愛情短劇《在我心中，你是獨一無二》，從男女主角到劇情，再到場景，100% 由 AI 生成。由此可見，AI 技術(shù)在影視制作中有著巨大潛力和經(jīng)濟(jì)價值。

百度蒸汽機(jī)長視頻能力的升級推出，則進(jìn)一步推動了這一趨勢。

作為行業(yè)首個通用 AI 長視頻生成模型，蒸汽機(jī)打破了時長限制，實現(xiàn)了任意時長的長視頻生成。這種跨越式提升，使得 AI 視頻生成不再只是炫技式的片段演示，而是真正具備了內(nèi)容生產(chǎn)力，既能滿足廣告、影視預(yù)演等專業(yè)場景的需求，也能為大眾創(chuàng)作者釋放出前所未有的創(chuàng)作自由度。

文中視頻鏈接：https://mp.weixin.qq.com/s/9NHzO11CCdHIHpVd9c-kSg

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.