機(jī)器之心報道
機(jī)器之心編輯部
AI 視頻生成行業(yè)天花板再次被拉高。
百度殺入 AI 視頻生成賽道后,就一直加班加點卷個不停。
7 月初,百度第一次正式官宣蒸汽機(jī) 1.0 模型,以極致指令遵循能力驚艷亮相;8 月底,百度又發(fā)布全球首個中文音視頻一體化模型百度蒸汽機(jī) 2.0,實現(xiàn)生成視頻中人物口型、表情、動作的毫秒級同步。
而現(xiàn)在,距離上次發(fā)布僅短短一個月,百度蒸汽機(jī) 2.0 又迎來重磅升級,推出了行業(yè)首個通用 AI 長視頻生成功能
此次升級,百度蒸汽機(jī)不僅突破了 5 秒和 10 秒的生成時長限制,理論上可生成任意長度的長視頻,還引入交互式需求表達(dá)功能,允許在生成過程中實時更新提示詞。這意味著創(chuàng)作者可以隨時調(diào)整視頻內(nèi)容,創(chuàng)作體驗更為靈活高效。
長視頻生成對 AI 模型提出了更高要求,模型需要具備對時間、空間的深度理解能力,同時要能精確控制信息密度和視覺連貫性,這一直是該領(lǐng)域的技術(shù)難點。
為延長視頻時長,業(yè)內(nèi)普遍采用「首尾幀續(xù)寫」技術(shù),或者視頻延長的簡單續(xù)寫能力,雖然能勉強(qiáng)填補時長空白,但容易導(dǎo)致視頻缺乏連貫性,畫質(zhì)和細(xì)節(jié)呈現(xiàn)不穩(wěn)定,難以承載復(fù)雜的創(chuàng)作需求。同時首尾幀續(xù)寫需要用戶每個鏡頭上傳圖片以及提示詞,一個鏡頭普遍 1-6 秒,生成幾十秒成片可能需要 10 組以上圖片和提示詞描述,操作門檻非常高,且很難實現(xiàn)無限時生成。
與這一淺層技術(shù)方案不同,百度蒸汽機(jī)采用流式生成技術(shù),用戶只需輸入圖像和提示詞,就能生成任意時長的視頻,并可以在生成過程中隨時調(diào)整提示詞,實時續(xù)寫內(nèi)容或指定任意幀繼續(xù)生成,用戶無需復(fù)雜操作,只需要一張圖 + 提示詞,即可完成無限時視頻生成。如果對于前面的內(nèi)容不滿意,可以馬上暫停調(diào)整,不需要完整推理過程結(jié)束,區(qū)別于行業(yè)其他長視頻技術(shù)能力,百度蒸汽機(jī)的長視頻生成能力不僅僅大幅度提升了創(chuàng)作效率,還可以實現(xiàn)靈活、流暢的創(chuàng)作體驗。
首尾幀續(xù)寫長視頻能力
百度蒸汽機(jī)流式生成長視頻能力
百度蒸汽機(jī)的這次迭代升級,不僅是技術(shù)上的一次革新,也在商業(yè)應(yīng)用層面帶來新的可能性。創(chuàng)作者可以在短時間內(nèi)完成高質(zhì)量長視頻制作,降低了創(chuàng)作成本,提高內(nèi)容產(chǎn)出效率,為各行業(yè)內(nèi)容創(chuàng)作提供了新的工具和商業(yè)價值。
在下面這段蒸汽機(jī)長視頻生成的視頻中,小鴨子劃水、上岸等動作連貫流暢,沒有出現(xiàn)卡頓或不自然的現(xiàn)象,水面的漣漪、小鴨子的羽毛等細(xì)節(jié)也都處理得細(xì)膩逼真。
提示詞:小鴨子在水中嬉戲,有幾只喝水,有幾只劃水,接下來排著隊往前游,游到了岸邊,拍打著小翅膀,往前邊的草地上走去。
再比如,蒸汽機(jī)長視頻模型還成功生成了一段西部牛仔風(fēng)格視頻,效果堪比電影大片。
該模型能夠精準(zhǔn)執(zhí)行復(fù)雜的鏡頭運動與人物動作,在提示詞的指引下,以一鏡到底的方式呈現(xiàn)出牛仔走向馬車、推門而入等場景轉(zhuǎn)換。
鏡頭跟隨、人物動作以及視角切換的銜接都很絲滑,尤其是在人物向前走和鏡頭右搖的場景中,模型能夠精確控制鏡頭的角度與人物的位置變化,保持畫面的自然過渡。
提示詞:1-5s 鏡頭跟隨,牛仔走向右方馬車。6-10s 人物向前走,鏡頭跟隨。11-15s 人物向前走,鏡頭跟隨,右搖 16-20s 鏡頭跟隨,牛仔推開門進(jìn)去。
在另一段長視頻中,蒸汽機(jī) 2.0 真實還原了水流的動態(tài)變化以及小紙船在水面上漂動的軌跡,畫面沒有任何破綻或失真的情況,細(xì)節(jié)把控也很到位。提示詞:小紙船在小河里漂流。
本次百度蒸汽機(jī)還發(fā)布了首尾幀功能,支持用戶提供首尾幀2張圖片和提示詞可完成圖片的理解和5S視頻生成,為創(chuàng)作者提供更便利的視頻片段生成能力。
提示詞:黃色折紙在工作臺上逐步折疊,變形為彩色折紙猴,定格動畫逐幀展現(xiàn)折紙過程,固定鏡頭。
我們只需上傳首尾幀圖片并輸入提示詞,蒸汽機(jī) 2.0 便能「腦補」出中間的劇情,實現(xiàn)完整的畫面銜接。
比如一段電影風(fēng)格的鏡頭中,平靜的水面突然冒出三個全副武裝、手持沖鋒槍的士兵,生成的畫面幾乎可以以假亂真:
提示詞:固定鏡頭,平靜的水面蕩起波紋,三個士兵慢慢露出水面,他警惕的看著四周。
還有這個動漫風(fēng)格的鏡頭,即使二次元小姐姐轉(zhuǎn)個圈也能保持前后人物一致性,角色面部不會崩壞:
提示詞:鏡頭環(huán)繞著人物
首尾幀功能特別適用于延時攝影。蒸汽機(jī)生成了一段樹木從秋季黃葉到冬季積雪的自然變化,季節(jié)過渡平滑自然,樹葉飄落與雪花覆蓋的細(xì)節(jié)也處理得很細(xì)膩。
提示詞:固定鏡頭大延時攝影,天?變化到冬天,背景云霧變化。
在商業(yè)化場景中,百度蒸汽機(jī)還能制作各類廣告大片。在下面的案例中,只見鏡頭慢慢拉遠(yuǎn),光澤感十足的耳機(jī)被拿在手中,流線型的反射效果顯得極具質(zhì)感,生成的手部非常自然,手指與物體的銜接部分也毫無違和感。
提示詞:耳機(jī)合上蓋子,伸出一只手拿著耳機(jī)。
此外,百度蒸汽機(jī)在 8 月還率先推出「多人對話音視頻一體化生成」能力,也是全球首個中文音視頻一體化生成模型,該模型基于多模態(tài)信息的精準(zhǔn)同步與自然交互,支持多角色自然對話,并保持高畫質(zhì)輸出、大師級運鏡。依托海量中文語料深度訓(xùn)練,中文語音細(xì)節(jié)還原度超 98%。
現(xiàn)在,所有用戶都可以通過百度搜索、百度 APP 或訪問「繪想」平臺進(jìn)行體驗。
體驗鏈接:https://huixiang.baidu.com
可交互長視頻生成的難點在哪?
現(xiàn)階段,AI 視頻生成雖然發(fā)展迅猛,目前行業(yè)內(nèi)視頻生成均集中在 5s/10s,且由于視頻生成多采用基于 transformer 的擴(kuò)散模型,在生成時長和實時性方面仍然存在很大的局限(生成時間長,且生成成本隨生成時長呈平長級膨脹,不支持實時生成也無法交互)。較短的視頻在應(yīng)用上主要在工具層面,集中在視頻片段、視頻素材制作上,而互動視頻、直播場景對視頻時長和實時性都提出了更高的要求。同時,可交互的長視頻生成技術(shù)可能重塑人類與媒介的互動方式,從「被動消費」轉(zhuǎn)向「共同創(chuàng)作」,甚至催生全新的藝術(shù)形式與商業(yè)模式。
挑戰(zhàn) 1 :時長
長視頻生成中存在長上下文記憶難題,模型需在長時間范圍內(nèi)有效保留和檢索關(guān)鍵事件,同時避免信息崩潰或漂移。
遺忘的問題:模型在生成長視頻時,難以長期記憶早期幀的內(nèi)容,導(dǎo)致時間維度上存在不一致
漂移的問題:生成過程中誤差逐幀累積,導(dǎo)致生成的視覺質(zhì)量逐漸下降。隨著生成時長的增加,簡單續(xù)寫的方式,累積誤差問題逐漸加劇,生成視頻質(zhì)量不斷衰減,主體一致性逐漸下降。
挑戰(zhàn) 2 :成本
由于視頻生成模型中 Transformer 的二次復(fù)雜度,導(dǎo)致計算成本隨著視頻生成時長呈平方級增長。直接訓(xùn)練或推理更長視頻,對 GPU 顯存和計算效率提出更高要求,成本膨脹嚴(yán)重。
蒸汽機(jī)的解法與思考:
從分治到全局,引入自回歸擴(kuò)散模型
結(jié)合自回歸長序列能力和擴(kuò)散一致性強(qiáng)的優(yōu)點
1.引入長時間一致性建模技術(shù),解決長的問題:連續(xù)性 + 一致性
- 從全局整體生成到局部生成
動態(tài)緩沖區(qū)管理:通過「移動緩沖區(qū)」機(jī)制實時管理多幀畫面,允許模型同時處理模糊草圖、半完成幀與高精度畫面,實現(xiàn)「邊生成邊調(diào)整」的實時交互。
- 階梯獨立噪聲構(gòu)造
獨立噪聲:基于時間步采樣,為視頻擴(kuò)散模型的每一幀添加不同強(qiáng)度的噪聲。根據(jù)噪聲調(diào)度器曲線,每一個預(yù)測 chunk 被分配不同的噪聲級別(與推理期間使用的噪聲調(diào)度保持一致)
2.引入歷史參考幀,保障片段生成與前序內(nèi)容的連續(xù)性,讓動作像「接力賽」一樣流暢
- 引入 History 序列的訓(xùn)練
「零」噪聲片引入:Diffusion Forcing 給了我們啟發(fā),基于 noise as masking 的思路。訓(xùn)練過程中可直接將歷史參考幀引入與生成目標(biāo)幀一起訓(xùn)練,提升生成的連續(xù)性。
- History 增強(qiáng)策略,歷史幀越來越多,如何選擇好的是核心優(yōu)化點
多樣性與魯棒性:進(jìn)行歷史幀的概率擾動,提升模型的自我糾錯能力,緩解自回歸模型的累積誤差問題。
歷史幀壓縮:a) 按時間臨近性、幀重要度進(jìn)行采樣,提升全局 history 對當(dāng)前視頻生成的有效控制。b) 注意力門控機(jī)制:模型根據(jù)當(dāng)前幀內(nèi)容動態(tài)選擇相關(guān)歷史幀進(jìn)行參考,避免無關(guān)信息的干擾,提升記憶效率。
- 訓(xùn)練中引入指導(dǎo)幀,引導(dǎo)模型不跑偏,緩解視頻遺忘的問題
抗偏移的方法:在生成中同時生成首尾的部分幀,后續(xù)一起用來預(yù)測后續(xù)幀,逐步往后生成。
以上技術(shù)的突破讓蒸汽機(jī)長視頻生成能力變得更大,正如百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林所表示的:長時一致性和實時性問題的解決,使得用戶可以隨時進(jìn)行交互,并且在交互過程中,用戶可以不斷調(diào)整輸入 prompt,直到生成自己滿意的視頻為止。
在中文場景適配層面,如前文所述,百度蒸汽機(jī) 2.0 在語音還原度上超過 98%,這對用戶而言意味著可以獲得更自然、更沉浸的交互體驗。無論是在長視頻配音、虛擬角色對白,還是個性化講解,用戶都能聽到幾乎與真人無異的中文表達(dá)。同時,高精度的語音還原也讓情緒(如喜悅、驚訝)傳遞更加細(xì)膩。對于內(nèi)容創(chuàng)作者而言,這不僅降低了后期配音和剪輯的門檻,還大幅提升了成品的質(zhì)量與效率。
值得一提的是,百度蒸汽機(jī) 2.0 在畫質(zhì)和運鏡上也不輸專業(yè)團(tuán)隊。通過多條件協(xié)同建模,端到端人物生成,以及百萬級專業(yè)運鏡數(shù)據(jù)微調(diào),從而實現(xiàn)電影級畫質(zhì)、大師級復(fù)雜運鏡。這也意味著過去需要龐大團(tuán)隊與昂貴設(shè)備才能實現(xiàn)的鏡頭效果,如今只需一段提示即可完成。毫不夸張地說,百度蒸汽機(jī) 2.0 讓人人都能拍電影成為可能。
可以看出,百度蒸汽機(jī) 2.0 此次升級,并不是單點突破,而是在多個維度優(yōu)化與創(chuàng)新的結(jié)果,它不僅解決了傳統(tǒng)視頻生成中短時長、不連貫、缺乏敘事的痛點,還將專業(yè)團(tuán)隊級別的影像表現(xiàn)力帶到普通創(chuàng)作者手中。
結(jié)語
前段時間,香港老牌電視臺 TVB 掀起了一場「AI 風(fēng)暴」。
他們推出了香港電視界首部全 AI 生成的青春愛情短劇《在我心中,你是獨一無二》,從男女主角到劇情,再到場景,100% 由 AI 生成。由此可見,AI 技術(shù)在影視制作中有著巨大潛力和經(jīng)濟(jì)價值。
百度蒸汽機(jī)長視頻能力的升級推出,則進(jìn)一步推動了這一趨勢。
作為行業(yè)首個通用 AI 長視頻生成模型,蒸汽機(jī)打破了時長限制,實現(xiàn)了任意時長的長視頻生成。這種跨越式提升,使得 AI 視頻生成不再只是炫技式的片段演示,而是真正具備了內(nèi)容生產(chǎn)力,既能滿足廣告、影視預(yù)演等專業(yè)場景的需求,也能為大眾創(chuàng)作者釋放出前所未有的創(chuàng)作自由度。
文中視頻鏈接:https://mp.weixin.qq.com/s/9NHzO11CCdHIHpVd9c-kSg
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.