夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI視頻進(jìn)入蒸汽機(jī)時代

0
分享至




機(jī)器之心報道

機(jī)器之心編輯部

AI 視頻生成行業(yè)天花板再次被拉高。

百度殺入 AI 視頻生成賽道后,就一直加班加點卷個不停。

7 月初,百度第一次正式官宣蒸汽機(jī) 1.0 模型,以極致指令遵循能力驚艷亮相;8 月底,百度又發(fā)布全球首個中文音視頻一體化模型百度蒸汽機(jī) 2.0,實現(xiàn)生成視頻中人物口型、表情、動作的毫秒級同步。

而現(xiàn)在,距離上次發(fā)布僅短短一個月,百度蒸汽機(jī) 2.0 又迎來重磅升級,推出了行業(yè)首個通用 AI 長視頻生成功能

此次升級,百度蒸汽機(jī)不僅突破了 5 秒和 10 秒的生成時長限制,理論上可生成任意長度的長視頻,還引入交互式需求表達(dá)功能,允許在生成過程中實時更新提示詞。這意味著創(chuàng)作者可以隨時調(diào)整視頻內(nèi)容,創(chuàng)作體驗更為靈活高效。



長視頻生成對 AI 模型提出了更高要求,模型需要具備對時間、空間的深度理解能力,同時要能精確控制信息密度和視覺連貫性,這一直是該領(lǐng)域的技術(shù)難點。

為延長視頻時長,業(yè)內(nèi)普遍采用「首尾幀續(xù)寫」技術(shù),或者視頻延長的簡單續(xù)寫能力,雖然能勉強(qiáng)填補時長空白,但容易導(dǎo)致視頻缺乏連貫性,畫質(zhì)和細(xì)節(jié)呈現(xiàn)不穩(wěn)定,難以承載復(fù)雜的創(chuàng)作需求。同時首尾幀續(xù)寫需要用戶每個鏡頭上傳圖片以及提示詞,一個鏡頭普遍 1-6 秒,生成幾十秒成片可能需要 10 組以上圖片和提示詞描述,操作門檻非常高,且很難實現(xiàn)無限時生成。

與這一淺層技術(shù)方案不同,百度蒸汽機(jī)采用流式生成技術(shù),用戶只需輸入圖像和提示詞,就能生成任意時長的視頻,并可以在生成過程中隨時調(diào)整提示詞,實時續(xù)寫內(nèi)容或指定任意幀繼續(xù)生成,用戶無需復(fù)雜操作,只需要一張圖 + 提示詞,即可完成無限時視頻生成。如果對于前面的內(nèi)容不滿意,可以馬上暫停調(diào)整,不需要完整推理過程結(jié)束,區(qū)別于行業(yè)其他長視頻技術(shù)能力,百度蒸汽機(jī)的長視頻生成能力不僅僅大幅度提升了創(chuàng)作效率,還可以實現(xiàn)靈活、流暢的創(chuàng)作體驗。



首尾幀續(xù)寫長視頻能力



百度蒸汽機(jī)流式生成長視頻能力

百度蒸汽機(jī)的這次迭代升級,不僅是技術(shù)上的一次革新,也在商業(yè)應(yīng)用層面帶來新的可能性。創(chuàng)作者可以在短時間內(nèi)完成高質(zhì)量長視頻制作,降低了創(chuàng)作成本,提高內(nèi)容產(chǎn)出效率,為各行業(yè)內(nèi)容創(chuàng)作提供了新的工具和商業(yè)價值。

在下面這段蒸汽機(jī)長視頻生成的視頻中,小鴨子劃水、上岸等動作連貫流暢,沒有出現(xiàn)卡頓或不自然的現(xiàn)象,水面的漣漪、小鴨子的羽毛等細(xì)節(jié)也都處理得細(xì)膩逼真。



提示詞:小鴨子在水中嬉戲,有幾只喝水,有幾只劃水,接下來排著隊往前游,游到了岸邊,拍打著小翅膀,往前邊的草地上走去。

再比如,蒸汽機(jī)長視頻模型還成功生成了一段西部牛仔風(fēng)格視頻,效果堪比電影大片。

該模型能夠精準(zhǔn)執(zhí)行復(fù)雜的鏡頭運動與人物動作,在提示詞的指引下,以一鏡到底的方式呈現(xiàn)出牛仔走向馬車、推門而入等場景轉(zhuǎn)換。

鏡頭跟隨、人物動作以及視角切換的銜接都很絲滑,尤其是在人物向前走和鏡頭右搖的場景中,模型能夠精確控制鏡頭的角度與人物的位置變化,保持畫面的自然過渡。



提示詞:1-5s 鏡頭跟隨,牛仔走向右方馬車。6-10s 人物向前走,鏡頭跟隨。11-15s 人物向前走,鏡頭跟隨,右搖 16-20s 鏡頭跟隨,牛仔推開門進(jìn)去。

在另一段長視頻中,蒸汽機(jī) 2.0 真實還原了水流的動態(tài)變化以及小紙船在水面上漂動的軌跡,畫面沒有任何破綻或失真的情況,細(xì)節(jié)把控也很到位。提示詞:小紙船在小河里漂流。



本次百度蒸汽機(jī)還發(fā)布了首尾幀功能,支持用戶提供首尾幀2張圖片和提示詞可完成圖片的理解和5S視頻生成,為創(chuàng)作者提供更便利的視頻片段生成能力。



提示詞:黃色折紙在工作臺上逐步折疊,變形為彩色折紙猴,定格動畫逐幀展現(xiàn)折紙過程,固定鏡頭。

我們只需上傳首尾幀圖片并輸入提示詞,蒸汽機(jī) 2.0 便能「腦補」出中間的劇情,實現(xiàn)完整的畫面銜接。

比如一段電影風(fēng)格的鏡頭中,平靜的水面突然冒出三個全副武裝、手持沖鋒槍的士兵,生成的畫面幾乎可以以假亂真:



提示詞:固定鏡頭,平靜的水面蕩起波紋,三個士兵慢慢露出水面,他警惕的看著四周。

還有這個動漫風(fēng)格的鏡頭,即使二次元小姐姐轉(zhuǎn)個圈也能保持前后人物一致性,角色面部不會崩壞:

提示詞:鏡頭環(huán)繞著人物



首尾幀功能特別適用于延時攝影。蒸汽機(jī)生成了一段樹木從秋季黃葉到冬季積雪的自然變化,季節(jié)過渡平滑自然,樹葉飄落與雪花覆蓋的細(xì)節(jié)也處理得很細(xì)膩。



提示詞:固定鏡頭大延時攝影,天?變化到冬天,背景云霧變化。

在商業(yè)化場景中,百度蒸汽機(jī)還能制作各類廣告大片。在下面的案例中,只見鏡頭慢慢拉遠(yuǎn),光澤感十足的耳機(jī)被拿在手中,流線型的反射效果顯得極具質(zhì)感,生成的手部非常自然,手指與物體的銜接部分也毫無違和感。



提示詞:耳機(jī)合上蓋子,伸出一只手拿著耳機(jī)。

此外,百度蒸汽機(jī)在 8 月還率先推出「多人對話音視頻一體化生成」能力,也是全球首個中文音視頻一體化生成模型,該模型基于多模態(tài)信息的精準(zhǔn)同步與自然交互,支持多角色自然對話,并保持高畫質(zhì)輸出、大師級運鏡。依托海量中文語料深度訓(xùn)練,中文語音細(xì)節(jié)還原度超 98%。



現(xiàn)在,所有用戶都可以通過百度搜索、百度 APP 或訪問「繪想」平臺進(jìn)行體驗。

體驗鏈接:https://huixiang.baidu.com

可交互長視頻生成的難點在哪?

現(xiàn)階段,AI 視頻生成雖然發(fā)展迅猛,目前行業(yè)內(nèi)視頻生成均集中在 5s/10s,且由于視頻生成多采用基于 transformer 的擴(kuò)散模型,在生成時長和實時性方面仍然存在很大的局限(生成時間長,且生成成本隨生成時長呈平長級膨脹,不支持實時生成也無法交互)。較短的視頻在應(yīng)用上主要在工具層面,集中在視頻片段、視頻素材制作上,而互動視頻、直播場景對視頻時長和實時性都提出了更高的要求。同時,可交互的長視頻生成技術(shù)可能重塑人類與媒介的互動方式,從「被動消費」轉(zhuǎn)向「共同創(chuàng)作」,甚至催生全新的藝術(shù)形式與商業(yè)模式。

挑戰(zhàn) 1 :時長

長視頻生成中存在長上下文記憶難題,模型需在長時間范圍內(nèi)有效保留和檢索關(guān)鍵事件,同時避免信息崩潰或漂移。

遺忘的問題:模型在生成長視頻時,難以長期記憶早期幀的內(nèi)容,導(dǎo)致時間維度上存在不一致

漂移的問題:生成過程中誤差逐幀累積,導(dǎo)致生成的視覺質(zhì)量逐漸下降。隨著生成時長的增加,簡單續(xù)寫的方式,累積誤差問題逐漸加劇,生成視頻質(zhì)量不斷衰減,主體一致性逐漸下降。

挑戰(zhàn) 2 :成本

由于視頻生成模型中 Transformer 的二次復(fù)雜度,導(dǎo)致計算成本隨著視頻生成時長呈平方級增長。直接訓(xùn)練或推理更長視頻,對 GPU 顯存和計算效率提出更高要求,成本膨脹嚴(yán)重。

蒸汽機(jī)的解法與思考:

從分治到全局,引入自回歸擴(kuò)散模型

結(jié)合自回歸長序列能力和擴(kuò)散一致性強(qiáng)的優(yōu)點

1.引入長時間一致性建模技術(shù),解決長的問題:連續(xù)性 + 一致性

  • 從全局整體生成到局部生成

動態(tài)緩沖區(qū)管理:通過「移動緩沖區(qū)」機(jī)制實時管理多幀畫面,允許模型同時處理模糊草圖、半完成幀與高精度畫面,實現(xiàn)「邊生成邊調(diào)整」的實時交互。

  • 階梯獨立噪聲構(gòu)造

獨立噪聲:基于時間步采樣,為視頻擴(kuò)散模型的每一幀添加不同強(qiáng)度的噪聲。根據(jù)噪聲調(diào)度器曲線,每一個預(yù)測 chunk 被分配不同的噪聲級別(與推理期間使用的噪聲調(diào)度保持一致)

2.引入歷史參考幀,保障片段生成與前序內(nèi)容的連續(xù)性,讓動作像「接力賽」一樣流暢

  • 引入 History 序列的訓(xùn)練

「零」噪聲片引入:Diffusion Forcing 給了我們啟發(fā),基于 noise as masking 的思路。訓(xùn)練過程中可直接將歷史參考幀引入與生成目標(biāo)幀一起訓(xùn)練,提升生成的連續(xù)性。



  • History 增強(qiáng)策略,歷史幀越來越多,如何選擇好的是核心優(yōu)化點

多樣性與魯棒性:進(jìn)行歷史幀的概率擾動,提升模型的自我糾錯能力,緩解自回歸模型的累積誤差問題。

歷史幀壓縮:a) 按時間臨近性、幀重要度進(jìn)行采樣,提升全局 history 對當(dāng)前視頻生成的有效控制。b) 注意力門控機(jī)制:模型根據(jù)當(dāng)前幀內(nèi)容動態(tài)選擇相關(guān)歷史幀進(jìn)行參考,避免無關(guān)信息的干擾,提升記憶效率。



  • 訓(xùn)練中引入指導(dǎo)幀,引導(dǎo)模型不跑偏,緩解視頻遺忘的問題

抗偏移的方法:在生成中同時生成首尾的部分幀,后續(xù)一起用來預(yù)測后續(xù)幀,逐步往后生成。

以上技術(shù)的突破讓蒸汽機(jī)長視頻生成能力變得更大,正如百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林所表示的:長時一致性和實時性問題的解決,使得用戶可以隨時進(jìn)行交互,并且在交互過程中,用戶可以不斷調(diào)整輸入 prompt,直到生成自己滿意的視頻為止。

在中文場景適配層面,如前文所述,百度蒸汽機(jī) 2.0 在語音還原度上超過 98%,這對用戶而言意味著可以獲得更自然、更沉浸的交互體驗。無論是在長視頻配音、虛擬角色對白,還是個性化講解,用戶都能聽到幾乎與真人無異的中文表達(dá)。同時,高精度的語音還原也讓情緒(如喜悅、驚訝)傳遞更加細(xì)膩。對于內(nèi)容創(chuàng)作者而言,這不僅降低了后期配音和剪輯的門檻,還大幅提升了成品的質(zhì)量與效率。

值得一提的是,百度蒸汽機(jī) 2.0 在畫質(zhì)和運鏡上也不輸專業(yè)團(tuán)隊。通過多條件協(xié)同建模,端到端人物生成,以及百萬級專業(yè)運鏡數(shù)據(jù)微調(diào),從而實現(xiàn)電影級畫質(zhì)、大師級復(fù)雜運鏡。這也意味著過去需要龐大團(tuán)隊與昂貴設(shè)備才能實現(xiàn)的鏡頭效果,如今只需一段提示即可完成。毫不夸張地說,百度蒸汽機(jī) 2.0 讓人人都能拍電影成為可能。

可以看出,百度蒸汽機(jī) 2.0 此次升級,并不是單點突破,而是在多個維度優(yōu)化與創(chuàng)新的結(jié)果,它不僅解決了傳統(tǒng)視頻生成中短時長、不連貫、缺乏敘事的痛點,還將專業(yè)團(tuán)隊級別的影像表現(xiàn)力帶到普通創(chuàng)作者手中。

結(jié)語

前段時間,香港老牌電視臺 TVB 掀起了一場「AI 風(fēng)暴」。

他們推出了香港電視界首部全 AI 生成的青春愛情短劇《在我心中,你是獨一無二》,從男女主角到劇情,再到場景,100% 由 AI 生成。由此可見,AI 技術(shù)在影視制作中有著巨大潛力和經(jīng)濟(jì)價值。

百度蒸汽機(jī)長視頻能力的升級推出,則進(jìn)一步推動了這一趨勢。

作為行業(yè)首個通用 AI 長視頻生成模型,蒸汽機(jī)打破了時長限制,實現(xiàn)了任意時長的長視頻生成。這種跨越式提升,使得 AI 視頻生成不再只是炫技式的片段演示,而是真正具備了內(nèi)容生產(chǎn)力,既能滿足廣告、影視預(yù)演等專業(yè)場景的需求,也能為大眾創(chuàng)作者釋放出前所未有的創(chuàng)作自由度。

文中視頻鏈接:https://mp.weixin.qq.com/s/9NHzO11CCdHIHpVd9c-kSg

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
超薄+eSIM!華為新機(jī)首秀:10月1日,這配置太炸裂了

超薄+eSIM!華為新機(jī)首秀:10月1日,這配置太炸裂了

手機(jī)講壇
2025-10-01 00:28:14
70歲老漢半夜心梗離世,醫(yī)生提醒:夜間再口渴,也不要喝這5種水

70歲老漢半夜心梗離世,醫(yī)生提醒:夜間再口渴,也不要喝這5種水

白宸侃片
2025-09-29 15:52:18
徹底爆了!昆明多家公司已停止接單

徹底爆了!昆明多家公司已停止接單

掌上春城
2025-09-30 22:13:23
撤回版權(quán)不到一年,54歲的刀郎再次傳來喜訊,給云朵上了一課

撤回版權(quán)不到一年,54歲的刀郎再次傳來喜訊,給云朵上了一課

楓塵余往逝
2025-10-01 00:01:44
美媒:法國達(dá)索公司首席執(zhí)行官提議,向中國臺灣地區(qū)出售“陣風(fēng)”

美媒:法國達(dá)索公司首席執(zhí)行官提議,向中國臺灣地區(qū)出售“陣風(fēng)”

零度Military
2025-09-30 13:14:56
江蘇一公司老板季晨陽去世,提新車沒多久,女兒12歲,妻子很漂亮

江蘇一公司老板季晨陽去世,提新車沒多久,女兒12歲,妻子很漂亮

史行途
2025-09-29 15:36:45
四川倆兄弟去世,哥哥7歲剛上一年級,搬新家僅8天,媽媽透露死因

四川倆兄弟去世,哥哥7歲剛上一年級,搬新家僅8天,媽媽透露死因

180視角
2025-09-30 12:55:34
江蘇省人民代表大會常務(wù)委員會決定免職名單

江蘇省人民代表大會常務(wù)委員會決定免職名單

魯中晨報
2025-09-30 12:31:05
比爾:和哈登合作讓我感到興奮,我希望能夠長期留在快船效力

比爾:和哈登合作讓我感到興奮,我希望能夠長期留在快船效力

稻谷與小麥
2025-10-01 01:56:36
開懷暢飲!追夢:巴特勒的酒窖像皇帝的一樣

開懷暢飲!追夢:巴特勒的酒窖像皇帝的一樣

林子說事
2025-09-30 15:43:26
1950年5000土匪圍攻138名解放軍,生死一線時一句話,奇跡發(fā)生了

1950年5000土匪圍攻138名解放軍,生死一線時一句話,奇跡發(fā)生了

天夢見證
2025-09-26 22:51:28
美人口不到3.35億,俄不到1.5億,為何中國14億人還擔(dān)憂人口問題

美人口不到3.35億,俄不到1.5億,為何中國14億人還擔(dān)憂人口問題

科普100克克
2025-09-29 07:31:16
研究發(fā)現(xiàn):馬齒莧可在48小時內(nèi)清除肝臟80%的毒素,是真的嗎?

研究發(fā)現(xiàn):馬齒莧可在48小時內(nèi)清除肝臟80%的毒素,是真的嗎?

素衣讀史
2025-09-30 10:38:13
斯諾克國錦賽連爆大冷:斯佳輝晉級,王雨晨爆冷,中國豪取4連勝

斯諾克國錦賽連爆大冷:斯佳輝晉級,王雨晨爆冷,中國豪取4連勝

老垯科普
2025-10-01 00:18:35
江西46歲富豪猝死:戴金佛珠、老婆29歲、女兒才3歲,結(jié)果命沒了

江西46歲富豪猝死:戴金佛珠、老婆29歲、女兒才3歲,結(jié)果命沒了

禾寒?dāng)?/span>
2025-09-30 19:13:57
可惜:中超30歲名將參加蘇超,曾被稱為白斬雞,如今委身業(yè)余賽場

可惜:中超30歲名將參加蘇超,曾被稱為白斬雞,如今委身業(yè)余賽場

國足風(fēng)云
2025-09-30 11:23:02
李蘭迪拍沙漠大片遇尷尬?褲襠鼓包似山,網(wǎng)友:顏值這回難救場!

李蘭迪拍沙漠大片遇尷尬?褲襠鼓包似山,網(wǎng)友:顏值這回難救場!

智凌縱橫
2025-09-15 09:27:37
收割機(jī)從兩墳之間開過被索要3萬,當(dāng)?shù)嘏沙鏊翰粚儆谇迷p勒索

收割機(jī)從兩墳之間開過被索要3萬,當(dāng)?shù)嘏沙鏊翰粚儆谇迷p勒索

映射生活的身影
2025-09-28 10:52:36
2018年世界杯法國隊奪冠主力現(xiàn)狀:僅有姆巴佩一人還是球隊主力

2018年世界杯法國隊奪冠主力現(xiàn)狀:僅有姆巴佩一人還是球隊主力

天光破云來
2025-10-01 01:29:20
一場被視為“虐狗”的攀登:盲人王營營,和她未登頂?shù)奶┥?>
    </a>
        <h3>
      <a href=新京報
2025-09-30 12:35:32
2025-10-01 06:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11389文章數(shù) 142462關(guān)注度
往期回顧 全部

科技要聞

宇樹回應(yīng)機(jī)器人安全漏洞:已完成大部分修復(fù)

頭條要聞

以軍一天內(nèi)襲擊加沙多地 已致59人死亡

頭條要聞

以軍一天內(nèi)襲擊加沙多地 已致59人死亡

體育要聞

詹姆斯:愿為東契奇調(diào)整打法 失去熱愛時就會退役

娛樂要聞

和張藝謀離婚后,前妻肖華現(xiàn)狀

財經(jīng)要聞

洽洽凈利暴跌73% 經(jīng)銷商遭壓貨被迫清盤

汽車要聞

升級端到端高快NOA 上汽大眾Pro家族2026款上市

態(tài)度原創(chuàng)

旅游
教育
數(shù)碼
家居
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

孩子不愿意讀書,怎么辦?

數(shù)碼要聞

OPPO Find X9系列新品發(fā)布會再預(yù)熱:Pad 5、Watch S同步亮相

家居要聞

市區(qū)綠洲 鏈接社區(qū)商業(yè)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 精品国产精品国产偷麻豆| 99re这里只有| 777久久精品一区二区三区无码| 一二三四视频社区3在线高清| 啄木乌欧美一区二区三区高压监狱| 国产精品粉穴| 成人午夜福利免费专区无码| 人妻系列无码专区69影院| 亚洲国产中文字幕精品| 毛片在线免费播放| 丰满人妻无码一区二区三区| 一本综合久久| 亚洲午夜国产精品无码久久精品| 最近中文字幕高清中文字幕电影二| 国产人妻久久精品二区三区| 色偷偷人人干| 日本无人区1码2码区别| 又色又爽又高潮免费观看| 在线黄色电影网站| 日韩白领毛片| 免费在线视频a| 国产娇小人在线| 丁香五月六月综合| 国日韩精品一区二区三区| 河南一观光直升机降落时侧翻| 黄在线看片免费人成视频| 中字幕视频在线永久在线| 伊人亚洲综合网色av另类| 亚洲人性爱视频| 亚洲一区二区三区加勒比| 亚洲成在人线AV品善网好看| 亚洲精品无码久久网红一百部AV| 国产伦精一区二区三区四区| 精品2020婷婷激情五月| 午夜人妻无码精品视频| caop超碰97| 少妇午夜福利一区二区| 久久婷婷是五月综合色| 日韩视频中文字幕| 黑人大战少妇| 国产成人手机高清在线观看网站 |