新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】AI拍長視頻不再是難事!LongLive通過實(shí)時(shí)交互生成流暢畫面,解決了傳統(tǒng)方法的卡頓、不連貫等痛點(diǎn),讓普通人都能輕松拍大片。無論是15秒短片還是240秒長片,畫面連貫、節(jié)奏流暢,讓創(chuàng)作變得像打字一樣簡單。
你還在為拍視頻頭疼嗎?
想象一下你正在寫一個(gè)故事,主角從城市街頭一路打到未來太空,劇情越來越精彩,突然你靈光一閃——
「如果他這時(shí)候變身成反派,故事會(huì)不會(huì)更炸?」
以前,你得重新寫劇本、找素材、剪輯、渲染……
現(xiàn)在,你只需要打一句話,AI實(shí)時(shí)生成新劇情,而且畫面連貫、節(jié)奏流暢,邊想邊出片,像電影一樣!
近日,NVIDIA聯(lián)合MIT等機(jī)構(gòu)重磅推出LongLive,把交互式視頻生成性能干到SOTA,最長實(shí)現(xiàn)4分鐘,可以實(shí)時(shí)交互式長視頻生成。
項(xiàng)目地址:https://nvlabs.github.io/LongLive/
論文鏈接:https://arxiv.org/abs/2509.22622
項(xiàng)目主頁:https://nvlabs.github.io/LongLive/
視頻1:交互式視頻生成結(jié)果展示
LongLive的驚艷不止于實(shí)時(shí)交互,別家模型「跑長跑就掉鞋」,我們把終點(diǎn)線直接拉到4分鐘——240秒一鏡到底,人物不崩、劇情不跳、鏡頭不晃。
視頻2:和其他模型在長視頻生成上的視覺對(duì)比。LongLive生成速度快的同時(shí),還保持了視覺一致性和語義上的連貫
對(duì)比Sora2,由于Sora2每次只能生成10秒視頻,Sora2借助GPT-5對(duì)輸入進(jìn)行了優(yōu)化,盡可能地增加背景和上下文信息,來提示Sora2生成的連貫性。
視頻3:Sora2與LongLive在長視頻生成上的對(duì)比。Sora2在視頻質(zhì)感、運(yùn)鏡以及物理規(guī)律模擬等方面非常強(qiáng)大,但難免會(huì)出現(xiàn)突變和不一致。LongLive連續(xù)性好且生成速度快
VBench-Long權(quán)威測評(píng)顯示,LongLive在長視頻賽道拿下84.87總分,領(lǐng)先同量級(jí)選手近4分;背景一致性94.8、主角一致性94.0,全程零閃變,比SkyReels-V2快了41倍。
表1:LongLive和其他模型在長視頻生成上的User Study對(duì)比
回到日常短視頻(15-30秒)場景,一樣「穩(wěn)又快」:20.7幀/秒生成速度,比播放速度還快;VBench短片段評(píng)分86.97,視覺效果依舊SOTA。
表2:LongLive在VBench 短視頻評(píng)測榜單上的性能比較
一句話,無論15秒爆款還是240分鐘大片,LongLive都給你影院級(jí)穩(wěn)感和絲滑產(chǎn)出
現(xiàn)在,很多擴(kuò)散模型的做法由于雙向注意力機(jī)制導(dǎo)致長時(shí)域生成過慢。而另一些則是「把一段視頻一段視頻分別生成然后拼起來」,所以越長越崩,人物形象完全錯(cuò)誤,還有一些方法由于訓(xùn)練階段使用短視頻,推理階段則推長視頻導(dǎo)致訓(xùn)推不一致。
總結(jié)為:
不用KV-cache,時(shí)間太慢并且形象錯(cuò)亂。
使用KV-cache,實(shí)時(shí)交互困難。
訓(xùn)不動(dòng)長視頻,推理則錯(cuò)誤累計(jì)。
而LongLive完美解決這些痛點(diǎn),一個(gè)真正面向長視頻生成交互式的訓(xùn)練和推理算法。滾動(dòng)式窗口支持長視頻訓(xùn)練,單張GPU實(shí)現(xiàn)240s實(shí)時(shí)交互生成。
視頻4:240s長視頻生成效果
LongLive三板斧
LongLive的核心秘訣是「三把鑰匙」,專門解決「長、順、快」不可能三角:
長跑鑰匙——Streaming Long Tuning
專為「長度」而生:訓(xùn)練時(shí)就讓模型自己跑完240秒,邊生成邊學(xué)習(xí),像陪練一樣陪它沖過終點(diǎn),從此不再「train-short-test-long」,越長越穩(wěn)。
圖2:流式長視頻微調(diào)流程圖。
劇情鑰匙——KV-Recache
換劇情時(shí),舊畫面不丟,新指令立刻生效。就像導(dǎo)演現(xiàn)場改劇本,演員自然接戲,不會(huì)「出戲」或「重來」。
圖3:不同策略對(duì)比來看,LongLive提出的KV re-cahce完美解決所有痛點(diǎn)
時(shí)間錨點(diǎn)和聚光燈注意力——Frame Sink和Short-Window
把開頭幾幀永久「釘」在記憶里,后面無論怎么拍,人物長相、場景風(fēng)格都不會(huì)跑。相當(dāng)于給整部片上了「定妝鎖」。
圖4:LongLive提出的sink策略保持風(fēng)格一致
只看最近關(guān)鍵幾幀,算力減半,畫面反而更穩(wěn)。就像攝影師只追焦主角,背景再亂也不影響鏡頭清晰度。
圖5:LongLive提出的Shift Window策略極致的加速生成和降低算力消耗
三招齊下,才能讓你「邊聊邊拍」240 秒依舊不崩、不跳、不重來,這才是 LongLive敢把「交互式長視頻」做成「打字速度」的大秘訣。
LongLive把「寫一句話」變成「拍一部大片」,長視頻一鏡到底、隨時(shí)改戲、立等可取——從此,長視頻不再是專業(yè)團(tuán)隊(duì)的專利,而是每個(gè)人隨手可得的創(chuàng)意游樂場。
真正的交互式視覺時(shí)代已悄然開啟,AI的每個(gè)靈感都值得被實(shí)時(shí)看見,被長久記住。
參考資料:
https://arxiv.org/abs/2509.22622
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.