多鏡頭電影級敘事的視頻生成來了!
近期,新加坡南洋理工大學與香港中文大學、上海人工智能實驗室團隊合作,開發(fā)了一種名為 Cut2Next 的新框架,提出了“下一個鏡頭的預測”(NSG,Next Shot Generation)。在層次化多提示策略下進行上下文調優(yōu),實現了符合電影級水平、敘事連貫的高質量鏡頭生成。
Cut2Next 向電影鏡頭生成領域邁出了重要的一步,通過同時關注視覺一致性和敘事流暢性,確保了引人入勝的故事表達。審稿人對該研究評價稱:“該研究創(chuàng)新性地使用 DiT(Diffusion Transformer)和層次化提示策略,使得生成的鏡頭不僅符合專業(yè)剪輯模式,還保持了連續(xù)性。用戶研究也驗證了它在生成高質量、富有敘事表現力并且符合電影標準的鏡頭上的卓越表現。”
該研究提出了一種基于關鍵幀和多鏡頭生成視頻的新范式,為多模態(tài)的通用人工智能(AGI)提供了視覺信息建模的新思路。Cut2Next 為影視劇、AIGC 短劇和社交媒體領域提供了一種應用級工具,以高效快速地迭代長視頻的拍攝方案。此外,其還可用于互動游戲及具身智能領域的仿真內容和仿真數據。
現有視頻模型:缺乏視覺和敘事的一致性
隨著技術的發(fā)展,目前 AI 模型已經能夠生成高質量的單鏡頭視頻,不久前發(fā)布的 Sora 2 最長可生成 10 秒的視頻。然而,從時代和視頻應用的實際需求來看,現有視頻模型仍缺乏敘事連續(xù)性。盡管此前學術界已有長視頻生成的相關研究,但仍面臨如何平衡主題和敘事一致性以及高質量細節(jié)的挑戰(zhàn)。
·視覺和敘事的一致性:視覺的一致性,包括角色以及光照、打光、色調等整體風格的一致;敘事的一致性是指,需要捕捉到特定的拍攝鏡頭、機位、運鏡角度等。
·高質量細節(jié):其難題是在保證一致性的前提下,如何盡可能多地生成高質量的細節(jié),這往往與文藝作品或視頻美學價值密切相關。
(來源:arXiv)
在文本模型領域,當用語言模型生成長文本時,經常會出現幻覺問題。而在視頻模型或文生視頻模型領域也面臨同樣的問題:隨著生成故事的篇幅越來越長,模型會慢慢出現漂移,出現一些不存在的、不符合現實世界運作的幻想。
從 AGI 的角度來看,過去五年整個 AI 領域的發(fā)展是由大模型驅動的。OpenAI 聯(lián)合創(chuàng)始人伊爾亞·蘇茨克維(Ilya Sutskever)曾提出大模型背后的本質是“壓縮即智能”(compressor is intelligence),這種壓縮機制也推動了從 GPT-3 到 GPT-5 的發(fā)展。
在語言模型中,核心訓練任務是“下一個詞的預測”(NSP,Next Word Prediction);與該范式類似地,在該研究中,研究人員提出了“下一個鏡頭的預測”(NSG,Next Shot Generation)。
該論文共同通訊作者、南洋理工大學劉子緯副教授對 DeepTech 解釋說道:“如果將視覺看成一種語言,影視劇作品就是一種鏡頭語言,它是人類智慧的一種高度抽象,比如做某一種敘事、傳達某一種情感、前后如何連接到一起,甚至還包括制造戲劇沖突,讓 AI 能夠達到 AGI 的視覺的涌現程度?!?/p>
可實現電影敘事中的編輯模式
對于任何一種多鏡頭視頻,無論是電影還是電視劇,都存在不同層次的關系和連接,并經過從分鏡到拍攝再到后期剪輯的制作過程。在真實的片場里,攝影師主要聚焦于整體鏡頭的布局、分鏡頭、如何打光以及捕捉角色的動作等。而更高層次的是鏡頭與鏡頭之間的連接,這部分取決于導演和劇本。
在該研究中,研究人員提出了一種層次化多提示策略,其中包含關系提示(Relational Prompts)和個體提示(Individual Prompts)??梢詫⑺斫鉃?AI 同時承擔了導演和攝影師的角色,能夠捕捉不同層次的信息。
該技術的創(chuàng)新性主要體現在上下文感知條件注入(CACI,Context-Aware Condition Injection)和層次化注意力掩碼(HAM,Hierarchical Attention Mask),有助于提升鏡頭的質量以及連貫性。
圖丨 Cut2Next 展示其多功能的下一個鏡頭生成能力(來源:arXiv)
首先,上下文感知條件注入的目的是讓模型在某個電影場景下,更好地感知哪些元素是最重要的,包括從低層次的光照、角色一致性,到更高層次的鏡頭一致性,甚至需要想象在三維世界中的情緒流動等。
劉子緯指出,可以將上下文感知條件輸入看作把視頻生成、多鏡頭生成推向更高階的能力?;诖耍?strong>Cut2Next 可實現電影敘事中重要的編輯模式,包括正反打鏡頭、切出鏡頭和切出鏡頭。
其次,層次化的注意力掩碼?,F在無論是語言模型還是視頻模型,都依賴于 Transformer 的注意力機制。但注意力機制相對昂貴:由于計算復雜度呈指數級,因此信息量越大,復雜度越高。
尤其對于視頻來說,隨著幀數增長,長視頻難以有效捕捉。在該研究中通過層次化注意力掩碼的形式,降低了計算的復雜度,從而可在不引入新參數的條件下,模擬更多、更長和更豐富的信息。
為影視劇、AIGC 短劇和社交媒體提供應用級工具
為更好地支撐 Cut2Next 框架的訓練,研究團隊構建了兩個全新的數據集:RawCuts 是針對預訓練階段,旨在提升閱片量的多樣性和豐富度的大規(guī)模數據集,其涵蓋鏡頭數量超過 20 萬對;而 CuratedCuts 則是針對模型的精調或后訓練階段,以提升品位和培養(yǎng)審美的精標注數據集。
圖丨RawCuts 和 CuratedCuts 的數據構建管道(來源:arXiv)
研究人員對現有主流文生圖模型進行測試,發(fā)現它們在視覺一致性上表現并不理想,特別是影視集的生成。實驗結果表明,Cut2Next 在視覺一致性、文本保真度和電影連續(xù)性等方面均表現出優(yōu)于現有模型的性能。
“我們的研究相當于填補了領域內的空白。此前這個問題即便依靠工業(yè)界的大量數據也沒有解決,而它可通過生成 NSG 來解決,甚至有可能用于探索一些新應用和下游拓展?!眲⒆泳曊f。
圖丨相關性能對比(來源:arXiv)
日前,相關論文以《Cut2Next:通過上下文調整生成下一個鏡頭》(Cut2Next: Generating Next Shot via In-Context Tuning)為題發(fā)表在預印本網站 arXiv[1]。南洋理工大學博士生何靜雯是第一作者,南洋理工大學劉子緯副教授和香港中文大學歐陽萬里教授擔任共同通訊作者。
圖丨相關論文(來源:arXiv)
該技術一方面有望用于影視行業(yè)的故事板生成;另一方面,還可能為互動游戲或具身智能領域提供仿真數據。
故事板生成是影視劇,特別是大成本制作電影實拍前的重要步驟之一,甚至需要包括 3D 信息?!澳壳盎鸨?AIGC 短劇每集大概在幾分鐘,包含約十幾個關鍵幀,也非常適合用這套工具來做純 2D 的解決方案,而且能快速高效地生成不同風格的內容?!眲⒆泳暠硎?。
此外,該技術還可充分發(fā)揮創(chuàng)意,應用于個人創(chuàng)作者制作出個性化的、用于電商直播或虛擬偶像直播的視頻。
另一方面,該技術可應用于生成開放式互動游戲領域的仿真內容和具身智能領域的仿真數據。劉子緯進一步說道:“現階段大部分機器人的數據相對比較單調,多數采集于實驗室或工廠。從更長遠的角度來看,Cut2Next 為未來機器人更理解人類的生活甚至情感,提供具身智能的仿真數據?!?/p>
圖丨劉子緯(來源:劉子緯)
劉子緯在香港中文大學獲得博士學位,導師是湯曉鷗教授和王曉剛教授,之后他在美國加州大學伯克利分校從事博士后研究工作,合作導師為 Stella Yu 教授。并且,其還基于一系列優(yōu)異成果成為 2023 年《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”亞太區(qū)入選者之一。
目前,劉子緯團隊的主要研究方向是多模態(tài)生成式 AI,不僅關注視頻與文字的結合,也致力于從不同模態(tài)的信息入手,將視頻與 3D/4D 信息融合用于增強現實(AR,Augmented Reality)、虛擬現實(VR,Virtual Reality)等場景,實現理解甚至超越世界。
《哥德爾、埃舍爾、巴赫》一書中曾提到,人工智能的發(fā)展與人類的各種藝術創(chuàng)作在深層次可能是相通的。劉子緯在從事研究初期頗受該書籍的啟發(fā),據他介紹,該研究中還有一個有趣的觀察——數據與研究者是密不可分的。起初,他們認為數據集的構建相對客觀,但后來他們發(fā)現所有的數據集實際上與研究者的價值觀或者研究品味緊密相連。例如,在數據構建中,研究人員會挑選多鏡頭的案例,但其中會涉及到如何去判斷哪些多鏡頭是連續(xù)的,哪些多鏡頭是表達個統(tǒng)一的語義等等。
后來他們發(fā)現,當不同領域的研究者看待同一問題時,可能會得出不太一樣的結論。因此,如何將結論和標準統(tǒng)一是一個很有趣的問題,這與目前用 AI 解決數學題、寫代碼等確定性問題有本質的不同。他們在后續(xù)的研究中,也將繼續(xù)深入研究和討論該問題。
由于該研究涉及 AI、創(chuàng)意、影視制作、人機交互等多個交叉領域,目前研究團隊正在邀請一些跨領域的相關學者,共同探索基于 Cut2Next 如何進行創(chuàng)作或更好地輔助相關研究。他們計劃進一步開源模型、數據以及前期的發(fā)現。
此外,研究人員還打算將該技術向產業(yè)界推動,并正在與影視公司、短劇公司接洽,通過了解市場的實際應用需求,進一步精準優(yōu)化模型的速度和效率等,并通過與業(yè)界聯(lián)合不斷迭代下一版。
本次研究中的 Cut2Next 工作相當于連接了語言、視頻,甚至是不同層級的多鏡頭視頻。未來,研究團隊可能將這項工作繼續(xù)推進到對世界的終極理解——3D、4D 的層面。
參考資料:
1.https://arxiv.org/abs/2508.08244v2
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.