夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

科學家用AI預測下一鏡頭,為影視劇提供視覺和敘事一致的應用工具

0
分享至

多鏡頭電影級敘事的視頻生成來了!

近期,新加坡南洋理工大學與香港中文大學、上海人工智能實驗室團隊合作,開發(fā)了一種名為 Cut2Next 的新框架,提出了“下一個鏡頭的預測”(NSG,Next Shot Generation)。在層次化多提示策略下進行上下文調優(yōu),實現了符合電影級水平、敘事連貫的高質量鏡頭生成。

Cut2Next 向電影鏡頭生成領域邁出了重要的一步,通過同時關注視覺一致性和敘事流暢性,確保了引人入勝的故事表達。審稿人對該研究評價稱:“該研究創(chuàng)新性地使用 DiT(Diffusion Transformer)和層次化提示策略,使得生成的鏡頭不僅符合專業(yè)剪輯模式,還保持了連續(xù)性。用戶研究也驗證了它在生成高質量、富有敘事表現力并且符合電影標準的鏡頭上的卓越表現。”

該研究提出了一種基于關鍵幀和多鏡頭生成視頻的新范式,為多模態(tài)的通用人工智能(AGI)提供了視覺信息建模的新思路。Cut2Next 為影視劇、AIGC 短劇和社交媒體領域提供了一種應用級工具,以高效快速地迭代長視頻的拍攝方案。此外,其還可用于互動游戲及具身智能領域的仿真內容和仿真數據。



現有視頻模型:缺乏視覺和敘事的一致性

隨著技術的發(fā)展,目前 AI 模型已經能夠生成高質量的單鏡頭視頻,不久前發(fā)布的 Sora 2 最長可生成 10 秒的視頻。然而,從時代和視頻應用的實際需求來看,現有視頻模型仍缺乏敘事連續(xù)性。盡管此前學術界已有長視頻生成的相關研究,但仍面臨如何平衡主題和敘事一致性以及高質量細節(jié)的挑戰(zhàn)。

·視覺和敘事的一致性:視覺的一致性,包括角色以及光照、打光、色調等整體風格的一致;敘事的一致性是指,需要捕捉到特定的拍攝鏡頭、機位、運鏡角度等。

·高質量細節(jié):其難題是在保證一致性的前提下,如何盡可能多地生成高質量的細節(jié),這往往與文藝作品或視頻美學價值密切相關。


(來源:arXiv)

在文本模型領域,當用語言模型生成長文本時,經常會出現幻覺問題。而在視頻模型或文生視頻模型領域也面臨同樣的問題:隨著生成故事的篇幅越來越長,模型會慢慢出現漂移,出現一些不存在的、不符合現實世界運作的幻想。

從 AGI 的角度來看,過去五年整個 AI 領域的發(fā)展是由大模型驅動的。OpenAI 聯(lián)合創(chuàng)始人伊爾亞·蘇茨克維(Ilya Sutskever)曾提出大模型背后的本質是“壓縮即智能”(compressor is intelligence),這種壓縮機制也推動了從 GPT-3 到 GPT-5 的發(fā)展。

在語言模型中,核心訓練任務是“下一個詞的預測”(NSP,Next Word Prediction);與該范式類似地,在該研究中,研究人員提出了“下一個鏡頭的預測”(NSG,Next Shot Generation)。

該論文共同通訊作者、南洋理工大學劉子緯副教授對 DeepTech 解釋說道:“如果將視覺看成一種語言,影視劇作品就是一種鏡頭語言,它是人類智慧的一種高度抽象,比如做某一種敘事、傳達某一種情感、前后如何連接到一起,甚至還包括制造戲劇沖突,讓 AI 能夠達到 AGI 的視覺的涌現程度?!?/p>



可實現電影敘事中的編輯模式

對于任何一種多鏡頭視頻,無論是電影還是電視劇,都存在不同層次的關系和連接,并經過從分鏡到拍攝再到后期剪輯的制作過程。在真實的片場里,攝影師主要聚焦于整體鏡頭的布局、分鏡頭、如何打光以及捕捉角色的動作等。而更高層次的是鏡頭與鏡頭之間的連接,這部分取決于導演和劇本。

在該研究中,研究人員提出了一種層次化多提示策略,其中包含關系提示(Relational Prompts)和個體提示(Individual Prompts)??梢詫⑺斫鉃?AI 同時承擔了導演和攝影師的角色,能夠捕捉不同層次的信息。

該技術的創(chuàng)新性主要體現在上下文感知條件注入(CACI,Context-Aware Condition Injection)和層次化注意力掩碼(HAM,Hierarchical Attention Mask),有助于提升鏡頭的質量以及連貫性。


圖丨 Cut2Next 展示其多功能的下一個鏡頭生成能力(來源:arXiv)

首先,上下文感知條件注入的目的是讓模型在某個電影場景下,更好地感知哪些元素是最重要的,包括從低層次的光照、角色一致性,到更高層次的鏡頭一致性,甚至需要想象在三維世界中的情緒流動等。

劉子緯指出,可以將上下文感知條件輸入看作把視頻生成、多鏡頭生成推向更高階的能力?;诖耍?strong>Cut2Next 可實現電影敘事中重要的編輯模式,包括正反打鏡頭、切出鏡頭和切出鏡頭。

其次,層次化的注意力掩碼?,F在無論是語言模型還是視頻模型,都依賴于 Transformer 的注意力機制。但注意力機制相對昂貴:由于計算復雜度呈指數級,因此信息量越大,復雜度越高。

尤其對于視頻來說,隨著幀數增長,長視頻難以有效捕捉。在該研究中通過層次化注意力掩碼的形式,降低了計算的復雜度,從而可在不引入新參數的條件下,模擬更多、更長和更豐富的信息。



為影視劇、AIGC 短劇和社交媒體提供應用級工具

為更好地支撐 Cut2Next 框架的訓練,研究團隊構建了兩個全新的數據集:RawCuts 是針對預訓練階段,旨在提升閱片量的多樣性和豐富度的大規(guī)模數據集,其涵蓋鏡頭數量超過 20 萬對;而 CuratedCuts 則是針對模型的精調或后訓練階段,以提升品位和培養(yǎng)審美的精標注數據集。


圖丨RawCuts 和 CuratedCuts 的數據構建管道(來源:arXiv)

研究人員對現有主流文生圖模型進行測試,發(fā)現它們在視覺一致性上表現并不理想,特別是影視集的生成。實驗結果表明,Cut2Next 在視覺一致性、文本保真度和電影連續(xù)性等方面均表現出優(yōu)于現有模型的性能。

“我們的研究相當于填補了領域內的空白。此前這個問題即便依靠工業(yè)界的大量數據也沒有解決,而它可通過生成 NSG 來解決,甚至有可能用于探索一些新應用和下游拓展?!眲⒆泳曊f。


圖丨相關性能對比(來源:arXiv)

日前,相關論文以《Cut2Next:通過上下文調整生成下一個鏡頭》(Cut2Next: Generating Next Shot via In-Context Tuning)為題發(fā)表在預印本網站 arXiv[1]。南洋理工大學博士生何靜雯是第一作者,南洋理工大學劉子緯副教授和香港中文大學歐陽萬里教授擔任共同通訊作者。


圖丨相關論文(來源:arXiv)

該技術一方面有望用于影視行業(yè)的故事板生成;另一方面,還可能為互動游戲或具身智能領域提供仿真數據。

故事板生成是影視劇,特別是大成本制作電影實拍前的重要步驟之一,甚至需要包括 3D 信息?!澳壳盎鸨?AIGC 短劇每集大概在幾分鐘,包含約十幾個關鍵幀,也非常適合用這套工具來做純 2D 的解決方案,而且能快速高效地生成不同風格的內容?!眲⒆泳暠硎?。

此外,該技術還可充分發(fā)揮創(chuàng)意,應用于個人創(chuàng)作者制作出個性化的、用于電商直播或虛擬偶像直播的視頻。

另一方面,該技術可應用于生成開放式互動游戲領域的仿真內容和具身智能領域的仿真數據。劉子緯進一步說道:“現階段大部分機器人的數據相對比較單調,多數采集于實驗室或工廠。從更長遠的角度來看,Cut2Next 為未來機器人更理解人類的生活甚至情感,提供具身智能的仿真數據?!?/p>


圖丨劉子緯(來源:劉子緯)

劉子緯在香港中文大學獲得博士學位,導師是湯曉鷗教授和王曉剛教授,之后他在美國加州大學伯克利分校從事博士后研究工作,合作導師為 Stella Yu 教授。并且,其還基于一系列優(yōu)異成果成為 2023 年《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”亞太區(qū)入選者之一。

目前,劉子緯團隊的主要研究方向是多模態(tài)生成式 AI,不僅關注視頻與文字的結合,也致力于從不同模態(tài)的信息入手,將視頻與 3D/4D 信息融合用于增強現實(AR,Augmented Reality)、虛擬現實(VR,Virtual Reality)等場景,實現理解甚至超越世界。

《哥德爾、埃舍爾、巴赫》一書中曾提到,人工智能的發(fā)展與人類的各種藝術創(chuàng)作在深層次可能是相通的。劉子緯在從事研究初期頗受該書籍的啟發(fā),據他介紹,該研究中還有一個有趣的觀察——數據與研究者是密不可分的。起初,他們認為數據集的構建相對客觀,但后來他們發(fā)現所有的數據集實際上與研究者的價值觀或者研究品味緊密相連。例如,在數據構建中,研究人員會挑選多鏡頭的案例,但其中會涉及到如何去判斷哪些多鏡頭是連續(xù)的,哪些多鏡頭是表達個統(tǒng)一的語義等等。

后來他們發(fā)現,當不同領域的研究者看待同一問題時,可能會得出不太一樣的結論。因此,如何將結論和標準統(tǒng)一是一個很有趣的問題,這與目前用 AI 解決數學題、寫代碼等確定性問題有本質的不同。他們在后續(xù)的研究中,也將繼續(xù)深入研究和討論該問題。

由于該研究涉及 AI、創(chuàng)意、影視制作、人機交互等多個交叉領域,目前研究團隊正在邀請一些跨領域的相關學者,共同探索基于 Cut2Next 如何進行創(chuàng)作或更好地輔助相關研究。他們計劃進一步開源模型、數據以及前期的發(fā)現。

此外,研究人員還打算將該技術向產業(yè)界推動,并正在與影視公司、短劇公司接洽,通過了解市場的實際應用需求,進一步精準優(yōu)化模型的速度和效率等,并通過與業(yè)界聯(lián)合不斷迭代下一版。

本次研究中的 Cut2Next 工作相當于連接了語言、視頻,甚至是不同層級的多鏡頭視頻。未來,研究團隊可能將這項工作繼續(xù)推進到對世界的終極理解——3D、4D 的層面。

參考資料:

1.https://arxiv.org/abs/2508.08244v2

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
滿臉小家子氣就別演貴婦,溫崢嶸一出手,才知什么叫“豪門太太”

滿臉小家子氣就別演貴婦,溫崢嶸一出手,才知什么叫“豪門太太”

一娛三分地
2025-10-08 13:20:36
浪費機會受到懲罰!日本隊第119分鐘被絕殺,賽后哭倒一片

浪費機會受到懲罰!日本隊第119分鐘被絕殺,賽后哭倒一片

茜子足球
2025-10-09 12:08:14
S媽強顏歡笑讓人心疼,范瑋琪陪過中秋獲好評,小S繼續(xù)沉默惹爭議

S媽強顏歡笑讓人心疼,范瑋琪陪過中秋獲好評,小S繼續(xù)沉默惹爭議

水中燒烤的娛
2025-10-09 15:14:27
詹姆斯:我看了施羅德歐錦賽的表現,若他入選NBA名人堂我不會感到驚訝

詹姆斯:我看了施羅德歐錦賽的表現,若他入選NBA名人堂我不會感到驚訝

懂球帝
2025-10-09 07:53:06
江西48.8萬彩禮后續(xù):男子轉頭退婚提豪車,女子破防:要告你強奸

江西48.8萬彩禮后續(xù):男子轉頭退婚提豪車,女子破防:要告你強奸

鋭娛之樂
2025-09-09 22:24:54
曝特斯拉機器人停產!遇重大挫折

曝特斯拉機器人停產!遇重大挫折

電動知家
2025-10-09 15:06:11
這5種香煙已被列入“黑名單”,吸煙的人請注意,最好別抽!

這5種香煙已被列入“黑名單”,吸煙的人請注意,最好別抽!

米果說識
2025-10-09 11:32:23
活久見!上海一事業(yè)單位招聘4名大專生,公示期安排在國慶長假…

活久見!上海一事業(yè)單位招聘4名大專生,公示期安排在國慶長假…

火山詩話
2025-10-08 10:13:07
外國人是不是很羨慕中國人身上沒有體味?網友回答讓人很意外

外國人是不是很羨慕中國人身上沒有體味?網友回答讓人很意外

娛樂的硬糖吖
2025-10-08 04:14:44
沙特綜合娛樂管理局局長:曼聯(lián)目前正處于完成出售的后期階段

沙特綜合娛樂管理局局長:曼聯(lián)目前正處于完成出售的后期階段

懂球帝
2025-10-09 12:15:05
原地復活!干涸43年的第二大內流河,如今又有水了,釋放什么信號

原地復活!干涸43年的第二大內流河,如今又有水了,釋放什么信號

毒sir財經
2025-10-08 22:21:55
貴州省紀委監(jiān)委:朱大庚、黃興旺接受審查調查

貴州省紀委監(jiān)委:朱大庚、黃興旺接受審查調查

魯中晨報
2025-10-09 15:56:02
勇士現新臥龍鳳雛!庫明加全面崩盤,波杰沒進攻欲望!

勇士現新臥龍鳳雛!庫明加全面崩盤,波杰沒進攻欲望!

籃球資訊達人
2025-10-09 13:45:30
印度“毒糖漿”再奪20名兒童生命,該事件引發(fā)印度巨大政治爭議

印度“毒糖漿”再奪20名兒童生命,該事件引發(fā)印度巨大政治爭議

環(huán)球網資訊
2025-10-09 07:15:05
荷蘭半導體專家:在ASML深入研究中國企業(yè)后發(fā)現,中國芯片的實際情況比他們預想的還要糟糕

荷蘭半導體專家:在ASML深入研究中國企業(yè)后發(fā)現,中國芯片的實際情況比他們預想的還要糟糕

逍遙漠
2025-10-07 14:55:50
中國最后一位太監(jiān)孫耀庭自述:晚上伺候娘娘時,鞋底必須藏蒼耳

中國最后一位太監(jiān)孫耀庭自述:晚上伺候娘娘時,鞋底必須藏蒼耳

妙知
2025-08-28 10:19:43
一度漲停!603341,曝出重大合作

一度漲停!603341,曝出重大合作

中國基金報
2025-10-09 15:35:52
男子曝光彩禮談崩現場,女方張嘴48萬,不給嫁妝,還要空手套房

男子曝光彩禮談崩現場,女方張嘴48萬,不給嫁妝,還要空手套房

娛樂看阿敞
2025-09-18 17:16:14
上班第一天,公安局長被帶走了!

上班第一天,公安局長被帶走了!

淺深說
2025-10-09 14:11:49
官方:西班牙人隊官宣易主,伯恩利老板領銜之財團入主

官方:西班牙人隊官宣易主,伯恩利老板領銜之財團入主

雷速體育
2025-10-09 15:31:07
2025-10-09 16:19:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15710文章數 514157關注度
往期回顧 全部

科技要聞

黃仁勛:馬斯克參與的,我都想投

頭條要聞

博主稱"西貝3.9元饅頭不貴 嫌貴應努力掙錢" 回應來了

頭條要聞

博主稱"西貝3.9元饅頭不貴 嫌貴應努力掙錢" 回應來了

體育要聞

17歲他為曼聯(lián)首秀,34歲他還在英超進球

娛樂要聞

何超蓮曬團圓照!竇驍缺席

財經要聞

今年十一,年輕人光旅游不花錢?

汽車要聞

賣爆!鴻蒙智行國慶假期8天大定超48500臺

態(tài)度原創(chuàng)

游戲
本地
家居
手機
軍事航空

外國網友為《羊蹄山之魂》制作的通緝令 你會接嗎?

本地新聞

讀港校想省錢,社恐輸在起跑線

家居要聞

溫馨舒適 極致生活體驗

手機要聞

2億像素夜神!榮耀Magic8系列挑戰(zhàn)行業(yè)最強夜景長焦

軍事要聞

外媒披露加沙協(xié)議公布細節(jié):魯比奧給特朗普遞紙條

無障礙瀏覽 進入關懷版 69搡老女人老妇女老熟妇| 天堂无码av| 人人妻人人添人人爽欧美一区| 国产亚洲精品久久久久久久| 丰满岳跪趴高撅肥臀尤物在线观看 | 激情97综合亚洲色婷婷五| 国模视频导航| 亚洲旡码欧美大片| 大战丰满少妇| 3D成人动漫在线看| 性欧美疯狂xxxxbbbb| 九九电影网午夜理论片| 91丨九色丨PORNY中文在线| 伊人热热久久原色播放WWW| 涩久久免费观看| 狠狠综合久久av一区二| 亚洲天堂亚洲| 呻吟的朋友丰满人妻| 色婷婷五月综合亚洲小说| 国产又色又爽又刺激在线播放 | 日本免费三区中文| 国产精品三级黄色小视频| 在线成人少妇av| 欧美极品色午夜在线视频| 一区二区三区毛片免费大全| 国产在线高清视频无码| 色偷偷噜噜噜亚洲| 久久 国产 综合| 九七色色资源总站| 色综合久久久无码网中文| 97久久久久亚洲XXXXX| 国产成人成网站在线播放青青 | 久久久久久国产精品一区 | 日韩午夜成人影院| 男人天堂2024在线视频| 日韩精品亚洲专在线电影| 欧美性少妇xxxx极品高清hd| 亚洲成av人在线观看无堂无码| 亚洲熟女舔AV| 俄罗斯少妇黄网站| av鲁丝一区鲁丝二区鲁丝三区|