本文第一作者羅亞文,香港中文大學(xué) MMLab 博士一年級在讀,研究方向為視頻生成,導(dǎo)師為薛天帆教授。個人主頁:https://luo0207.github.io/yawenluo/
作為視頻創(chuàng)作者,你是否曾夢想復(fù)刻《盜夢空間》里顛覆物理的旋轉(zhuǎn)鏡頭,或是重現(xiàn)《泰坦尼克號》船頭經(jīng)典的追蹤運鏡?
在 AI 視頻生成中,這些依賴精確相機運動的創(chuàng)意,實現(xiàn)起來卻往往異常困難。
一個直接的想法是先用相機位姿估計模型從參考視頻中提取相機參數(shù),然后使用相機參數(shù)作為控制條件引導(dǎo)視頻生成過程。
然而,這條看似容易的路徑,實則充滿了陷阱:現(xiàn)實場景中的動態(tài)物體和復(fù)雜遮擋關(guān)系,常常導(dǎo)致模型估算出的相機參數(shù)出現(xiàn)偏差或錯誤,讓生成的運鏡效果與預(yù)期大相徑庭。
為了解決這一痛點,香港中文大學(xué)與快手可靈團隊聯(lián)合提出了一種全新的運鏡可控的視頻生成框架 CamCloneMaster。它引入了一種「參考即用」的新范式,用戶只需提供一段參考視頻,模型就能直接「克隆」其相機運動并應(yīng)用于新內(nèi)容,從根本上告別了對相機參數(shù)的依賴。該工作被計算機圖形學(xué)頂級會議 SIGGRAPH Asia 2025 接收,其訓(xùn)練、測試代碼和高質(zhì)量渲染數(shù)據(jù)集 CamClone Dataset 均已開源。該工作所提出的數(shù)據(jù)集規(guī)模宏大,包含115萬數(shù)據(jù)對,39.1萬視頻,覆蓋40個不同的3D場景,9.77萬條多樣化的相機軌跡。
- 論文標(biāo)題:CamCloneMaster: Enabling Reference-based Camera Control for Video Generation
- 項目主頁:https://camclonemaster.github.io/
- 論文:https://arxiv.org/abs/2506.03140
- 數(shù)據(jù)集:https://huggingface.co/datasets/KwaiVGI/CameraClone-Dataset
- 代碼:https://github.com/KwaiVGI/CamCloneMaster
CamCloneMaster 能力展示
a) 相機可控的圖生視頻(I2V)
b) 相機可控的視頻重運鏡(V2V)
CamCloneMaster 創(chuàng)新點
研究者表示,CamCloneMaster 的主要創(chuàng)新點是:
- 提出了一種全新的、無需相機參數(shù)的參考式控制范式:用戶僅需提供一個參考視頻,就能直觀、便捷地控制生成視頻的鏡頭運動。
- 設(shè)計了一個簡潔高效的統(tǒng)一框架:通過 Token 拼接策略,在單個模型內(nèi)同時實現(xiàn)了相機可控的 I2V 和 V2V 任務(wù),避免了額外的控制模塊,參數(shù)效率極高。
- 構(gòu)建并開源了首個大規(guī)模相機運鏡克隆數(shù)據(jù)集,為相機運鏡控制提供了寶貴的研究數(shù)據(jù)資源。
CamCloneMaster 算法解讀
如上圖所示,CamCloneMaster 的核心算法和框架極為簡單有效:它將作為條件的相機運動參考視頻(Camera Motion Reference)和可選的內(nèi)容參考視頻(Content Reference),通過一個 3D VAE 編碼器轉(zhuǎn)換成潛在空間的 Latent Tokens。
隨后,這些條件 Tokens 與需要去噪的目標(biāo)視頻的噪聲 Tokens,在時間維度(Frame Dimension)上進(jìn)行直接拼接。拼接后的序列被送入 Diffusion Transformer 中進(jìn)行處理。這種設(shè)計使得模型可以通過注意力機制來學(xué)習(xí)如何利用來自參考視頻的相機運動線索和內(nèi)容信息,從而指導(dǎo)視頻的生成。
Camera Clone 數(shù)據(jù)集
為了有效地訓(xùn)練模型學(xué)習(xí)「克隆」相機運動,團隊使用虛幻引擎 5(Unreal Engine 5)構(gòu)建了一個龐大的高質(zhì)量合成數(shù)據(jù)集——Camera Clone Dataset:
- 規(guī)模宏大:包含 115 萬數(shù)據(jù)對和 39.1 萬個視頻,覆蓋 40 個不同的 3D 場景、3.91 萬個機位點和 9.77 萬條多樣化的相機軌跡。
- 數(shù)據(jù)配對:數(shù)據(jù)集的關(guān)鍵特性是提供了大量的三元組視頻——運鏡參考視頻、內(nèi)容參考視頻以及目標(biāo)視頻。
- 多樣性豐富:相機軌跡涵蓋了從簡單的平移、旋轉(zhuǎn)到復(fù)雜的組合路徑,模擬了真實世界中各種可能的拍攝手法。
實驗結(jié)果
在定量和定性比較中,CamCloneMaster 在各項指標(biāo)上均顯著優(yōu)于當(dāng)前的 SOTA 方法:
定性實驗結(jié)果:
定量實驗結(jié)果:
無論是在相機運動的準(zhǔn)確性(更低的旋轉(zhuǎn)和平移誤差),還是在生成視頻的視覺質(zhì)量(更低的 FVD/FID)和時序連貫性上,CamCloneMaster 都展現(xiàn)出了卓越的性能。
總結(jié)
CamCloneMaster 通過一種直觀、高效的參考式控制方法,極大地簡化了 AI 視頻生成中的相機運動控制。其統(tǒng)一的 I2V 和 V2V 框架,以及優(yōu)越的性能表現(xiàn),驗證了基于參考視頻的運鏡控制這一思路的巨大潛力。同時,開源的大規(guī)模數(shù)據(jù)集也將為社區(qū)的相關(guān)研究提供強有力的支持,有望推動 AIGC 視頻創(chuàng)作進(jìn)入一個運鏡更自由、表達(dá)更豐富的新階段。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.