夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港科大廣州、快手可靈發(fā)布立體視頻轉(zhuǎn)換單步推理新方案

0
分享至



近年來,隨著 VR 頭戴設(shè)備、智能眼鏡、3D 影院的發(fā)展,人們對于 3D 立體視頻內(nèi)容的需求不斷增加。3D 電影帶來的沉浸式體驗著實令人著迷,但因其制作過程需要專業(yè)的相機設(shè)備、復雜耗時的專家后處理,3D 內(nèi)容的制作讓普通玩家望而卻步:

2010 年,卡梅隆導演為了實現(xiàn)經(jīng)典著作《泰坦尼克號》的 3D 版本重制,制作團隊投入了高達 1800 萬美元,動用了 300 名專業(yè)工程師,耗時整整 60 周才完成[1]。

如此高昂的成本和復雜的人力投入,一直是 3D 內(nèi)容生產(chǎn)的最大阻礙。盡管近年來自動化的“單目轉(zhuǎn)雙目”(Monocular-to-Stereo)技術(shù)有所發(fā)展,但效果往往不盡如人意,轉(zhuǎn)換的結(jié)果往往要么產(chǎn)生錯誤的視差,要么無法處理復雜的鏡面場景,且速度極慢:現(xiàn)有的研究工作轉(zhuǎn)換一段 5 秒的視頻,耗時15 分鐘到 70 分鐘不等

針對這一難題,快手可靈團隊與香港科技大學(廣州)陳穎聰教授團隊(共同一作博士生沈貴寶、紅鳥碩士生杜壹華、博士生葛汶杭)聯(lián)合提出了一種全新的解決方案 ——StereoPilot。這是一種基于生成式先驗的統(tǒng)一高效立體視頻轉(zhuǎn)換模型,能夠在極短的時間內(nèi)(11 秒),將一段 5 秒的普通 2D 視頻轉(zhuǎn)換為高質(zhì)量的 3D 立體視頻,在所有定量指標上均超越了當前 SOTA 方法。



  • 論文鏈接:https://arxiv.org/abs/2512.16915
  • 項目主頁:https://hit-perfect.github.io/StereoPilot/
  • 代碼鏈接:https://github.com/KlingTeam/StereoPilot/

當解鎖了 3D 視頻的制作部分,接下來,你只需要購買一副大約價格 10 元人民幣的紅藍眼鏡,即可跟隨 StereoPliot 一起,開啟沉浸式視覺體驗:

論文的作者,對單目轉(zhuǎn)雙目視頻,從以往的研究方法到數(shù)據(jù)格式,由表及里地進行了深入分析:

傳統(tǒng)困境:為何 "Depth-Warp-Inpaint" 走不通?



在 StereoPilot 之前的研究工作中,學術(shù)界和工業(yè)界主流的 2D 轉(zhuǎn) 3D 方案通常采用“深度估計 - 重投影 - 補全”(Depth-Warp-Inpaint, DWI)的多階段流水線 :首先估計輸入視角(如 left-view)每個像素的深度,再依據(jù)深度和視差(disparity)的反比關(guān)系計算出視差進而重投影到目標視角(right-view),最后再對遮擋位置進行補全。雖然這種方法符合直覺,但在實際應(yīng)用中卻存在三大致命缺陷:

1. 誤差累積(Error Propagation)

DWI 流程是串行的:先估計深度圖,再根據(jù)深度圖將像素 “重投影”(Warp)到另一只眼睛的視角,最后修補空洞。這導致了一個嚴重的問題:一步錯,步步錯。如果初始的深度估計不準確,后續(xù)的重投影步驟會直接放大這種錯誤,導致最終生成的畫面出現(xiàn)嚴重的幾何畸變和偽影 。

2. 深度歧義(Depth Ambiguity)

搞不定的 “鏡中花”這是 DWI 方法面臨的最棘手的物理難題。在現(xiàn)實世界中,鏡子或玻璃等反光表面存在一種特殊的現(xiàn)象:鏡子表面的物理深度與鏡子里反射物體的成像深度是不同的。 然而,傳統(tǒng)的深度估計算法在同一個像素點上只能預(yù)測一個深度值。這導致 DWI 方法無法正確處理反射場景 —— 它們往往會將物體反射的光學成像如同紋理一樣錯誤地 “貼” 在鏡子表面,導致 3D 觀感極度違和。







基于以上的現(xiàn)象觀察和論述,我們可以得到:在鏡面反射、透明等一個位置具備多個光學深度的場景下,單目深度估計算法預(yù)測得出的單一深度值,將無法通過簡單的反比幾何關(guān)系導出視差從而進行正確的重投影(warp)操作,而作者提出的 StereoPilot 則很好處理了“鏡中花”的場景,如下圖所示:



3. 格式不一致(Format Inconsistency)與幾何假設(shè)失效

目前的 DWI 方法通常假設(shè):深度(Depth)與視差(Disparity)之間存在簡單的反比關(guān)系。這種假設(shè)僅對平行攝像機(Parallel)配置有效。然而, 3D 電影影視工業(yè)中,為了獲得更好的觀影體驗,通常使用的是匯聚攝像機(Converged/Toe-in)。 在匯聚模式下,上述簡單的幾何假設(shè)不再成立,強行使用 DWI 方法會導致視差計算錯誤,和需要還原的 3D 訓練數(shù)據(jù)無法達成一致。

撥開迷霧:Converged(匯聚式) vs. Parallel(平行式)

為了徹底解決格式問題,我們必須先理清 3D 視頻數(shù)據(jù)的兩種主要格式,StereoPlilot 的作者用下面的圖例形象地展示了兩種數(shù)據(jù)格式的區(qū)別:



  • 平行格式(Parallel): 左右兩個相機的光軸是完全平行的。這種格式常見于計算機視覺數(shù)據(jù)集,其視差與深度成簡單的反比關(guān)系,常常被用于計算高精度的深度值。
  • 匯聚格式(Converged): 左右相機的光軸向內(nèi)旋轉(zhuǎn),匯聚于一點(匯聚點)。這會產(chǎn)生一個 “零視差平面”—— 在這個平面之前的物體會有出屏效果(正視差),而在其之后的物體則 “深陷” 屏幕中(負視差),而處于零視差面的主體則沒有視差,觀眾的眼睛提供了休息區(qū)。這是 3D 電影工業(yè)的標準格式。深度與視差之間不再存在簡單的反比關(guān)系。

下面兩個例子形象展示了了兩種 3D 數(shù)據(jù)格式的區(qū)別:



平行格式(Parallel)vs 匯聚格式(Converged)

由于先前的研究工作往往從未對這兩種格式進行區(qū)分,或者只在單一格式上進行訓練,不可避免的帶來了一些不合理的對比,如將匯聚式 3D 電影數(shù)據(jù)集上訓練的模型在平行光軸的數(shù)據(jù)集上進行測試對比。

StereoPilot:統(tǒng)一、高效的端到端解決方案

為了攻克上述難題,快手可靈聯(lián)合港科大(廣州)團隊提出了StereoPilot。

UniStereo:首個大規(guī)模統(tǒng)一 3D 立體視頻數(shù)據(jù)集

團隊構(gòu)建了UniStereo數(shù)據(jù)集,數(shù)據(jù)處理打標流程如下圖所示,這是業(yè)界首個同時包含 Parallel 和 Converged 兩種格式的大規(guī)模 3D 立體視頻數(shù)據(jù)集。UniStereo 數(shù)據(jù)集包含了兩個部分:



  • Stereo4D (Parallel): 包含了 Stereo4D 的數(shù)據(jù)中 58,000 個 5 秒的源自真實世界的平行視角視頻片段 。
  • 3DMovie (Converged): 從 142 部高質(zhì)量 3D 電影中精選并處理了 48,000 個 5 秒的匯聚視角視頻片段。

作者將會公開 Parallel 格式的所有數(shù)據(jù)和 Converged 格式數(shù)據(jù)的處理流程。

統(tǒng)一高效的模型結(jié)構(gòu)



StereoPilot 的模型結(jié)構(gòu)如上圖所示,主要包含下面三個核心部分:

  • Diffusion as Feed-Forward 11 秒極速轉(zhuǎn)換:不同于傳統(tǒng)的迭代式擴散模型(需要幾十步采樣,速度慢),StereoPilot 首次在該任務(wù)中采用了的"Diffusion as Feed-Forward"架構(gòu)。作者將時間步 固定為一個極小值,利用預(yù)訓練視頻擴散模型(Video Diffusion Transformer)強大的生成先驗,直接在單次前向傳播中預(yù)測目標視圖。 這使得 StereoPilot 處理一個 5 秒(81 幀)的視頻僅需 11 秒,而同類方法(如 Mono2Stereo, SVG)往往需要十幾分鐘甚至一小時。
  • Domain Switcher 全能格式切換:為了讓一個模型同時搞定兩種 3D 格式并提高模型的泛化能力,StereoPilot 引入了一個可學習的 Domain Switcher。這就好比給模型裝了一個 “開關(guān)”,用戶可以根據(jù)需要,自由控制生成 Parallel 還是 Converged 格式的 3D 視頻,實現(xiàn)了真正的統(tǒng)一。
  • Cycle Consistency 保證幾何一致性:為了確保生成的左眼和右眼視頻在幾何上更好的對齊,團隊還設(shè)計了循環(huán)一致性損失(Cycle Consistency Loss),強制模型在從左圖生成右圖、再從右圖還原左圖的過程中保持信息不丟失,提升了目標視角與源視角的幾何一致性。

實驗對比展示

定量指標對比

作者在 UniStereo 基準測試集中對近期的 SOTA 方法進行了全面的對比,如表格所示,StereoPilot 在 PSNR、SSIM、LPIPS 等所有核心指標上均顯著優(yōu)于 StereoDiffusion, StereoCrafter, SVG, Mono2Stereo 等現(xiàn)有 SOTA 方法,在推理性能上,對比其他方法動輒十幾分鐘到一個多小時的推理時間,StereoPilot 的 11 秒的推理速度實現(xiàn)了壓倒性的優(yōu)勢。



可視化對比

根據(jù)作者展示的可視化對比結(jié)果,相比其他的 SOTA 方法,StereoPilot 預(yù)測的結(jié)果具有更加準確的視差和更高的視覺質(zhì)量。此外,如前文中分析,StereoPilot 可以處理復雜的鏡面場景(如下圖中的最后一列的樣本),這是其他方法從原理上無法做到的事情。



消融分析

為了驗證 StereoPilot 方法中的模塊的有效性,作者提供了 Domain Switcher 和 Cycle Consistency 的消融分析實驗。

首先,如下展示的動態(tài)效果所示,StereoPilot 可以在 Domain Switcher 的加持下,實現(xiàn) parallel 和 converged 的兩種 3D 格式的靈活轉(zhuǎn)換。





除了實現(xiàn)靈活統(tǒng)一的 3D 視頻轉(zhuǎn)換外,作者進一步地進行定量和定性實驗,驗證統(tǒng)一地訓練方式對模型泛化性能的影響,如下圖表所示:





從圖表展示的結(jié)果可以看出 Domain Switcher 和 Cycle Consistency 為模型在測試集上提供了更好的泛化性能與一致性。

結(jié)語

快手可靈團隊和港科大廣州聯(lián)合提出的 StereoPilot,實現(xiàn)了快速高質(zhì)量的端到端 2D 視頻轉(zhuǎn) 3D 視頻,打破了 2D 轉(zhuǎn) 3D 依賴昂貴人工或低效深度重投影的桎梏,為 VR/AR 內(nèi)容創(chuàng)作、老電影修復以及沉浸式視頻體驗提供了新的可能性。此外,團隊首次闡明 parallel 和 converged 兩種 3D 立體視頻數(shù)據(jù)的格式,并首次構(gòu)建了大規(guī)模統(tǒng)一 3D 立體視頻數(shù)據(jù)集,澄清了該領(lǐng)域的訓練、測評標準。

[1] https://zh.wikipedia.org/wiki/% E6% B3% B0% E5%9D% A6% E5% B0% BC% E5%85%8B% E5%8F% B7_(1997% E5% B9% B4% E7%94% B5% E5% BD% B1)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
洪金寶兒子舉家移居深圳!親自搬家不請公司,細節(jié)再度辟謠婚變

洪金寶兒子舉家移居深圳!親自搬家不請公司,細節(jié)再度辟謠婚變

裕豐娛間說
2025-12-23 16:28:17
五件南博處置文物已找到,院長徐湖平涉嫌走私故宮南遷文物

五件南博處置文物已找到,院長徐湖平涉嫌走私故宮南遷文物

亞哥談古論今
2025-12-23 18:35:47
收藏家龐萊臣后人談南京博物館:“不能理解,不能接受”

收藏家龐萊臣后人談南京博物館:“不能理解,不能接受”

互聯(lián)網(wǎng)大觀
2025-12-23 12:03:00
泰國軍隊攻入柬埔寨園區(qū)畫面疑曝光!電詐分子跪地,墻上中文扎眼

泰國軍隊攻入柬埔寨園區(qū)畫面疑曝光!電詐分子跪地,墻上中文扎眼

環(huán)球熱點快評
2025-12-23 16:48:49
“斷骨增高術(shù)”后的他們:難修復的長短腿、疼痛無力等后遺癥,以及無盡的后悔

“斷骨增高術(shù)”后的他們:難修復的長短腿、疼痛無力等后遺癥,以及無盡的后悔

澎湃新聞
2025-12-23 20:22:29
劉嘉玲曝林青霞家中的麻將房掛“東方不敗”照片:坐在她家里面打麻將要嚇死了

劉嘉玲曝林青霞家中的麻將房掛“東方不敗”照片:坐在她家里面打麻將要嚇死了

紅星新聞
2025-12-22 18:29:10
新生兒出生次日死亡,家屬起訴出生醫(yī)院索賠百萬!一審判決:醫(yī)院擔責九成賠償96萬

新生兒出生次日死亡,家屬起訴出生醫(yī)院索賠百萬!一審判決:醫(yī)院擔責九成賠償96萬

紅星新聞
2025-12-23 18:29:56
福原愛首次回應(yīng)再婚懷孕,現(xiàn)任丈夫正是當年出軌風波中的“橫濱男”

福原愛首次回應(yīng)再婚懷孕,現(xiàn)任丈夫正是當年出軌風波中的“橫濱男”

新民周刊
2025-12-22 15:22:37
生物博士變身鑒寶 公證書撤銷照樣算數(shù) 南博為何“制造”龐家后人

生物博士變身鑒寶 公證書撤銷照樣算數(shù) 南博為何“制造”龐家后人

金牌輿情官
2025-12-22 22:40:53
中國的社零增速,已經(jīng)連降了6個月,轉(zhuǎn)負甚至就在眼前

中國的社零增速,已經(jīng)連降了6個月,轉(zhuǎn)負甚至就在眼前

子業(yè)一說財經(jīng)
2025-12-23 15:21:31
打到七寸了!項立剛稱羅永浩大概率被封,和我無關(guān),求錘得錘而已

打到七寸了!項立剛稱羅永浩大概率被封,和我無關(guān),求錘得錘而已

火山詩話
2025-12-23 18:25:49
死刑!發(fā)小害死妻兒案宣判!家屬拒注射死刑,文明不該給兇手體面

死刑!發(fā)小害死妻兒案宣判!家屬拒注射死刑,文明不該給兇手體面

涼湫瑾言
2025-12-23 16:02:09
曝國足1月初集訓招30人!邵佳一放棄老將 留用3大歸化+李可或回歸

曝國足1月初集訓招30人!邵佳一放棄老將 留用3大歸化+李可或回歸

我愛英超
2025-12-23 18:29:56
南京博物院背后的徐院長、徐公子、徐小姐,都是人才??!

人格志
2025-12-23 00:04:02

胡金秋22+8衛(wèi)冕冠軍廣廈大勝雙殺福建 孫銘徽13助攻布朗16分

胡金秋22+8衛(wèi)冕冠軍廣廈大勝雙殺福建 孫銘徽13助攻布朗16分

醉臥浮生
2025-12-23 21:19:07
1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

1956年毛主席罕見發(fā)問:東來順羊肉咋回事?陳云一查,根子不在師傅,問題出在“新規(guī)矩”

歷史回憶室
2025-12-23 10:19:17
趙露思不尷尬嗎?寶格麗900萬珠寶給她戴了,卻一身廉價味顯難堪

趙露思不尷尬嗎?寶格麗900萬珠寶給她戴了,卻一身廉價味顯難堪

嫹筆牂牂
2025-12-23 07:09:08
京東法國倉庫被盜,或涉及超3億元商品

京東法國倉庫被盜,或涉及超3億元商品

第一財經(jīng)資訊
2025-12-23 18:24:09
貪欲膨脹,廣東一原副區(qū)長被雙開!她曾任鎮(zhèn)紀委書記、鎮(zhèn)委書記等職

貪欲膨脹,廣東一原副區(qū)長被雙開!她曾任鎮(zhèn)紀委書記、鎮(zhèn)委書記等職

瀟湘晨報
2025-12-23 10:29:15
去日本航班取消,去柬埔寨機票還很好買

去日本航班取消,去柬埔寨機票還很好買

名人茍或
2025-12-23 06:04:32
2025-12-23 23:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11980文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產(chǎn)攻擊

頭條要聞

特朗普稱出于國家安全"必須拿下格陵蘭島" 又扯上中俄

頭條要聞

特朗普稱出于國家安全"必須拿下格陵蘭島" 又扯上中俄

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應(yīng)阿信感謝,自曝沒再收到邀約

財經(jīng)要聞

祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

教育
時尚
游戲
親子
房產(chǎn)

教育要聞

成都這所學校的課堂變樣了:AI在語文課當“辯手”,在體育課做“私教”

今年流行“毛衣+外套”,這樣穿時髦又好看!

原來句句有回應(yīng)!過完3.8主線,回頭看《不眠之夜》玩家萬分感慨

親子要聞

年銷10億的兒童止咳藥,說明書增加:會導致“自殺傾向”

房產(chǎn)要聞

獨家猛料!16.1億,浙江老板搶下雅居樂清水灣261畝重磅宅地!

無障礙瀏覽 進入關(guān)懷版 最新av在线播放| 欧美孕妇在线观看bd| 97丨九色丨国产 | 国产女女做受ⅩXX高潮| 最新国内精品自在自线视频| 亚洲有码人妻| 被黑人猛躁十次| 大地资源免费视频观看| 精品妇女一区二区三区下囿高潮| 在线免费午夜视频| 国产亚洲欧美日韩在线一区| 国产av新搬来的白领女邻居| 激情综合色综合久久综合| 加勒比亚洲天堂午夜中文| 再深点灬舒服灬受不了了视频| 欧洲精品无码久久毛片| 国产黑丝视频在线观看| 超碰人人做人人爱| 精品国产三级a在线观看| 国产99精品| 玖玖99在线| 中国亚洲女人69内射少妇| 北条麻妃av高清无码| 亚洲多毛老熟女| 好屌妞妞干网这里有精品免费视频| AV成人片在线观看| 亚洲精品无码视频| 亚洲一区 日韩精品 中文字幕| 神马久久香蕉| 99精品欧美一区二区三区| JAPAN成熟少妇VIDEOS| 日韩成人不卡大片| 老妇xxxxx性开放| 日韩毛片免费视频| 人与性口牲恔免费播放| 欧美精品久久久久久精品爆乳 | 国产精品成人av电影不卡| 五月天黄色小说| 国产成人啪精品视频免费网站| 久久久久久国产精品无码下载| 又黄又无遮挡aaaaa毛片|