夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別「面癱」配音,InfiniteTalk開啟從口型同步到全身表達新范式

0
分享至



傳統(tǒng) video dubbing 技術長期受限于其固有的 “口型僵局”,即僅能編輯嘴部區(qū)域,導致配音所傳遞的情感與人物的面部、肢體表達嚴重脫節(jié),削弱了觀眾的沉浸感?,F(xiàn)有新興的音頻驅動視頻生成模型,在應對長視頻序列時也暴露出身份漂移和片段過渡生硬等問題。為解決這些痛點,Infinitetalk 引入 “稀疏幀 video dubbing”。

這一新范式從根本上重新定義了 video dubbing,將其從簡單的 “嘴部區(qū)域修復” 轉變?yōu)?“以稀疏關鍵幀為引導的全身視頻生成”。該模型不僅能夠實現(xiàn)口型與配音的精準同步,更實現(xiàn)了面部表情、頭部轉動和肢體語言與音頻所表達情感的自然對齊,消除長視頻生成中的累積誤差和突兀過渡。

InfiniteTalk 是由美團視覺智能部主導研發(fā)的新型虛擬人驅動技術,技術論文、代碼、權重已開源。 美團視覺智能部能圍繞豐富的本地生活電商場景,建設從基礎通用到細分領域的視覺技術能力,包括視覺生成大模型、多模交互虛擬人,助力營銷創(chuàng)意生產(chǎn)和商家低成本直播;文檔、商品、安全多模態(tài)大模型,助力商家開店經(jīng)營、平臺商品治理和違規(guī)賬號治理;人臉識別、文字識別、細粒度圖像分析、高性能檢測分割、街景理解成為公司基礎設施能力。



  • 項目主頁:https://meigen-ai.github.io/InfiniteTalk/
  • 開源代碼:https://github.com/MeiGen-AI/InfiniteTalk
  • 技術報告:https://arxiv.org/abs/2508.14033

我們先看示例:

一、引言 ——video dubbing 的一個長期痛點

長期以來,video dubbing 一直面臨一個核心的 “僵局”—— 其編輯范圍的局限性。傳統(tǒng)的 video dubbing 技術,例如 MuseTalk 和 LatentSync,通常專注于對嘴部區(qū)域進行 “修復式” 編輯,以實現(xiàn)口型與新音頻的同步。這種方法的主要局限在于,它幾乎不觸及人物的面部表情、頭部轉動和肢體動作。

這種 “局部編輯” 的策略導致了一個嚴重的矛盾:當配音表達出強烈的情感(例如激動、憤怒或喜悅)時,視頻中人物的身體姿態(tài)卻保持著僵硬或靜止狀態(tài)。例如,一段充滿激情的對話,人物卻只是面部肌肉輕微抽動,身體保持紋絲不動。這種視聽信息的不一致性會嚴重破壞觀眾的沉浸感,使生成的視頻顯得不自然,缺乏說服力。這種矛盾感的存在,從根本上制約了配音視頻的質量,并成為內容創(chuàng)作者亟待解決的難題。如圖 1 所示。



隨著人工智能技術的發(fā)展,一些音頻驅動的視頻生成模型應運而生,試圖解決這一問題。然而,直接將這些模型應用于長 video dubbing 任務,同樣暴露出新的、且同樣關鍵的挑戰(zhàn)。

首先是基于圖像轉視頻(Image-to-Video, I2V)的方法。這類模型通常以視頻的首幀圖像作為初始參考,然后根據(jù)音頻生成后續(xù)的視頻序列。雖然這種方法在理論上提供了更大的動作自由度,但它存在嚴重的 “累積誤差” 問題,如圖 2 (left)。由于模型缺乏持續(xù)的原始關鍵幀作為錨定,在生成較長的視頻序列時,人物的身份特征(如面部細節(jié)、發(fā)型等)會逐漸偏離源視頻,甚至背景的色調也可能發(fā)生不可控的偏移,導致視頻質量隨時間推移而下降。

其次是基于首末幀轉視頻(First-Last-frame-to-Video, FL2V)的方法。該方法試圖通過同時使用視頻片段的起始幀和終止幀作為參考來解決累積誤差。然而,這種策略帶來了另一個問題:過渡生硬, 如圖 2(right)。FL2V 模型生成過程缺乏從前一片段向后一片段傳遞的 “動量信息”,不同視頻片段之間的動作銜接會顯得突兀和不自然,打破了視頻流的連續(xù)性。與此同時,其過于嚴格地遵循固定的參考幀,強制生成的視頻在片段(chunk)的邊界上精確復制參考幀的姿態(tài),即使這種姿態(tài)與新音頻的情感或節(jié)奏相悖。

這兩種主流 AI 方案的局限性揭示了一個核心矛盾:即 “局部編輯的僵硬” 與 “全局生成的失控”。傳統(tǒng)方法因編輯范圍狹窄而僵硬,而新興的 AI 生成模型則在長視頻的連貫性上遭遇了挑戰(zhàn)。



二、新的范式:稀疏幀 video dubbing

為了從根本上解決上述挑戰(zhàn),Infinitetalk 引入了一個全新的技術范式 ——“稀疏幀 video dubbing”。這一范式徹底改變了 video dubbing 的技術哲學:它不再將任務定義為對嘴部區(qū)域的 “修復”(inpainting),而是將其重構為一場 “以稀疏關鍵幀為引導的全身視頻生成”。其核心理念在于,不是逐幀地、僵硬地復制源視頻,而是策略性地僅保留和利用源視頻中的少數(shù)關鍵幀(sparse keyframes)作為核心參考。這些關鍵幀如同 “視覺錨點”,在生成過程中發(fā)揮著至關重要的作用。



為了應對無限長度的視頻序列生成任務,InfiniteTalk 采用了流式(streaming)生成架構,整體網(wǎng)絡框架如圖 4 所示。其工作原理是將一個超長視頻分解為多個小的、可管理的視頻片段(chunks),然后逐一進行生成。然而,與簡單的分段生成不同,InfiniteTalk 的核心在于其精巧設計的 “上下文幀”(context frames)機制。

當模型生成一個新片段時,它不僅僅依賴于源視頻的參考幀,還會利用上一段已生成視頻的末尾幀作為下一段生成的 “動量信息”。這些上下文幀為新片段的生成提供了必要的 “時間上下文”,使其能夠承接前一片段的運動趨勢和動態(tài),確保動作的連續(xù)性和流暢性。這一機制如同接力賽中的接力棒,將前一棒的沖刺動量無縫傳遞給下一棒,從而徹底解決了傳統(tǒng) FL2V 模型中因缺乏動量信息而導致的片段間突兀過渡問題。通過流式架構和上下文幀機制的結合,InfiniteTalk 成功地將 “片段生成” 任務提升為 “連續(xù)流生成”,這是其實現(xiàn) “無限長度” 生成能力的技術基石。

在 “稀疏幀 video dubbing” 范式下,一個關鍵的挑戰(zhàn)是如何在 “自由表達” 與 “跟隨參考” 之間找到微妙的平衡。過于嚴格地復制參考幀(如 M1 策略)會導致生成的動作僵硬,而如果控制過于松散(如 M2 策略),則又會面臨身份和背景失真等問題。InfiniteTalk 的核心策略是采用一種 “軟條件”(soft conditioning)控制機制 。該機制的核心發(fā)現(xiàn)是,模型的控制強度并非固定不變,而是由 “視頻上下文和參考圖像的相似度” 所決定 ?;谶@一發(fā)現(xiàn),Infinitetalk 設計了一種獨特的采樣策略,通過 “細粒度的參考幀定位”(fine-grained reference frame positioning)來動態(tài)調整控制強度,從而在動作自然度與參考幀的保真度之間取得平衡。



如表 3 所示,M0 策略因隨機采樣而控制強度過高,導致模型不恰當?shù)貜椭茀⒖紕幼鳎魅趿送叫?。M1 策略雖然在視覺質量上表現(xiàn)尚可,但在同步性上表現(xiàn)較差,因為它過于嚴格地復制了邊界幀。M2 策略因參考幀與上下文幀的時間距離過遠,導致模型對身份和背景的控制力不足,最終在視覺質量(FID、FVD)上表現(xiàn)最差。

最終被采納的 M3 策略,通過在訓練中從鄰近分塊(adjacent chunks)中采樣參考幀,找到了一個 “最優(yōu)平衡點”(optimal equilibrium)。這種策略既能確保模型在視覺上遵循源視頻的風格,又能賦予模型根據(jù)音頻動態(tài)生成全身動作的自由。



此外,該模型還能通過集成 SDEdit 或 Uni3C 等插件,實現(xiàn)對源視頻中微妙的鏡頭運動(camera movement)的精確保留。這一點至關重要,因為它確保了生成的視頻不僅人物動作自然,連畫面的構圖和運鏡都與源視頻保持一致,進一步提升了視頻的真實感和連貫性。

三、實驗數(shù)據(jù)與視覺實證

為了全面驗證 InfiniteTalk 的性能,將其與多個方法進行了對比。





不同相機控制方法的對比:



四、結語與展望

InfiniteTalk 成功解決了 “僵硬” 與 “斷裂” 兩大痛點。其核心技術 —— 流式生成架構、軟條件控制以及全方位同步能力,共同為高質量、長序列的視頻內容生成提供了新的解決方案。在短視頻創(chuàng)作、虛擬偶像、在線教育以及沉浸式體驗等領域,這項技術可以為創(chuàng)作者提供強大的工具,以更低的成本、更高的效率生成富有表現(xiàn)力的動態(tài)內容,徹底打破現(xiàn)有制作流程的瓶頸。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
幾家歡樂幾家愁!廣州實行下午2:45放學,網(wǎng)友:減的是家長的錢包

幾家歡樂幾家愁!廣州實行下午2:45放學,網(wǎng)友:減的是家長的錢包

火山詩話
2025-08-30 06:56:22
確認,以色列空襲胡塞武裝,胡塞總理、國防部長和總參謀長被炸死

確認,以色列空襲胡塞武裝,胡塞總理、國防部長和總參謀長被炸死

山河路口
2025-08-29 19:32:24
傻眼了?孫繼海去法院起訴索賠266萬,張卓毅媽媽聰明反被聰明誤

傻眼了?孫繼海去法院起訴索賠266萬,張卓毅媽媽聰明反被聰明誤

吃瓜局
2025-08-29 13:54:03
揭秘閱兵裝備:191式步槍為何成為閱兵選定的槍

揭秘閱兵裝備:191式步槍為何成為閱兵選定的槍

極目新聞
2025-08-30 13:15:32
解讀|他信家族走到十字路口:佩通坦被解除總理職位,下月還有一關

解讀|他信家族走到十字路口:佩通坦被解除總理職位,下月還有一關

澎湃新聞
2025-08-30 07:56:28
三亞男游客溺亡:有二次自救機會,在水里就不行了 專業(yè)人稱已炸肺

三亞男游客溺亡:有二次自救機會,在水里就不行了 專業(yè)人稱已炸肺

觀察鑒娛
2025-08-30 10:29:01
最新!被刪監(jiān)控已恢復,爸爸扛尸體,媽媽擦血跡,兒子藏監(jiān)控卡…

最新!被刪監(jiān)控已恢復,爸爸扛尸體,媽媽擦血跡,兒子藏監(jiān)控卡…

熱點菌本君
2025-08-29 14:10:50
李顯龍在抗戰(zhàn)勝利80周年前,去日本接受勛章,真對不起被害的華人

李顯龍在抗戰(zhàn)勝利80周年前,去日本接受勛章,真對不起被害的華人

大道無形我有型
2025-08-30 11:24:41
3比0橫掃法國隊 中國女排再現(xiàn)強勢攔網(wǎng) 卡紹特難逃被針對

3比0橫掃法國隊 中國女排再現(xiàn)強勢攔網(wǎng) 卡紹特難逃被針對

煙圈愛情
2025-08-30 10:59:42
震驚!網(wǎng)傳廣東一工廠強制全員繳納社保,不再提供中晚餐和住宿…

震驚!網(wǎng)傳廣東一工廠強制全員繳納社保,不再提供中晚餐和住宿…

火山詩話
2025-08-30 08:41:40
中方邀請金正恩參加閱兵,李在明情緒失控,怒罵朝鮮“又窮又橫”

中方邀請金正恩參加閱兵,李在明情緒失控,怒罵朝鮮“又窮又橫”

通文知史
2025-08-29 13:20:03
中美貿易,大消息!

中美貿易,大消息!

證券時報
2025-08-30 11:32:04
坐灘船留不得,中方拖船進場,菲高層已亂陣腳,答應和中國簽協(xié)議

坐灘船留不得,中方拖船進場,菲高層已亂陣腳,答應和中國簽協(xié)議

科技有趣事
2025-08-29 10:10:25
監(jiān)控恢復!父親扛尸體母親擦血跡,出殯當天群眾自發(fā)相送,太淚目

監(jiān)控恢復!父親扛尸體母親擦血跡,出殯當天群眾自發(fā)相送,太淚目

眼光很亮
2025-08-30 00:18:27
為什么都在勸不要當高薪海員?網(wǎng)友:船員之間會相互解決嗎

為什么都在勸不要當高薪海員?網(wǎng)友:船員之間會相互解決嗎

帶你感受人間冷暖
2025-08-30 00:15:05
勁爆!木子美連曝多位圈中大佬丑聞:老薛,孫某與其多次xxx

勁爆!木子美連曝多位圈中大佬丑聞:老薛,孫某與其多次xxx

1號時務局
2025-08-29 16:37:50
男子在七彩丹霞景區(qū)翻護欄下山撿相機,景區(qū)回應:地質資源不可再生,已報警

男子在七彩丹霞景區(qū)翻護欄下山撿相機,景區(qū)回應:地質資源不可再生,已報警

環(huán)球網(wǎng)資訊
2025-08-30 08:17:32
這筆錢突然開收!千萬豪宅業(yè)主大喊吃不消

這筆錢突然開收!千萬豪宅業(yè)主大喊吃不消

看看新聞Knews
2025-08-29 22:08:18
風雨飄搖中的委內瑞拉

風雨飄搖中的委內瑞拉

深度報
2025-08-29 16:24:05
豬肝再次成為關注對象!調查發(fā)現(xiàn):常吃豬肝,可能會收獲5大好處

豬肝再次成為關注對象!調查發(fā)現(xiàn):常吃豬肝,可能會收獲5大好處

泠泠說史
2025-08-29 17:05:07
2025-08-30 14:36:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142428關注度
往期回顧 全部

科技要聞

研發(fā)創(chuàng)下新高 華為上半年利潤為什么減少了

頭條要聞

法軍總參謀長:面對中美俄 歐洲可能淪為"桌上菜"

頭條要聞

法軍總參謀長:面對中美俄 歐洲可能淪為"桌上菜"

體育要聞

淘汰曼聯(lián)的英乙隊,仍然沒有忘記張恩華

娛樂要聞

鹿晗關曉彤七夕未同框 關系成謎猜不透

財經(jīng)要聞

美上訴法院裁定特朗普關稅非法!

汽車要聞

售11.99萬元起 大眾全新凌渡L正式上市

態(tài)度原創(chuàng)

本地
健康
房產(chǎn)
手機
軍事航空

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

精神科專家解答學習困難七大問題

房產(chǎn)要聞

三亞、陵水斷檔發(fā)力,海南新房均價飆到1.8w+!

手機要聞

高通驍龍 8 Elite Gen 5 旗艦芯片曝光:安兔兔跑分 400W+

軍事要聞

美國務院批準對烏新軍售

無障礙瀏覽 進入關懷版 久久五月精品中文字幕| 少妇偷BBBBB| 久久 亚洲援| 国内久久少妇| 国产成人一区二区| 色欲香天天综合网站| 亚洲国产日韩a在线播放性色 | 都市激情国产精品| 办公室撕开奶罩揉吮奶头漫画 | 亚洲精品天堂无码中文字幕| 男女晚上日日麻批视频| 2022精品久久久久久中文字幕| 性xxxxx大片免费视频| 亚洲视频二| 成 年 人 黄 色 视频 网 站| 久热中文字幕在线观看| 中文人妻aⅴ一区二区三区| 亚洲无码在线播放一区二区三区| 熟女午夜精品| 精品人妻av一区二区三区| 自拍偷拍亚洲色图综合| 社区老熟女们| 67194熟妇人妻欧美日韩| 精品在线中文字幕不卡| 亚洲国产综合人成综合网站| 成人国产永久福利看片| 公侵犯玩弄熟睡人妻中文| 美女把尿口扒开让男人桶| 99久久99这里只有免费费精品| 黑人AV电影| 亚洲av综合av成人小说| 一色屋精品视频在线观看| 国产偷窥熟女精品视频| 亚洲欧美中文日韩V在线97| 高潮呻吟久久AV无码桃色| 又长又粗又爽又高潮的视频| 激情图片小说网站| 国产肥白老熟女BBBBB| 色欲AⅤ精品无码一区二区pro| 337P亚洲精品色噜噜狠狠| 午夜成人理论无码电影在线播放|