夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別「面癱」配音,InfiniteTalk開(kāi)啟從口型同步到全身表達(dá)新范式

0
分享至



傳統(tǒng) video dubbing 技術(shù)長(zhǎng)期受限于其固有的 “口型僵局”,即僅能編輯嘴部區(qū)域,導(dǎo)致配音所傳遞的情感與人物的面部、肢體表達(dá)嚴(yán)重脫節(jié),削弱了觀眾的沉浸感?,F(xiàn)有新興的音頻驅(qū)動(dòng)視頻生成模型,在應(yīng)對(duì)長(zhǎng)視頻序列時(shí)也暴露出身份漂移和片段過(guò)渡生硬等問(wèn)題。為解決這些痛點(diǎn),Infinitetalk 引入 “稀疏幀 video dubbing”。

這一新范式從根本上重新定義了 video dubbing,將其從簡(jiǎn)單的 “嘴部區(qū)域修復(fù)” 轉(zhuǎn)變?yōu)?“以稀疏關(guān)鍵幀為引導(dǎo)的全身視頻生成”。該模型不僅能夠?qū)崿F(xiàn)口型與配音的精準(zhǔn)同步,更實(shí)現(xiàn)了面部表情、頭部轉(zhuǎn)動(dòng)和肢體語(yǔ)言與音頻所表達(dá)情感的自然對(duì)齊,消除長(zhǎng)視頻生成中的累積誤差和突兀過(guò)渡。

InfiniteTalk 是由美團(tuán)視覺(jué)智能部主導(dǎo)研發(fā)的新型虛擬人驅(qū)動(dòng)技術(shù),技術(shù)論文、代碼、權(quán)重已開(kāi)源。 美團(tuán)視覺(jué)智能部能圍繞豐富的本地生活電商場(chǎng)景,建設(shè)從基礎(chǔ)通用到細(xì)分領(lǐng)域的視覺(jué)技術(shù)能力,包括視覺(jué)生成大模型、多模交互虛擬人,助力營(yíng)銷創(chuàng)意生產(chǎn)和商家低成本直播;文檔、商品、安全多模態(tài)大模型,助力商家開(kāi)店經(jīng)營(yíng)、平臺(tái)商品治理和違規(guī)賬號(hào)治理;人臉識(shí)別、文字識(shí)別、細(xì)粒度圖像分析、高性能檢測(cè)分割、街景理解成為公司基礎(chǔ)設(shè)施能力。



  • 項(xiàng)目主頁(yè):https://meigen-ai.github.io/InfiniteTalk/
  • 開(kāi)源代碼:https://github.com/MeiGen-AI/InfiniteTalk
  • 技術(shù)報(bào)告:https://arxiv.org/abs/2508.14033

我們先看示例:

一、引言 ——video dubbing 的一個(gè)長(zhǎng)期痛點(diǎn)

長(zhǎng)期以來(lái),video dubbing 一直面臨一個(gè)核心的 “僵局”—— 其編輯范圍的局限性。傳統(tǒng)的 video dubbing 技術(shù),例如 MuseTalk 和 LatentSync,通常專注于對(duì)嘴部區(qū)域進(jìn)行 “修復(fù)式” 編輯,以實(shí)現(xiàn)口型與新音頻的同步。這種方法的主要局限在于,它幾乎不觸及人物的面部表情、頭部轉(zhuǎn)動(dòng)和肢體動(dòng)作。

這種 “局部編輯” 的策略導(dǎo)致了一個(gè)嚴(yán)重的矛盾:當(dāng)配音表達(dá)出強(qiáng)烈的情感(例如激動(dòng)、憤怒或喜悅)時(shí),視頻中人物的身體姿態(tài)卻保持著僵硬或靜止?fàn)顟B(tài)。例如,一段充滿激情的對(duì)話,人物卻只是面部肌肉輕微抽動(dòng),身體保持紋絲不動(dòng)。這種視聽(tīng)信息的不一致性會(huì)嚴(yán)重破壞觀眾的沉浸感,使生成的視頻顯得不自然,缺乏說(shuō)服力。這種矛盾感的存在,從根本上制約了配音視頻的質(zhì)量,并成為內(nèi)容創(chuàng)作者亟待解決的難題。如圖 1 所示。



隨著人工智能技術(shù)的發(fā)展,一些音頻驅(qū)動(dòng)的視頻生成模型應(yīng)運(yùn)而生,試圖解決這一問(wèn)題。然而,直接將這些模型應(yīng)用于長(zhǎng) video dubbing 任務(wù),同樣暴露出新的、且同樣關(guān)鍵的挑戰(zhàn)。

首先是基于圖像轉(zhuǎn)視頻(Image-to-Video, I2V)的方法。這類模型通常以視頻的首幀圖像作為初始參考,然后根據(jù)音頻生成后續(xù)的視頻序列。雖然這種方法在理論上提供了更大的動(dòng)作自由度,但它存在嚴(yán)重的 “累積誤差” 問(wèn)題,如圖 2 (left)。由于模型缺乏持續(xù)的原始關(guān)鍵幀作為錨定,在生成較長(zhǎng)的視頻序列時(shí),人物的身份特征(如面部細(xì)節(jié)、發(fā)型等)會(huì)逐漸偏離源視頻,甚至背景的色調(diào)也可能發(fā)生不可控的偏移,導(dǎo)致視頻質(zhì)量隨時(shí)間推移而下降。

其次是基于首末幀轉(zhuǎn)視頻(First-Last-frame-to-Video, FL2V)的方法。該方法試圖通過(guò)同時(shí)使用視頻片段的起始幀和終止幀作為參考來(lái)解決累積誤差。然而,這種策略帶來(lái)了另一個(gè)問(wèn)題:過(guò)渡生硬, 如圖 2(right)。FL2V 模型生成過(guò)程缺乏從前一片段向后一片段傳遞的 “動(dòng)量信息”,不同視頻片段之間的動(dòng)作銜接會(huì)顯得突兀和不自然,打破了視頻流的連續(xù)性。與此同時(shí),其過(guò)于嚴(yán)格地遵循固定的參考幀,強(qiáng)制生成的視頻在片段(chunk)的邊界上精確復(fù)制參考幀的姿態(tài),即使這種姿態(tài)與新音頻的情感或節(jié)奏相悖。

這兩種主流 AI 方案的局限性揭示了一個(gè)核心矛盾:即 “局部編輯的僵硬” 與 “全局生成的失控”。傳統(tǒng)方法因編輯范圍狹窄而僵硬,而新興的 AI 生成模型則在長(zhǎng)視頻的連貫性上遭遇了挑戰(zhàn)。



二、新的范式:稀疏幀 video dubbing

為了從根本上解決上述挑戰(zhàn),Infinitetalk 引入了一個(gè)全新的技術(shù)范式 ——“稀疏幀 video dubbing”。這一范式徹底改變了 video dubbing 的技術(shù)哲學(xué):它不再將任務(wù)定義為對(duì)嘴部區(qū)域的 “修復(fù)”(inpainting),而是將其重構(gòu)為一場(chǎng) “以稀疏關(guān)鍵幀為引導(dǎo)的全身視頻生成”。其核心理念在于,不是逐幀地、僵硬地復(fù)制源視頻,而是策略性地僅保留和利用源視頻中的少數(shù)關(guān)鍵幀(sparse keyframes)作為核心參考。這些關(guān)鍵幀如同 “視覺(jué)錨點(diǎn)”,在生成過(guò)程中發(fā)揮著至關(guān)重要的作用。



為了應(yīng)對(duì)無(wú)限長(zhǎng)度的視頻序列生成任務(wù),InfiniteTalk 采用了流式(streaming)生成架構(gòu),整體網(wǎng)絡(luò)框架如圖 4 所示。其工作原理是將一個(gè)超長(zhǎng)視頻分解為多個(gè)小的、可管理的視頻片段(chunks),然后逐一進(jìn)行生成。然而,與簡(jiǎn)單的分段生成不同,InfiniteTalk 的核心在于其精巧設(shè)計(jì)的 “上下文幀”(context frames)機(jī)制。

當(dāng)模型生成一個(gè)新片段時(shí),它不僅僅依賴于源視頻的參考幀,還會(huì)利用上一段已生成視頻的末尾幀作為下一段生成的 “動(dòng)量信息”。這些上下文幀為新片段的生成提供了必要的 “時(shí)間上下文”,使其能夠承接前一片段的運(yùn)動(dòng)趨勢(shì)和動(dòng)態(tài),確保動(dòng)作的連續(xù)性和流暢性。這一機(jī)制如同接力賽中的接力棒,將前一棒的沖刺動(dòng)量無(wú)縫傳遞給下一棒,從而徹底解決了傳統(tǒng) FL2V 模型中因缺乏動(dòng)量信息而導(dǎo)致的片段間突兀過(guò)渡問(wèn)題。通過(guò)流式架構(gòu)和上下文幀機(jī)制的結(jié)合,InfiniteTalk 成功地將 “片段生成” 任務(wù)提升為 “連續(xù)流生成”,這是其實(shí)現(xiàn) “無(wú)限長(zhǎng)度” 生成能力的技術(shù)基石。

在 “稀疏幀 video dubbing” 范式下,一個(gè)關(guān)鍵的挑戰(zhàn)是如何在 “自由表達(dá)” 與 “跟隨參考” 之間找到微妙的平衡。過(guò)于嚴(yán)格地復(fù)制參考幀(如 M1 策略)會(huì)導(dǎo)致生成的動(dòng)作僵硬,而如果控制過(guò)于松散(如 M2 策略),則又會(huì)面臨身份和背景失真等問(wèn)題。InfiniteTalk 的核心策略是采用一種 “軟條件”(soft conditioning)控制機(jī)制 。該機(jī)制的核心發(fā)現(xiàn)是,模型的控制強(qiáng)度并非固定不變,而是由 “視頻上下文和參考圖像的相似度” 所決定 ?;谶@一發(fā)現(xiàn),Infinitetalk 設(shè)計(jì)了一種獨(dú)特的采樣策略,通過(guò) “細(xì)粒度的參考幀定位”(fine-grained reference frame positioning)來(lái)動(dòng)態(tài)調(diào)整控制強(qiáng)度,從而在動(dòng)作自然度與參考幀的保真度之間取得平衡。



如表 3 所示,M0 策略因隨機(jī)采樣而控制強(qiáng)度過(guò)高,導(dǎo)致模型不恰當(dāng)?shù)貜?fù)制參考動(dòng)作,削弱了同步性。M1 策略雖然在視覺(jué)質(zhì)量上表現(xiàn)尚可,但在同步性上表現(xiàn)較差,因?yàn)樗^(guò)于嚴(yán)格地復(fù)制了邊界幀。M2 策略因參考幀與上下文幀的時(shí)間距離過(guò)遠(yuǎn),導(dǎo)致模型對(duì)身份和背景的控制力不足,最終在視覺(jué)質(zhì)量(FID、FVD)上表現(xiàn)最差。

最終被采納的 M3 策略,通過(guò)在訓(xùn)練中從鄰近分塊(adjacent chunks)中采樣參考幀,找到了一個(gè) “最優(yōu)平衡點(diǎn)”(optimal equilibrium)。這種策略既能確保模型在視覺(jué)上遵循源視頻的風(fēng)格,又能賦予模型根據(jù)音頻動(dòng)態(tài)生成全身動(dòng)作的自由。



此外,該模型還能通過(guò)集成 SDEdit 或 Uni3C 等插件,實(shí)現(xiàn)對(duì)源視頻中微妙的鏡頭運(yùn)動(dòng)(camera movement)的精確保留。這一點(diǎn)至關(guān)重要,因?yàn)樗_保了生成的視頻不僅人物動(dòng)作自然,連畫(huà)面的構(gòu)圖和運(yùn)鏡都與源視頻保持一致,進(jìn)一步提升了視頻的真實(shí)感和連貫性。

三、實(shí)驗(yàn)數(shù)據(jù)與視覺(jué)實(shí)證

為了全面驗(yàn)證 InfiniteTalk 的性能,將其與多個(gè)方法進(jìn)行了對(duì)比。





不同相機(jī)控制方法的對(duì)比:



四、結(jié)語(yǔ)與展望

InfiniteTalk 成功解決了 “僵硬” 與 “斷裂” 兩大痛點(diǎn)。其核心技術(shù) —— 流式生成架構(gòu)、軟條件控制以及全方位同步能力,共同為高質(zhì)量、長(zhǎng)序列的視頻內(nèi)容生成提供了新的解決方案。在短視頻創(chuàng)作、虛擬偶像、在線教育以及沉浸式體驗(yàn)等領(lǐng)域,這項(xiàng)技術(shù)可以為創(chuàng)作者提供強(qiáng)大的工具,以更低的成本、更高的效率生成富有表現(xiàn)力的動(dòng)態(tài)內(nèi)容,徹底打破現(xiàn)有制作流程的瓶頸。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)友曬出10年前招聘要求和薪資:上班5小時(shí),工資3500+,不卡35歲

網(wǎng)友曬出10年前招聘要求和薪資:上班5小時(shí),工資3500+,不卡35歲

星河也燦爛
2025-10-14 09:53:04
談成了!中方專機(jī)離朝,平壤的“送別禮”很特殊,特朗普收到戰(zhàn)書(shū)

談成了!中方專機(jī)離朝,平壤的“送別禮”很特殊,特朗普收到戰(zhàn)書(shū)

南權(quán)先生
2025-10-16 12:25:06
哈登三分6中0快船仍大勝國(guó)王 小卡15分保羅8+10科林斯24分

哈登三分6中0快船仍大勝國(guó)王 小卡15分保羅8+10科林斯24分

醉臥浮生
2025-10-16 12:13:27
小米SU7,車門拋棄了常見(jiàn)的機(jī)械式外把手

小米SU7,車門拋棄了常見(jiàn)的機(jī)械式外把手

第一財(cái)經(jīng)資訊
2025-10-15 21:30:40
日本男乒?fàn)幾h:張本智和輸王楚欽后,隊(duì)友疑似冷笑,非首次出現(xiàn)了

日本男乒?fàn)幾h:張本智和輸王楚欽后,隊(duì)友疑似冷笑,非首次出現(xiàn)了

風(fēng)過(guò)鄉(xiāng)
2025-10-16 07:20:09
某電車高速上失去動(dòng)力,車主:不敢開(kāi)了

某電車高速上失去動(dòng)力,車主:不敢開(kāi)了

電動(dòng)知家
2025-10-15 11:15:15
吳石犧牲,朱楓到底有責(zé)任嗎?

吳石犧牲,朱楓到底有責(zé)任嗎?

流云青史
2025-10-15 22:25:31
“僅KK園區(qū)一棟建筑上就發(fā)現(xiàn)約80根衛(wèi)星天線”,馬斯克星鏈成電詐幫兇?其被曝3個(gè)月內(nèi)成緬甸最大互聯(lián)網(wǎng)提供商!美國(guó)已開(kāi)始調(diào)查

“僅KK園區(qū)一棟建筑上就發(fā)現(xiàn)約80根衛(wèi)星天線”,馬斯克星鏈成電詐幫兇?其被曝3個(gè)月內(nèi)成緬甸最大互聯(lián)網(wǎng)提供商!美國(guó)已開(kāi)始調(diào)查

每日經(jīng)濟(jì)新聞
2025-10-16 13:42:04
被小米法務(wù)關(guān)照:把“威脅”說(shuō)的那么清新脫俗,真是又當(dāng)又立

被小米法務(wù)關(guān)照:把“威脅”說(shuō)的那么清新脫俗,真是又當(dāng)又立

熱點(diǎn)菌本君
2025-10-14 16:26:32
央視發(fā)聲,又一女間諜曝光!作案手段太狡猾,企圖獲取軍事資料

央視發(fā)聲,又一女間諜曝光!作案手段太狡猾,企圖獲取軍事資料

老屬科普
2025-10-15 10:29:27
辛苦了!中國(guó)男團(tuán)3-0奪冠,黃鎮(zhèn)廷:我不想和你打 王楚欽:我也是

辛苦了!中國(guó)男團(tuán)3-0奪冠,黃鎮(zhèn)廷:我不想和你打 王楚欽:我也是

林子說(shuō)事
2025-10-16 09:45:03
年輕店員不小心摔碎一盒玉鐲損失百萬(wàn),老板未要賠償安慰小伙別有壓力

年輕店員不小心摔碎一盒玉鐲損失百萬(wàn),老板未要賠償安慰小伙別有壓力

大風(fēng)新聞
2025-10-15 20:48:08
沉默5天后,歐盟對(duì)華攤牌,決定跟美并肩作戰(zhàn),展現(xiàn)強(qiáng)大的實(shí)力

沉默5天后,歐盟對(duì)華攤牌,決定跟美并肩作戰(zhàn),展現(xiàn)強(qiáng)大的實(shí)力

深析古今
2025-10-16 16:15:13
你遭遇過(guò)最恥辱的事是什么?網(wǎng)友:總在最小的年紀(jì)遭受最深的傷害

你遭遇過(guò)最恥辱的事是什么?網(wǎng)友:總在最小的年紀(jì)遭受最深的傷害

解讀熱點(diǎn)事件
2025-10-09 00:05:06
A股:今天沖高回落,兩個(gè)信號(hào)來(lái)了,反彈行情將進(jìn)入尾聲了?

A股:今天沖高回落,兩個(gè)信號(hào)來(lái)了,反彈行情將進(jìn)入尾聲了?

杰絲聊古今
2025-10-16 11:52:26
魔術(shù)師3個(gè)孩子現(xiàn)狀:老大一身肌肉,老二成模特,老三很漂亮

魔術(shù)師3個(gè)孩子現(xiàn)狀:老大一身肌肉,老二成模特,老三很漂亮

大西體育
2025-10-16 15:18:01
未按規(guī)定首先接待顧客,胖東來(lái)12年老員工被辭退!法院這樣判......

未按規(guī)定首先接待顧客,胖東來(lái)12年老員工被辭退!法院這樣判......

每日經(jīng)濟(jì)新聞
2025-10-16 11:45:07
大姨借5萬(wàn)10年不還,直到他兒子上軍校政審那天,我打了一個(gè)電話

大姨借5萬(wàn)10年不還,直到他兒子上軍校政審那天,我打了一個(gè)電話

黃小乖的日記
2025-10-16 05:05:02
浙江一男子到山東尋親,問(wèn)路問(wèn)到親叔叔!當(dāng)事人:聽(tīng)到他說(shuō)“我是你叔”時(shí),手腳發(fā)麻,像做夢(mèng)一樣

浙江一男子到山東尋親,問(wèn)路問(wèn)到親叔叔!當(dāng)事人:聽(tīng)到他說(shuō)“我是你叔”時(shí),手腳發(fā)麻,像做夢(mèng)一樣

極目新聞
2025-10-15 10:50:36
中荷芯片爭(zhēng)奪戰(zhàn):中國(guó)禁止荷蘭Nexperia出口

中荷芯片爭(zhēng)奪戰(zhàn):中國(guó)禁止荷蘭Nexperia出口

萍聚德國(guó)
2025-10-15 18:59:56
2025-10-16 17:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11483文章數(shù) 142483關(guān)注度
往期回顧 全部

科技要聞

許四清:AI投資押注 “奧林匹克級(jí)” 團(tuán)隊(duì)

頭條要聞

博主稱花西子聲明像小學(xué)作文被訴 二審申請(qǐng)李佳琦出庭

頭條要聞

博主稱花西子聲明像小學(xué)作文被訴 二審申請(qǐng)李佳琦出庭

體育要聞

人口5.5萬(wàn),他們還在延續(xù)世界杯的夢(mèng)想

娛樂(lè)要聞

還清債務(wù)的劉濤 已走上了另一條大道

財(cái)經(jīng)要聞

愛(ài)爾眼科等眼科醫(yī)院慈善資金回流疑云

汽車要聞

對(duì)話郝飛:智能座艙新物種 斑馬為端芯片帶來(lái)的新機(jī)遇

態(tài)度原創(chuàng)

教育
健康
手機(jī)
親子
家居

教育要聞

“教得不考,考的沒(méi)教!”教考分離后:最先崩潰的,竟是語(yǔ)文老師

內(nèi)分泌科專家破解身高八大謠言

手機(jī)要聞

盧偉冰官宣REDMI K90系列下周見(jiàn)!共兩款:K90、K90 Pro Max

親子要聞

當(dāng)代年輕人帶娃真的有一套:反向教育 + 電子閨蜜

家居要聞

空間設(shè)計(jì) 安于純粹之美

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 收毛片看看嘛| 久久精品 香蕉一区二区| 熟妇XXXXX| 欧美深深色噜噜狠狠网站| 一本一道久久综合久久| 精品人妻蜜臀一区二区三区| 日产国产亚洲精品系列| 亚洲性爱成人在线| 亚洲人成色7777777亚洲色 | 60分钟三级全黄| 亚洲精品一区二区妖精| 亚洲av日韩av永久无码久久| 精品国产乱码久久久久久公司| 精品亚洲综合一区二区三区 | 最新国产精品自在线观看| 97无码精品人妻一区二区乱码| 无码精品中文字幕一区二区三区| 毛片视频网址| 精品综合久久久久久97超人| 亚洲欧美精品精华液| 国产亚洲精品久久久久久大师| 国产精品VA最新| 曰韩一级无码| 国产精品SM捆绑调教视频| 精品国产三级在线观看| 欧美老妇在线BBBAV| 亚洲国产成人自拍| 精品少妇的一区二区三区四区| 亚洲视频天堂| 国产精品18久久久久久麻辣| 直接看av网址| 11一12免费毛片| 日产精致一致六区麻豆| 91亚洲国产成人精品性色| 国产男女猛烈视频在线观看| 真人作爱试看120秒| av无码东京热亚洲男人的天堂| 国产日本精品| 一区二区三区手机免费视频| 久久一日本道色综合久久| 九九99久久精品国产|