夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

重新定義跨模態(tài)生成的流匹配范式,VAFlow讓視頻「自己發(fā)聲」

0
分享至



本文第一作者是中國人民大學(xué)高瓴人工智能學(xué)院 2021 級博士生王希華(導(dǎo)師宋睿華),他的主要研究興趣方向是多模態(tài)生成。本文通訊作者是宋睿華長聘副教授,她的 AIMind 團(tuán)隊(duì)主要研究方向是多模態(tài)感知、交互與生成。

背景:從「噪聲到聲音」到「視頻到聲音」

在多模態(tài)生成領(lǐng)域,由視頻生成音頻(Video-to-Audio,V2A)的任務(wù)要求模型理解視頻語義,還要在時(shí)間維度上精準(zhǔn)對齊聲音與動態(tài)。早期的 V2A 方法采用自回歸(Auto-Regressive)的方式將視頻特征作為前綴來逐個(gè)生成音頻 token,或者以掩碼預(yù)測(Mask-Prediction)的方式并行地預(yù)測音頻 token,逐步生成完整音頻。

這兩種方法都依賴于音頻的離散化表示,而離散化處理往往由于信息損失會限制音質(zhì)上限。

最近主流方法大多采用擴(kuò)散模型或流匹配架構(gòu),通過「從噪聲生成音頻」的方式來實(shí)現(xiàn)視頻驅(qū)動的聲音合成。這種方式不依賴離散 token 表征,直接在連續(xù)的隱空間進(jìn)行建模。通過采樣隨機(jī)噪聲,并將視頻信息作為條件,模型從噪聲中逐步去噪,最終生成音頻。但是這樣的范式仍然存在兩個(gè)天然瓶頸:

  1. 同一視頻條件下的多對一映射:在訓(xùn)練階段,模型被訓(xùn)練從不同的采樣噪聲中預(yù)測同一個(gè)音頻,多對一的映射關(guān)系增加了訓(xùn)練難度;推理階段,由于不同噪聲樣本通過 ODE 求解得到的推理結(jié)果差異較大,生成的音頻質(zhì)量難以保持一致,甚至出現(xiàn)「抽獎」現(xiàn)象。
  2. 不同視頻條件下的一對多映射:在訓(xùn)練和推理階段,模型被要求從相同的采樣噪聲出發(fā)只根據(jù)不同視頻條件生成不同的音頻,這要求模型具備極強(qiáng)的條件處理能力。



主流擴(kuò)散模型或流匹配架構(gòu)的挑戰(zhàn)

因此,模型需要從隨機(jī)噪聲中逐步「聽懂」視頻,這一過程依賴復(fù)雜的條件機(jī)制,導(dǎo)致路徑復(fù)雜、訓(xùn)練低效且生成結(jié)果不穩(wěn)定。

在這一背景下,中國人民大學(xué)宋睿華帶領(lǐng)的 AIMind 團(tuán)隊(duì)與值得買科技 AI 團(tuán)隊(duì)提出了一個(gè)全新的框架 —— VAFlow。研究者提出:既然從噪聲到聲音依賴復(fù)雜的視頻條件機(jī)制并且有上述局限,為什么不直接從視頻出發(fā)生成聲音?

基于這一思路,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)直接建?!敢曨l→音頻」映射的跨模態(tài)流匹配框架 VAFlow。它擺脫了對高斯噪聲先驗(yàn)的依賴,首次實(shí)現(xiàn)了從視頻分布直接生成音頻的范式轉(zhuǎn)變,并在生成質(zhì)量、語義對齊與同步精度上取得了顯著突破。該研究已正式發(fā)表于 ICCV 2025。



不同生成范式對比



  • 論文鏈接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wang_VAFlow_Video-to-Audio_Generation_with_Cross-Modality_Flow_Matching_ICCV_2025_paper.pdf
  • 主頁地址:https://vaflow.github.io/demo/

VAFlow:讓視頻直接「流」向聲音

流匹配(Flow Matching)作為多媒體領(lǐng)域主流的生成算法,它學(xué)習(xí)一條從起點(diǎn)分布到目標(biāo)分布的最優(yōu)傳輸線路,模型沿著路線一步步把原始分布映射到目標(biāo)分布。主流的流匹配方法中,模型往往將隨機(jī)采樣的高斯噪聲作為起點(diǎn),以視頻為條件輸入,逐步將噪聲映射到音頻分布,這種范式對模型的條件建模能力提出了很大的挑戰(zhàn)。而 VAFlow 的核心思想簡單又直觀:不再從噪聲出發(fā),而是直接從視頻出發(fā),首次實(shí)現(xiàn)了視頻分布到音頻分布的直接映射。

這意味著模型不再從噪聲中解讀視頻條件「猜測」聲音,而是順著視頻的信息流自然生成聲音,讓視覺與聽覺真正合而為一。



VAFlow 框架圖

VAFlow 的框架由兩個(gè)關(guān)鍵模塊組成:

  • 跨模態(tài)對齊自編碼器(Alignment VAE):流匹配模型要求路徑兩端的分布形狀相同,而視頻和音頻之間的時(shí)序和特征維度都存在差異。因此 VAFlow 借助跨模態(tài)對齊的變分自編碼器調(diào)整視頻特征以匹配音頻特征,解決了視頻與音頻在時(shí)間長度和特征維度上的不匹配問題。
  • 視頻驅(qū)動的流匹配生成器(Video-Conditioned Flow Matching Estimator):VAFlow 采用 Diffusion transformer (DiT) 架構(gòu),直接在視頻分布與音頻分布之間學(xué)習(xí)最優(yōu)傳輸路徑,避免了傳統(tǒng)噪聲先驗(yàn)帶來的不穩(wěn)定效果。

除此之外,VAFlow 保留了 DiT 結(jié)構(gòu)中的交叉注意力層,讓模型能夠在流匹配采樣過程中持續(xù)融合原始視頻特征,同時(shí)支持推理過程中的無分類器引導(dǎo)。

先驗(yàn)分析:為什么「視頻先驗(yàn)」(V-Prior)更優(yōu)?

為了驗(yàn)證「以視頻為先驗(yàn)」的合理性,團(tuán)隊(duì)對比分析了高斯先驗(yàn) (Gaussian Prior) 與視頻先驗(yàn) (V-Prior)的表現(xiàn),從統(tǒng)計(jì)特性、可視化結(jié)構(gòu)和生成質(zhì)量三方面展開實(shí)驗(yàn)。

統(tǒng)計(jì)對齊性分析

研究者計(jì)算了先驗(yàn)與音頻潛向量之間的 均方誤差(MSE) 和 中心核對齊度(CKA),并在有條件(Cond.)與無條件(Uncond.)兩種設(shè)置下訓(xùn)練模型。結(jié)果如下表:



可以看出,V-Prior 與音頻潛空間的對齊度顯著更高(MSE 更低、CKA 更高),同時(shí)生成音質(zhì)(FD)也更優(yōu)。

這說明:視頻先驗(yàn)本身攜帶了更貼近音頻的結(jié)構(gòu)信息,能天然作為更合理的生成起點(diǎn)。

團(tuán)隊(duì)進(jìn)一步利用 t-SNE 將兩種先驗(yàn)與目標(biāo)音頻潛空間進(jìn)行可視化。



不同先驗(yàn)空間及生成過程可視化對比

結(jié)果顯示:

  • 高斯先驗(yàn)分布隨機(jī)且離散,其到音頻空間的映射路徑交叉密集;
  • 視頻先驗(yàn)分布則與音頻潛空間結(jié)構(gòu)更一致,流動路徑平滑,語義結(jié)構(gòu)更清晰。

這說明視頻先驗(yàn)在空間結(jié)構(gòu)上更貼合目標(biāo)模態(tài),能有效減少跨模態(tài)傳輸中的「彎路」,實(shí)現(xiàn)更穩(wěn)定、更高效的生成。

性能對比:更快、更穩(wěn)、更強(qiáng)、可規(guī)?;嵘?/p>

Diffusion vs Flow vs VAFlow

作者在相同配置下(視覺特征、網(wǎng)絡(luò)結(jié)構(gòu)、初始化與超參數(shù)完全一致)對比了三種不同的生成范式以探究它們的性能差異。分別為:擴(kuò)散模型(標(biāo)準(zhǔn) DDPM)、主流流匹配模型(高斯噪聲先驗(yàn))以及 VAFlow(以視頻特征為原始分布)。

結(jié)果表明:兩種流匹配模型在收斂速度與 FD 指標(biāo)上均優(yōu)于擴(kuò)散模型,驗(yàn)證了流匹配在訓(xùn)練效率上的天然優(yōu)勢;而 VAFlow 雖在早期收斂略慢,但最終經(jīng)過聯(lián)合訓(xùn)練階段取得了最低 FD。這種提升得益于它直接建模了更具結(jié)構(gòu)性的視頻 - 音頻傳輸路徑,避免了高斯噪聲先驗(yàn)下的模糊映射。



Scaling Analysis

本文作者發(fā)現(xiàn),VAFlow 隨模型規(guī)模增大仍保持持續(xù)性能提升,這意味著VAFlow 不僅在小模型上高效,參數(shù)量增加時(shí)同樣穩(wěn)定可拓展,這為未來構(gòu)建更強(qiáng)大的多模態(tài)生成模型奠定了基礎(chǔ)。



Benchmark 結(jié)果:超越現(xiàn)有 SOTA




研究團(tuán)隊(duì)在 V2A 領(lǐng)域常用的數(shù)據(jù)集 VGGSound 上對 VAFlow 和其他基線模型進(jìn)行了對比測試。

實(shí)驗(yàn)結(jié)果顯示,VAFlow 在音頻生成質(zhì)量(Quality)相關(guān)指標(biāo)上全面超越了現(xiàn)有 SOTA,獲得了最佳分?jǐn)?shù)。盡管沒有設(shè)計(jì)復(fù)雜的視頻條件模塊,在音視頻的時(shí)序同步(Sync)和語義相關(guān)性(Semantic)方面,也達(dá)到了與 SOTA 相當(dāng)?shù)男Ч?/p>

值得一提的是,與經(jīng)過文本 - 音頻數(shù)據(jù)增強(qiáng)的 V2A 模型(表格中的灰色行)相比,VAFlow 在沒有任何文本標(biāo)注數(shù)據(jù)的前提下,語義相關(guān)性方面的表現(xiàn)仍能更優(yōu)或相當(dāng)。

真實(shí)效果



作者展示了一個(gè)沙灘場景視頻的例子,該視頻包括背景中的海浪聲和來自不同角色的聲音(人群的嘈雜聲、女人說話)??梢暬Y(jié)果對比了真值和不同方法生成的音頻的梅爾譜圖。從圖中可以觀察到,VAFlow 不僅能精準(zhǔn)理解復(fù)雜場景并生成所有必要的聲音,而且還能與視覺時(shí)序保持同步。模型的其他生成結(jié)果可在主頁試聽。

總結(jié)與展望

VAFlow 為 V2A 開辟了一條從視頻直接映射到音頻的全新流匹配生成范式,也為構(gòu)建通用跨模態(tài)生成基礎(chǔ)模型提供了新思路。未來,團(tuán)隊(duì)將繼續(xù)探索 VAFlow 在語音、音樂等更廣泛音頻領(lǐng)域的應(yīng)用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
在草原蒙古包過夜,若見女主人床頭系紅繩,千萬別好奇去碰

在草原蒙古包過夜,若見女主人床頭系紅繩,千萬別好奇去碰

秋風(fēng)專欄
2025-09-30 13:46:10
僅播1天,就奪下熱榜第一,不愧是你們盼了一整年的黑馬劇!

僅播1天,就奪下熱榜第一,不愧是你們盼了一整年的黑馬劇!

鄉(xiāng)野小珥
2025-10-31 15:09:03
牡丹花下死!結(jié)婚剛一個(gè)月,娶“白月光”的李國慶徹底成為笑話

牡丹花下死!結(jié)婚剛一個(gè)月,娶“白月光”的李國慶徹底成為笑話

春秋論娛
2025-09-23 07:20:44
民主黨的遮羞布這下被撕碎了,拜登前發(fā)言人訪談翻車,不知所云

民主黨的遮羞布這下被撕碎了,拜登前發(fā)言人訪談翻車,不知所云

銳器
2025-11-01 23:24:03
美女打屁股大賽,火了

美女打屁股大賽,火了

微微熱評
2025-10-08 22:10:24
西安11歲男孩墜入通風(fēng)井:事故發(fā)生后小區(qū)查出176處安全隱患

西安11歲男孩墜入通風(fēng)井:事故發(fā)生后小區(qū)查出176處安全隱患

澎湃新聞
2025-11-01 18:29:06
美軍南海飛行事故真相揭曉,解放軍已做好準(zhǔn)備等待特朗普發(fā)聲

美軍南海飛行事故真相揭曉,解放軍已做好準(zhǔn)備等待特朗普發(fā)聲

林子說事
2025-10-31 09:28:02
落槌!全部劃歸國資!追隨許家印6年,江蘇第一包工頭賠得精光

落槌!全部劃歸國資!追隨許家印6年,江蘇第一包工頭賠得精光

冷夜說
2025-10-27 00:33:11
女單4強(qiáng)對陣出爐,陳熠3-2怒吼晉級,約戰(zhàn)孫穎莎好朋友

女單4強(qiáng)對陣出爐,陳熠3-2怒吼晉級,約戰(zhàn)孫穎莎好朋友

做一個(gè)合格的吃瓜群眾
2025-11-02 07:53:47
和楊瀚森分手?女友發(fā)聲,官宣意外決定,告別過去,球迷祝福

和楊瀚森分手?女友發(fā)聲,官宣意外決定,告別過去,球迷祝福

樂聊球
2025-11-01 09:24:25
跑腿接過什么奇葩訂單?網(wǎng)友:喝多了打不到車,下單寫100斤豬肉

跑腿接過什么奇葩訂單?網(wǎng)友:喝多了打不到車,下單寫100斤豬肉

夜深愛雜談
2025-11-01 22:58:32
甜度超標(biāo)!國乒第一美女撒狗糧,國羽隊(duì)草男友不裝了,戀情公開

甜度超標(biāo)!國乒第一美女撒狗糧,國羽隊(duì)草男友不裝了,戀情公開

球盲百小易
2025-11-02 03:19:32
洗衣機(jī)的“快洗模式”不能亂用,聽師傅提醒,才知道我一直用錯(cuò)了

洗衣機(jī)的“快洗模式”不能亂用,聽師傅提醒,才知道我一直用錯(cuò)了

室內(nèi)設(shè)計(jì)師有料兒
2025-11-01 17:27:00
人生不過三萬多天,要開心點(diǎn),想不通的時(shí)候不妨看看這幾段話

人生不過三萬多天,要開心點(diǎn),想不通的時(shí)候不妨看看這幾段話

伊人河畔
2025-11-01 22:20:24
遼寧選美冠軍,網(wǎng)友那句“評委的口味真重”含金量還在上升!

遼寧選美冠軍,網(wǎng)友那句“評委的口味真重”含金量還在上升!

黃謀仕
2025-10-31 18:34:55
重慶新增一家三甲醫(yī)院!預(yù)計(jì)2026年投入使用

重慶新增一家三甲醫(yī)院!預(yù)計(jì)2026年投入使用

原廣工業(yè)
2025-10-31 12:22:40
大學(xué)生捐精,女方要求私下見面,承諾給予費(fèi)用,內(nèi)幕如何?

大學(xué)生捐精,女方要求私下見面,承諾給予費(fèi)用,內(nèi)幕如何?

極品小牛肉
2024-03-22 10:46:53
柬埔寨官方喊話:網(wǎng)絡(luò)詐騙是跨國問題,這鍋不能只讓我背

柬埔寨官方喊話:網(wǎng)絡(luò)詐騙是跨國問題,這鍋不能只讓我背

策略述
2025-11-01 13:28:34
離婚協(xié)議寫撫養(yǎng)費(fèi)付到工作,女兒留學(xué)54萬!前夫拒付,法院判了

離婚協(xié)議寫撫養(yǎng)費(fèi)付到工作,女兒留學(xué)54萬!前夫拒付,法院判了

一絲不茍的法律人
2025-10-27 16:57:25
郭正亮給了臺灣“最好”出路?一國兩制改1個(gè)字,或可統(tǒng)后不駐軍

郭正亮給了臺灣“最好”出路?一國兩制改1個(gè)字,或可統(tǒng)后不駐軍

顧史
2025-07-08 21:02:11
2025-11-02 09:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11617文章數(shù) 142497關(guān)注度
往期回顧 全部

科技要聞

事關(guān)安世半導(dǎo)體,商務(wù)部最新發(fā)聲!

頭條要聞

母親給35歲兒子花32萬和女子"閃婚" 發(fā)現(xiàn)女方背負(fù)巨債

頭條要聞

母親給35歲兒子花32萬和女子"閃婚" 發(fā)現(xiàn)女方背負(fù)巨債

體育要聞

NBA球員,必須吃夜宵

娛樂要聞

王家衛(wèi)這波錄音,撕爛了遮羞布

財(cái)經(jīng)要聞

段永平捐了1500萬元茅臺股票!本人回應(yīng)

汽車要聞

神龍汽車推出“發(fā)動機(jī)終身質(zhì)?!闭?/h3>

態(tài)度原創(chuàng)

手機(jī)
教育
數(shù)碼
健康
時(shí)尚

手機(jī)要聞

四大國產(chǎn)旗艦激活銷量出爐:小米即將突破200萬,友商有壓力了!

教育要聞

2026高考報(bào)名,這八處變化一定要了解!

數(shù)碼要聞

3L 機(jī)身內(nèi)置 5090,雷神預(yù)熱 MIX G2 獨(dú)顯游戲迷你主機(jī)

核磁VS肌骨超聲,誰更勝一籌?

松弛感穿搭太適合秋冬了,減齡又好看

無障礙瀏覽 進(jìn)入關(guān)懷版 blacked黑人战小美女| 丰满大胸年轻继坶HD| 国产精品不卡一区二区久久 | 久久久久九九| 亚洲 另类 熟女 字幕| 韩国日本三级在线观看| 国产IGAO视频网在线观看| 欧美xxx在线| 精品乱码久久久久久中文字幕| 日本一区二三区| 美女隐私无遮挡免费视频软件| 99爱在线精品视频免费观看| 国产传媒无码| 青春草免费在线观看| 亚洲AⅤ无码片一区二区三区| 日日躁狠狠躁狠狠爱| 日本99久久久久久久久人妻斩 | 亚洲国产成人精品无码一区二区| 久久久久亚洲| 挺进朋友人妻雪白的身体韩国电影| 美女扒开粉嫩的尿囗让男人爽桶| 亚洲AV永久无码精品放毛片一| 亚洲日韩av在线观看| 亚洲精品辣妞| 国产剧情一区二区在线观看| 18啪啪白浆| 国产精品亚洲A∨天堂不卡| 精品国产一区二区三区久久久狼| 欧美性猛交久久久乱大交小说| 日本真人边吃奶边做爽电影| 亚洲小说乱欧美另类| 亚州AV无码久久国产| 国产高清无码传媒| 狠狠亚洲色一日本高清色| 免费夜色污私人网站在线观看| 成人久久丫网站| 无码丰满熟妇| a级毛片爱爱| 久久久久久亚洲AV无码精品专| 厨房被舔视频在线观看| 高清777无码视频|