網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一張照片+一段音頻生成“電影大片”視頻！通義萬(wàn)相又一重磅開(kāi)源

2025-08-27 12:12:55　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者王涵
編輯漠影

智東西8月27日消息，昨夜，阿里通義萬(wàn)相正式開(kāi)源全新多模態(tài)視頻生成模型通義萬(wàn)相Wan2.2-S2V，用戶(hù)僅需一張靜態(tài)圖片和一段音頻，即可通過(guò)該模型生成面部表情自然、口型一致、肢體動(dòng)作絲滑的電影級(jí)數(shù)字人視頻。

Wan2.2-S2V單次生成的視頻時(shí)長(zhǎng)可達(dá)分鐘級(jí)，有望大幅提升數(shù)字人直播、影視制作、AI教育等行業(yè)的視頻創(chuàng)作效率。目前，模型已在通義萬(wàn)相官網(wǎng)、Hugging Face和魔搭社區(qū)上線(xiàn)。

7月28日，阿里開(kāi)源視頻生成模型通義萬(wàn)相Wan2.2，包括文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B和統(tǒng)一視頻生成Wan2.2-IT2V-5B三款模型。其中，文生視頻模型和圖生視頻模型為業(yè)界首個(gè)使用MoE架構(gòu)的視頻生成模型。

8月11日，Wan2.2-I2V-Flash上線(xiàn)，相比Wan2.1推理速度提升12倍，0.1元/秒，抽卡成功率提升123%。

本次發(fā)布并開(kāi)源的Wan2.2-S2V則更加偏向音頻驅(qū)動(dòng)，專(zhuān)攻圖像+音頻，讓畫(huà)面和音頻更加契合。

體驗(yàn)鏈接：

通義萬(wàn)相官網(wǎng)：https://tongyi.aliyun.com/wanxiang/generate

阿里云百煉API：https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215

開(kāi)源地址：

Github：https://github.com/Wan-Video/Wan2.2

魔搭社區(qū)：https://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B

Hugging Face：https://huggingface.co/Wan-AI/Wan2.2-S2V-14B

智東西第一時(shí)間對(duì)Wan2.2-S2V進(jìn)行了體驗(yàn)，發(fā)現(xiàn)其針對(duì)真人角色的視頻生成，口型對(duì)的很精準(zhǔn)，手部或身體其他部分的晃動(dòng)也十分自然，但在動(dòng)畫(huà)角色的五官識(shí)別還不太精準(zhǔn)，并且該模型免費(fèi)版本排隊(duì)時(shí)間較長(zhǎng)且只有一個(gè)排隊(duì)名額。

一、一張照片+一段音頻，就能讓圖片中的人物開(kāi)口說(shuō)話(huà)

Wan2.2-S2V可驅(qū)動(dòng)真人、卡通、動(dòng)物、數(shù)字人等類(lèi)型圖片，并支持肖像、半身以及全身等任意畫(huà)幅，用戶(hù)上傳一段音頻后，模型就能讓圖片中的主體形象完成說(shuō)話(huà)、唱歌和表演等動(dòng)作。

點(diǎn)開(kāi)Wan2.2-S2V主頁(yè)，可以看到在聊天框下方有兩個(gè)方框可以選擇模式，視頻類(lèi)可以選擇“圖生視頻”“文生視頻”“視頻特效”等7個(gè)功能。

我上傳了一張動(dòng)畫(huà)人物“吉伊”的圖片，并輸入文字“讓畫(huà)面中的角色唱歌”：

“吉伊”不僅動(dòng)了起來(lái)，連身邊的星星都跟著旋轉(zhuǎn)，還自己配上了bgm，就是嘴巴的線(xiàn)條沒(méi)有識(shí)別準(zhǔn)確：

用戶(hù)如想要生成人物對(duì)嘴型的視頻，則需選擇數(shù)字人選項(xiàng)，上傳角色圖像。音頻可以選擇自己上傳，也可以用AI生成，AI生成的音頻需要用戶(hù)輸入想要的臺(tái)詞并選擇喜歡的聲線(xiàn)，目前還僅支持中文和英文。

比如，讓小狗張嘴唱歌：

讓愛(ài)因斯坦張口說(shuō)話(huà)：

我還上傳了一張歐美男生的人物照片和一段中文音頻：

Wan2.2-S2V生成的視頻不僅能保證人物形象和原圖一致，其面部表情和嘴部動(dòng)作都能與音頻基本對(duì)齊，視頻人物臉上的光線(xiàn)甚至還可以隨著嘴形的變化而變化。

此外，該模型還支持文本控制，用戶(hù)輸入Prompt后可對(duì)視頻畫(huà)面進(jìn)行控制，讓視頻主體的運(yùn)動(dòng)和背景的變化更豐富。

再比如，生成一段音樂(lè)MV：

畫(huà)面中的人物不僅可以對(duì)上口型，連手部動(dòng)作和身體搖晃都在音樂(lè)的節(jié)拍上，車(chē)窗外的畫(huà)面也可以移動(dòng)，模擬火車(chē)行進(jìn)的真實(shí)場(chǎng)景。

二、歷史參考幀擴(kuò)展至73幀，還支持不同分辨率

基于通義萬(wàn)相視頻生成基礎(chǔ)模型能力，Wan2.2-S2V融合了文本引導(dǎo)的全局運(yùn)動(dòng)控制和音頻驅(qū)動(dòng)的細(xì)粒度局部運(yùn)動(dòng)，實(shí)現(xiàn)了復(fù)雜場(chǎng)景的音頻驅(qū)動(dòng)視頻生成。

同時(shí)該模型還引入AdaIN和CrossAttention兩種控制機(jī)制，實(shí)現(xiàn)了更準(zhǔn)確更動(dòng)態(tài)的音頻控制效果。

為保障長(zhǎng)視頻生成效果，Wan2.2-S2V通過(guò)層次化幀壓縮技術(shù)，將motion frames（歷史參考幀）的長(zhǎng)度從數(shù)幀拓展到73幀，從而實(shí)現(xiàn)了穩(wěn)定的長(zhǎng)視頻生成效果。

Wan2.2-S2V還可支持不同分辨率場(chǎng)景的視頻生成需求, 如豎屏短視頻、橫屏影視劇。

結(jié)語(yǔ)：產(chǎn)業(yè)需求推動(dòng)AI生成視頻的技術(shù)迭代

文生視頻、圖生視頻賽道真是太卷了。

無(wú)論是國(guó)內(nèi)的即夢(mèng)AI、MiniMax、昆侖萬(wàn)維等，還是國(guó)外的Runway、Midjouney等，都在視頻生成類(lèi)大模型上猛下功夫。

就拿通義萬(wàn)相來(lái)說(shuō)，自今年2月以來(lái)，通義萬(wàn)相已連續(xù)開(kāi)源文生視頻、圖生視頻、首尾幀生視頻、全能編輯、音頻驅(qū)動(dòng)生視頻等多款模型。

當(dāng)前，數(shù)字人直播、影視制作、AI教育等行業(yè)對(duì)高效視頻創(chuàng)作工具的需求日益廣泛。

這種旺盛的產(chǎn)業(yè)需求，正成為推動(dòng)視頻生成類(lèi)大模型技術(shù)快速迭代的核心動(dòng)力，也為賽道未來(lái)的發(fā)展提供了廣闊空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.