智東西
作者 王涵
編輯 漠影
智東西8月27日消息,昨夜,阿里通義萬(wàn)相正式開(kāi)源全新多模態(tài)視頻生成模型通義萬(wàn)相Wan2.2-S2V,用戶(hù)僅需一張靜態(tài)圖片和一段音頻,即可通過(guò)該模型生成面部表情自然、口型一致、肢體動(dòng)作絲滑的電影級(jí)數(shù)字人視頻。
Wan2.2-S2V單次生成的視頻時(shí)長(zhǎng)可達(dá)分鐘級(jí),有望大幅提升數(shù)字人直播、影視制作、AI教育等行業(yè)的視頻創(chuàng)作效率。目前,模型已在通義萬(wàn)相官網(wǎng)、Hugging Face和魔搭社區(qū)上線(xiàn)。
7月28日,阿里開(kāi)源視頻生成模型通義萬(wàn)相Wan2.2,包括文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B和統(tǒng)一視頻生成Wan2.2-IT2V-5B三款模型。其中,文生視頻模型和圖生視頻模型為業(yè)界首個(gè)使用MoE架構(gòu)的視頻生成模型。
8月11日,Wan2.2-I2V-Flash上線(xiàn), 相比Wan2.1推理速度提升12倍,0.1元/秒,抽卡成功率提升123%。
本次發(fā)布并開(kāi)源的Wan2.2-S2V則更加偏向音頻驅(qū)動(dòng),專(zhuān)攻圖像+音頻,讓畫(huà)面和音頻更加契合。
體驗(yàn)鏈接:
通義萬(wàn)相官網(wǎng):https://tongyi.aliyun.com/wanxiang/generate
阿里云百煉API:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215
開(kāi)源地址:
Github:https://github.com/Wan-Video/Wan2.2
魔搭社區(qū):https://www.modelscope.cn/models/Wan-AI/Wan2.2-S2V-14B
Hugging Face:https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
智東西第一時(shí)間對(duì)Wan2.2-S2V進(jìn)行了體驗(yàn),發(fā)現(xiàn)其針對(duì)真人角色的視頻生成,口型對(duì)的很精準(zhǔn),手部或身體其他部分的晃動(dòng)也十分自然,但在動(dòng)畫(huà)角色的五官識(shí)別還不太精準(zhǔn),并且該模型免費(fèi)版本排隊(duì)時(shí)間較長(zhǎng)且只有一個(gè)排隊(duì)名額。
一、一張照片+一段音頻,就能讓圖片中的人物開(kāi)口說(shuō)話(huà)
Wan2.2-S2V可驅(qū)動(dòng)真人、卡通、動(dòng)物、數(shù)字人等類(lèi)型圖片,并支持肖像、半身以及全身等任意畫(huà)幅,用戶(hù)上傳一段音頻后,模型就能讓圖片中的主體形象完成說(shuō)話(huà)、唱歌和表演等動(dòng)作。
點(diǎn)開(kāi)Wan2.2-S2V主頁(yè),可以看到在聊天框下方有兩個(gè)方框可以選擇模式,視頻類(lèi)可以選擇“圖生視頻”“文生視頻”“視頻特效”等7個(gè)功能。
我上傳了一張動(dòng)畫(huà)人物“吉伊”的圖片,并輸入文字“讓畫(huà)面中的角色唱歌”:
“吉伊”不僅動(dòng)了起來(lái),連身邊的星星都跟著旋轉(zhuǎn),還自己配上了bgm,就是嘴巴的線(xiàn)條沒(méi)有識(shí)別準(zhǔn)確:
用戶(hù)如想要生成人物對(duì)嘴型的視頻,則需選擇數(shù)字人選項(xiàng),上傳角色圖像。音頻可以選擇自己上傳,也可以用AI生成,AI生成的音頻需要用戶(hù)輸入想要的臺(tái)詞并選擇喜歡的聲線(xiàn),目前還僅支持中文和英文。
比如,讓小狗張嘴唱歌:
讓愛(ài)因斯坦張口說(shuō)話(huà):
我還上傳了一張歐美男生的人物照片和一段中文音頻:
Wan2.2-S2V生成的視頻不僅能保證人物形象和原圖一致,其面部表情和嘴部動(dòng)作都能與音頻基本對(duì)齊,視頻人物臉上的光線(xiàn)甚至還可以隨著嘴形的變化而變化。
此外,該模型還支持文本控制,用戶(hù)輸入Prompt后可對(duì)視頻畫(huà)面進(jìn)行控制,讓視頻主體的運(yùn)動(dòng)和背景的變化更豐富。
再比如,生成一段音樂(lè)MV:
畫(huà)面中的人物不僅可以對(duì)上口型,連手部動(dòng)作和身體搖晃都在音樂(lè)的節(jié)拍上,車(chē)窗外的畫(huà)面也可以移動(dòng),模擬火車(chē)行進(jìn)的真實(shí)場(chǎng)景。
二、歷史參考幀擴(kuò)展至73幀,還支持不同分辨率
基于通義萬(wàn)相視頻生成基礎(chǔ)模型能力,Wan2.2-S2V融合了文本引導(dǎo)的全局運(yùn)動(dòng)控制和音頻驅(qū)動(dòng)的細(xì)粒度局部運(yùn)動(dòng),實(shí)現(xiàn)了復(fù)雜場(chǎng)景的音頻驅(qū)動(dòng)視頻生成。
同時(shí)該模型還引入AdaIN和CrossAttention兩種控制機(jī)制,實(shí)現(xiàn)了更準(zhǔn)確更動(dòng)態(tài)的音頻控制效果。
為保障長(zhǎng)視頻生成效果,Wan2.2-S2V通過(guò)層次化幀壓縮技術(shù),將motion frames(歷史參考幀)的長(zhǎng)度從數(shù)幀拓展到73幀,從而實(shí)現(xiàn)了穩(wěn)定的長(zhǎng)視頻生成效果。
Wan2.2-S2V還可支持不同分辨率場(chǎng)景的視頻生成需求, 如豎屏短視頻、橫屏影視劇。
結(jié)語(yǔ):產(chǎn)業(yè)需求推動(dòng)AI生成視頻的技術(shù)迭代
文生視頻、圖生視頻賽道真是太卷了。
無(wú)論是國(guó)內(nèi)的即夢(mèng)AI、MiniMax、昆侖萬(wàn)維等,還是國(guó)外的Runway、Midjouney等,都在視頻生成類(lèi)大模型上猛下功夫。
就拿通義萬(wàn)相來(lái)說(shuō),自今年2月以來(lái),通義萬(wàn)相已連續(xù)開(kāi)源文生視頻、圖生視頻、首尾幀生視頻、全能編輯、音頻驅(qū)動(dòng)生視頻等多款模型。
當(dāng)前,數(shù)字人直播、影視制作、AI教育等行業(yè)對(duì)高效視頻創(chuàng)作工具的需求日益廣泛。
這種旺盛的產(chǎn)業(yè)需求,正成為推動(dòng)視頻生成類(lèi)大模型技術(shù)快速迭代的核心動(dòng)力,也為賽道未來(lái)的發(fā)展提供了廣闊空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.