上線一個(gè)月,Vidu 再度迎來(lái)重大更新!
4月底,由生數(shù)科技和清華大學(xué)聯(lián)合研發(fā)的國(guó)內(nèi)首個(gè)純自研原創(chuàng)視頻大模型 Vidu 面向全球發(fā)布,7月底正式上線,全面開放使用,憑借在快速推理、精確語(yǔ)義理解、高動(dòng)態(tài)性和極致動(dòng)漫風(fēng)格等方面的優(yōu)勢(shì),Vidu 產(chǎn)品表現(xiàn)位列全球視頻大模型的“第一梯隊(duì)”。
僅過去一個(gè)多月的時(shí)間,Vidu 迎來(lái)重大功能更新。9月11日生數(shù)科技舉辦媒體開放日活動(dòng),期間 Vidu 全球首發(fā)「主體參照」(Subject Consistency)功能,該功能能夠?qū)崿F(xiàn)對(duì)任意主體的一致性生成,讓視頻生成更加穩(wěn)定、可控。目前該功能面向用戶免費(fèi)開放,注冊(cè)即可體驗(yàn)?。w驗(yàn)地址: www.vidu.studio)
一、全球首個(gè)!僅需一張圖片實(shí)現(xiàn)主體可控
所謂“主體參照”,就是允許用戶上傳任意主體的一張圖片,Vidu 就能夠鎖定該主體的形象,通過描述詞任意切換場(chǎng)景,輸出主體一致的視頻。
該功能不局限于單一對(duì)象,而是面向“任意主體”,無(wú)論是人物、動(dòng)物、商品,還是動(dòng)漫角色、虛構(gòu)主體,都能確保其在視頻生成中的一致性和可控性,這是視頻生成領(lǐng)域的一大創(chuàng)新。Vidu 也是全球首個(gè)支持該能力的視頻大模型。
比如進(jìn)行人物角色的“主體參照”,無(wú)論是真實(shí)人物還是虛構(gòu)角色,Vidu 都能保持其在不同環(huán)境中、不同鏡頭下的形象連貫一致。
比如動(dòng)物,Vidu 可以實(shí)現(xiàn)其在不同環(huán)境下、大幅運(yùn)動(dòng)狀態(tài)中細(xì)節(jié)特征保持一致。
比如商品,商品的外觀和細(xì)節(jié)在不同場(chǎng)景中保持高度一致。
上傳的主體也不限于寫實(shí)風(fēng)格,比如針對(duì)動(dòng)漫角色或者虛構(gòu)的主體等,Vidu 也可以保持其高度一致。
在視頻大模型領(lǐng)域,盡管已有如“圖生視頻”和“角色一致性”等能力,但 Vidu 的“主體參照”功能在一致性方面實(shí)現(xiàn)了質(zhì)的飛躍。具體對(duì)比看:
- 圖生視頻(Image to Video):基于首幀畫面的連續(xù)生成,無(wú)法直接輸出目標(biāo)場(chǎng)景,限制了視頻內(nèi)容的多樣性和場(chǎng)景的自由度;
- 角色一致性(Character to Video):只限于人物面部特征的一致性,難以保證人物整體形象的穩(wěn)定;
- 主體參照(Subject Consistency):不局限于人物,面向任意主體,其次在人物主體下,可選擇保持面部一致,也可選擇保持人物整體形象的高度一致,通過輸入文字描述靈活輸出目標(biāo)場(chǎng)景;
我們以具體案例來(lái)看,輸入一張林黛玉的角色照,輸入同樣的“在現(xiàn)代咖啡廳喝咖啡”的描述,能直觀看到,在Vidu “主體參照”功能下,林黛玉的形象在現(xiàn)代場(chǎng)景中得到了完美保留,場(chǎng)景輸出也自然而真實(shí)。
原圖
圖生視頻
主體參照
角色一致性
二、改變視頻創(chuàng)作“游戲規(guī)則”
視頻大模型領(lǐng)域的競(jìng)爭(zhēng)日益激烈,盡管眾多模型層出不窮,但它們普遍存在著一個(gè)核心問題——可控性不足,或者叫一致性的不足。
在實(shí)際的視頻創(chuàng)作中,視頻內(nèi)容往往圍繞特定的對(duì)象展開,可以是角色或特定物體,這些對(duì)象在視頻中的形象需要保持連續(xù)一致。然而現(xiàn)有的視頻模型往往難以實(shí)現(xiàn)這一點(diǎn),常常是主體在生成過程中容易崩壞。
尤其在涉及復(fù)雜動(dòng)作和交互的情況下,保持主體的一致性更是一項(xiàng)挑戰(zhàn)。此外,視頻模型的輸出結(jié)果具有較大的隨機(jī)性,對(duì)于鏡頭運(yùn)用、光影效果等細(xì)節(jié)的控制也不夠精細(xì)。所以現(xiàn)階段的視頻模型雖然在畫面表現(xiàn)力、物理規(guī)律、想象力等方面實(shí)現(xiàn)了一定程度的突破,但可控性的不足限制了它們?cè)趧?chuàng)作連貫、完整視頻內(nèi)容方面的應(yīng)用。目前,大多數(shù)的 AI 視頻內(nèi)容還是基于獨(dú)立視頻素材的拼接,情節(jié)的連貫性不足。
為了解決這一問題,業(yè)界曾嘗試采用“先AI生圖、再圖生視頻”的方法,通過AI繪圖工具如 Midjourney 生成分鏡頭畫面,先在圖片層面保持主體一致,然后再將這些畫面轉(zhuǎn)化為視頻片段并進(jìn)行剪輯合成。
但問題在于,AI 繪圖的一致性并不完美,往往需要通過反復(fù)修改和局部重繪來(lái)解決。更重要的是,實(shí)際的視頻制作過程中涉及眾多場(chǎng)景和鏡頭,這種方法在處理多組分鏡頭的場(chǎng)景時(shí),生圖的工作量巨大,能占到全流程的一半以上,且最終的視頻內(nèi)容也會(huì)因?yàn)檫^分依賴分鏡頭畫面而缺乏創(chuàng)造性和靈活性。
Vidu 的“主體參照”功能徹底改變了這一局面。它摒棄了傳統(tǒng)的分鏡頭畫面生成步驟,通過“上傳主體圖+輸入場(chǎng)景描述詞”的方式,直接生成視頻素材。這一創(chuàng)新方法不僅大幅減少了工作量,還打破了分鏡頭畫面對(duì)視頻內(nèi)容的限制,讓創(chuàng)作者能夠基于文本描述,發(fā)揮更大的想象力,創(chuàng)造出畫面豐富、靈活多變的視頻內(nèi)容。這一突破將為視頻創(chuàng)作帶來(lái)了前所未有的自由度和創(chuàng)新空間。
(圖為AI視頻制作流程的重塑)
三、加速故事類、廣告類視頻創(chuàng)作
這一功能也確實(shí)得到了眾多一線創(chuàng)作者的“高度評(píng)價(jià)”。
- 僅需三張定妝照,完成短片創(chuàng)作
“主體參照”功能通過鎖定角色或物體的形象,一方面讓故事情節(jié)更具連貫性,另一方面讓創(chuàng)作者能夠更自由地探索故事的深度和廣度。
光馳矩陣的發(fā)起人、青年導(dǎo)演李寧正在打造中國(guó)首部AIGC院線電影《玄宇》。他利用 Vidu 預(yù)創(chuàng)作了一段男主的視頻片段,其中所有人物畫面僅通過男主近景、中景、遠(yuǎn)景三張定妝照生成。李寧在創(chuàng)作分享中提到,之前的AI電影創(chuàng)作過程,采用傳統(tǒng)的文生圖、圖生視頻流程,在分鏡的連貫上很難掌控,人物的整體造型很難保持一致,前期需要耗費(fèi)大量的精力去調(diào)試圖片,同時(shí)畫面還容易產(chǎn)生鏡頭光影失控、圖像模糊甚至變形等一系列問題,且隨著視頻篇幅的增加,這些問題被進(jìn)一步放大。Vidu “主體參照”功能讓人物的整體一致性顯著提升,不再需要前期生成大量的圖片,人物運(yùn)動(dòng)和畫面過渡也更加自然,極大助力了長(zhǎng)篇敘事的創(chuàng)作。
中央廣播電視總臺(tái)導(dǎo)演、AIGC藝術(shù)家石宇翔(森海熒光)創(chuàng)作了一條動(dòng)畫短片《夏日的禮物》,在分享創(chuàng)作流程中他表示,與基礎(chǔ)的圖生視頻功能相比,“主體參照”功能擺脫了靜態(tài)圖片的束縛,生成的畫面更具感染力和自由度,讓創(chuàng)作的連貫性大大提升。同時(shí)幫助他節(jié)約7成左右的生圖工作量,顯著提效,讓他能夠?qū)⒏嗑Ψ旁诠适聝?nèi)容的打磨上,而非生成圖片素材上。另外他表示,再疊加上 Vidu 的復(fù)雜動(dòng)作處理能力和多元素的理解能力,他覺得 Vidu 就像是一位真人助理“動(dòng)畫師”在輔助創(chuàng)作。
- 基于一張商品圖,僅六個(gè)小時(shí)完成一支廣告片
“主體參照”功能在商業(yè)廣告片方向展現(xiàn)了強(qiáng)大的潛力。廣告片的一大關(guān)鍵在于要保證多個(gè)鏡頭、不同場(chǎng)景下品牌物形象的一致性。Vidu “主體參照”功能能夠很好的實(shí)現(xiàn),例如,在下面的跑步鞋廣告案例中,僅通過一張商品圖,便完成了所有視頻畫面的生成,無(wú)論是不同角度、背景,還是動(dòng)態(tài)表現(xiàn),跑步鞋的形象在整個(gè)視頻中都保持了高度一致。
生數(shù)科技官方介紹到,該視頻僅一位人員花費(fèi)6個(gè)小時(shí)完成,包含前期策劃、素材生成,后期剪輯,其中30段 AI 視頻素材的生成僅花費(fèi)3個(gè)小時(shí),整個(gè)流程僅參照一張商品圖。傳統(tǒng)廣告片制作高度依賴線下實(shí)拍和后期制作,時(shí)間周期長(zhǎng)、成本投入大,但現(xiàn)在通過 Vidu 能夠極大地節(jié)省廣告制作的成本,整個(gè)產(chǎn)出流程更加高效,品牌方對(duì)新素材的開發(fā)也能更加靈活。
與功能發(fā)布同步,生數(shù)科技也推出了合作伙伴計(jì)劃,邀請(qǐng)廣告、影視、動(dòng)漫、游戲等行業(yè)的機(jī)構(gòu)加入,共同探索新的視頻創(chuàng)作模式,在內(nèi)容共創(chuàng)、技術(shù)支持、市場(chǎng)拓展等方面展開合作。首批合作伙伴包括開心麻花、貓眼娛樂、巨人網(wǎng)絡(luò)、美克家居、融創(chuàng)文化、河南省非物質(zhì)文化遺產(chǎn)保護(hù)和智慧化中心、李可柒畫院等知名企業(yè)與機(jī)構(gòu)。
四、“主體參照”是 AI 完整敘事的開端
作為國(guó)內(nèi)首個(gè)純自研的視頻大模型,Vidu 自發(fā)布以來(lái)便在海外內(nèi)受到廣泛關(guān)注。在7月底正式上線后,憑借在動(dòng)態(tài)性、語(yǔ)義理解、動(dòng)漫風(fēng)格、快速推理等方面的亮點(diǎn),Vidu 產(chǎn)品表現(xiàn)位列全球視頻大模型的“第一梯隊(duì)”,并在TikTok 等海外社交媒體平臺(tái)上掀起多種 AI 視頻主題玩法的熱潮,如“跨越時(shí)空的擁抱”等。根據(jù)第三方的數(shù)據(jù)顯示,Vidu 上線首月便位列全球網(wǎng)頁(yè)類產(chǎn)品用戶訪問量增速第一。
面向?qū)I(yè)創(chuàng)作領(lǐng)域,Vidu 也牽手海內(nèi)外多位 AI 藝術(shù)家,探索 AI 賦能下的全新創(chuàng)作模式。比如與北京電影節(jié) AIGC 短片單元最佳影片得主、Ainimate Lab 合作打造的動(dòng)畫短片《一路向南》,畫面質(zhì)量接近傳統(tǒng)動(dòng)畫制作標(biāo)準(zhǔn),但成本僅為傳統(tǒng)流程的 1/40。Ainimate Lab AI 負(fù)責(zé)人陳劉芳表示,該短片的創(chuàng)作團(tuán)隊(duì)僅由三人構(gòu)成:一名導(dǎo)演、一名故事版藝術(shù)家和一名 AIGC 技術(shù)應(yīng)用專家,制作周期約為 1 周,而傳統(tǒng)流程需要 20 人,包含導(dǎo)演、美術(shù)、建模、燈光、渲染等不同“工種”,周期在一個(gè)月左右。由此可見,Vidu 大大縮短了制作周期并顯著降低了成本。
生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝表示, "主體參照"這一全新功能的上線,代表著 AI 完整敘事的開端,AI 視頻創(chuàng)作也將邁向更高效、更靈活的階段。無(wú)論是制作短視頻、動(dòng)畫作品還是廣告片,在敘事的藝術(shù)中,一個(gè)完整的敘事體系是“主體一致、場(chǎng)景一致、風(fēng)格一致”等要素的有機(jī)結(jié)合。
因此,視頻模型要達(dá)到敘事的完整性,就必須在這些核心元素上實(shí)現(xiàn)全面可控?!爸黧w參照”功能是 Vidu 在一致性方面邁出的重要一步,但這僅僅是開始。未來(lái),Vidu 將繼續(xù)探索如何精確控制多主體交互、風(fēng)格統(tǒng)一、多變場(chǎng)景穩(wěn)定切換等復(fù)雜元素,以滿足更高層次的敘事需求。
從更長(zhǎng)遠(yuǎn)的視角來(lái)看,一旦實(shí)現(xiàn)了全面的可控性,視頻創(chuàng)作行業(yè)將經(jīng)歷一場(chǎng)顛覆性的變革。屆時(shí),角色、場(chǎng)景、風(fēng)格,甚至鏡頭運(yùn)用、光影效果等元素,都將轉(zhuǎn)化為可靈活調(diào)整的參數(shù)。用戶只需要?jiǎng)觿?dòng)手指、調(diào)調(diào)參,就可以完成一部影像作品的創(chuàng)作,而每一個(gè)作品的背后,也將是用戶基于AI構(gòu)建出的獨(dú)特世界觀和自我表達(dá)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.