網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全球首發(fā)！Vidu 讓任意主體保持一致，視頻生成進(jìn)入新階段！

2024-09-13 00:14:19　來(lái)源: 有界UnKnown

北京舉報(bào)

分享至

上線一個(gè)月，Vidu 再度迎來(lái)重大更新！

4月底，由生數(shù)科技和清華大學(xué)聯(lián)合研發(fā)的國(guó)內(nèi)首個(gè)純自研原創(chuàng)視頻大模型 Vidu 面向全球發(fā)布，7月底正式上線，全面開放使用，憑借在快速推理、精確語(yǔ)義理解、高動(dòng)態(tài)性和極致動(dòng)漫風(fēng)格等方面的優(yōu)勢(shì)，Vidu 產(chǎn)品表現(xiàn)位列全球視頻大模型的“第一梯隊(duì)”。

僅過去一個(gè)多月的時(shí)間，Vidu 迎來(lái)重大功能更新。9月11日生數(shù)科技舉辦媒體開放日活動(dòng)，期間 Vidu 全球首發(fā)「主體參照」（Subject Consistency）功能，該功能能夠?qū)崿F(xiàn)對(duì)任意主體的一致性生成，讓視頻生成更加穩(wěn)定、可控。目前該功能面向用戶免費(fèi)開放，注冊(cè)即可體驗(yàn)?。w驗(yàn)地址: www.vidu.studio）

一、全球首個(gè)！僅需一張圖片實(shí)現(xiàn)主體可控

所謂“主體參照”，就是允許用戶上傳任意主體的一張圖片，Vidu 就能夠鎖定該主體的形象，通過描述詞任意切換場(chǎng)景，輸出主體一致的視頻。

該功能不局限于單一對(duì)象，而是面向“任意主體”，無(wú)論是人物、動(dòng)物、商品，還是動(dòng)漫角色、虛構(gòu)主體，都能確保其在視頻生成中的一致性和可控性，這是視頻生成領(lǐng)域的一大創(chuàng)新。Vidu 也是全球首個(gè)支持該能力的視頻大模型。

比如進(jìn)行人物角色的“主體參照”，無(wú)論是真實(shí)人物還是虛構(gòu)角色，Vidu 都能保持其在不同環(huán)境中、不同鏡頭下的形象連貫一致。

比如動(dòng)物，Vidu 可以實(shí)現(xiàn)其在不同環(huán)境下、大幅運(yùn)動(dòng)狀態(tài)中細(xì)節(jié)特征保持一致。

比如商品，商品的外觀和細(xì)節(jié)在不同場(chǎng)景中保持高度一致。

上傳的主體也不限于寫實(shí)風(fēng)格，比如針對(duì)動(dòng)漫角色或者虛構(gòu)的主體等，Vidu 也可以保持其高度一致。

在視頻大模型領(lǐng)域，盡管已有如“圖生視頻”和“角色一致性”等能力，但 Vidu 的“主體參照”功能在一致性方面實(shí)現(xiàn)了質(zhì)的飛躍。具體對(duì)比看：

圖生視頻（Image to Video）：基于首幀畫面的連續(xù)生成，無(wú)法直接輸出目標(biāo)場(chǎng)景，限制了視頻內(nèi)容的多樣性和場(chǎng)景的自由度；
角色一致性（Character to Video）：只限于人物面部特征的一致性，難以保證人物整體形象的穩(wěn)定；
主體參照（Subject Consistency）：不局限于人物，面向任意主體，其次在人物主體下，可選擇保持面部一致，也可選擇保持人物整體形象的高度一致，通過輸入文字描述靈活輸出目標(biāo)場(chǎng)景；

我們以具體案例來(lái)看，輸入一張林黛玉的角色照，輸入同樣的“在現(xiàn)代咖啡廳喝咖啡”的描述，能直觀看到，在Vidu “主體參照”功能下，林黛玉的形象在現(xiàn)代場(chǎng)景中得到了完美保留，場(chǎng)景輸出也自然而真實(shí)。

原圖

圖生視頻

主體參照

角色一致性

二、改變視頻創(chuàng)作“游戲規(guī)則”

視頻大模型領(lǐng)域的競(jìng)爭(zhēng)日益激烈，盡管眾多模型層出不窮，但它們普遍存在著一個(gè)核心問題——可控性不足，或者叫一致性的不足。

在實(shí)際的視頻創(chuàng)作中，視頻內(nèi)容往往圍繞特定的對(duì)象展開，可以是角色或特定物體，這些對(duì)象在視頻中的形象需要保持連續(xù)一致。然而現(xiàn)有的視頻模型往往難以實(shí)現(xiàn)這一點(diǎn)，常常是主體在生成過程中容易崩壞。

尤其在涉及復(fù)雜動(dòng)作和交互的情況下，保持主體的一致性更是一項(xiàng)挑戰(zhàn)。此外，視頻模型的輸出結(jié)果具有較大的隨機(jī)性，對(duì)于鏡頭運(yùn)用、光影效果等細(xì)節(jié)的控制也不夠精細(xì)。所以現(xiàn)階段的視頻模型雖然在畫面表現(xiàn)力、物理規(guī)律、想象力等方面實(shí)現(xiàn)了一定程度的突破，但可控性的不足限制了它們?cè)趧?chuàng)作連貫、完整視頻內(nèi)容方面的應(yīng)用。目前，大多數(shù)的 AI 視頻內(nèi)容還是基于獨(dú)立視頻素材的拼接，情節(jié)的連貫性不足。

為了解決這一問題，業(yè)界曾嘗試采用“先AI生圖、再圖生視頻”的方法，通過AI繪圖工具如 Midjourney 生成分鏡頭畫面，先在圖片層面保持主體一致，然后再將這些畫面轉(zhuǎn)化為視頻片段并進(jìn)行剪輯合成。

但問題在于，AI 繪圖的一致性并不完美，往往需要通過反復(fù)修改和局部重繪來(lái)解決。更重要的是，實(shí)際的視頻制作過程中涉及眾多場(chǎng)景和鏡頭，這種方法在處理多組分鏡頭的場(chǎng)景時(shí)，生圖的工作量巨大，能占到全流程的一半以上，且最終的視頻內(nèi)容也會(huì)因?yàn)檫^分依賴分鏡頭畫面而缺乏創(chuàng)造性和靈活性。

Vidu 的“主體參照”功能徹底改變了這一局面。它摒棄了傳統(tǒng)的分鏡頭畫面生成步驟，通過“上傳主體圖+輸入場(chǎng)景描述詞”的方式，直接生成視頻素材。這一創(chuàng)新方法不僅大幅減少了工作量，還打破了分鏡頭畫面對(duì)視頻內(nèi)容的限制，讓創(chuàng)作者能夠基于文本描述，發(fā)揮更大的想象力，創(chuàng)造出畫面豐富、靈活多變的視頻內(nèi)容。這一突破將為視頻創(chuàng)作帶來(lái)了前所未有的自由度和創(chuàng)新空間。

（圖為AI視頻制作流程的重塑）

三、加速故事類、廣告類視頻創(chuàng)作

這一功能也確實(shí)得到了眾多一線創(chuàng)作者的“高度評(píng)價(jià)”。

僅需三張定妝照，完成短片創(chuàng)作

“主體參照”功能通過鎖定角色或物體的形象，一方面讓故事情節(jié)更具連貫性，另一方面讓創(chuàng)作者能夠更自由地探索故事的深度和廣度。

光馳矩陣的發(fā)起人、青年導(dǎo)演李寧正在打造中國(guó)首部AIGC院線電影《玄宇》。他利用 Vidu 預(yù)創(chuàng)作了一段男主的視頻片段，其中所有人物畫面僅通過男主近景、中景、遠(yuǎn)景三張定妝照生成。李寧在創(chuàng)作分享中提到，之前的AI電影創(chuàng)作過程，采用傳統(tǒng)的文生圖、圖生視頻流程，在分鏡的連貫上很難掌控，人物的整體造型很難保持一致，前期需要耗費(fèi)大量的精力去調(diào)試圖片，同時(shí)畫面還容易產(chǎn)生鏡頭光影失控、圖像模糊甚至變形等一系列問題，且隨著視頻篇幅的增加，這些問題被進(jìn)一步放大。Vidu “主體參照”功能讓人物的整體一致性顯著提升，不再需要前期生成大量的圖片，人物運(yùn)動(dòng)和畫面過渡也更加自然，極大助力了長(zhǎng)篇敘事的創(chuàng)作。

中央廣播電視總臺(tái)導(dǎo)演、AIGC藝術(shù)家石宇翔（森海熒光）創(chuàng)作了一條動(dòng)畫短片《夏日的禮物》，在分享創(chuàng)作流程中他表示，與基礎(chǔ)的圖生視頻功能相比，“主體參照”功能擺脫了靜態(tài)圖片的束縛，生成的畫面更具感染力和自由度，讓創(chuàng)作的連貫性大大提升。同時(shí)幫助他節(jié)約7成左右的生圖工作量，顯著提效，讓他能夠?qū)⒏嗑Ψ旁诠适聝?nèi)容的打磨上，而非生成圖片素材上。另外他表示，再疊加上 Vidu 的復(fù)雜動(dòng)作處理能力和多元素的理解能力，他覺得 Vidu 就像是一位真人助理“動(dòng)畫師”在輔助創(chuàng)作。

基于一張商品圖，僅六個(gè)小時(shí)完成一支廣告片

“主體參照”功能在商業(yè)廣告片方向展現(xiàn)了強(qiáng)大的潛力。廣告片的一大關(guān)鍵在于要保證多個(gè)鏡頭、不同場(chǎng)景下品牌物形象的一致性。Vidu “主體參照”功能能夠很好的實(shí)現(xiàn)，例如，在下面的跑步鞋廣告案例中，僅通過一張商品圖，便完成了所有視頻畫面的生成，無(wú)論是不同角度、背景，還是動(dòng)態(tài)表現(xiàn)，跑步鞋的形象在整個(gè)視頻中都保持了高度一致。

生數(shù)科技官方介紹到，該視頻僅一位人員花費(fèi)6個(gè)小時(shí)完成，包含前期策劃、素材生成，后期剪輯，其中30段 AI 視頻素材的生成僅花費(fèi)3個(gè)小時(shí)，整個(gè)流程僅參照一張商品圖。傳統(tǒng)廣告片制作高度依賴線下實(shí)拍和后期制作，時(shí)間周期長(zhǎng)、成本投入大，但現(xiàn)在通過 Vidu 能夠極大地節(jié)省廣告制作的成本，整個(gè)產(chǎn)出流程更加高效，品牌方對(duì)新素材的開發(fā)也能更加靈活。

與功能發(fā)布同步，生數(shù)科技也推出了合作伙伴計(jì)劃，邀請(qǐng)廣告、影視、動(dòng)漫、游戲等行業(yè)的機(jī)構(gòu)加入，共同探索新的視頻創(chuàng)作模式，在內(nèi)容共創(chuàng)、技術(shù)支持、市場(chǎng)拓展等方面展開合作。首批合作伙伴包括開心麻花、貓眼娛樂、巨人網(wǎng)絡(luò)、美克家居、融創(chuàng)文化、河南省非物質(zhì)文化遺產(chǎn)保護(hù)和智慧化中心、李可柒畫院等知名企業(yè)與機(jī)構(gòu)。

四、“主體參照”是 AI 完整敘事的開端

作為國(guó)內(nèi)首個(gè)純自研的視頻大模型，Vidu 自發(fā)布以來(lái)便在海外內(nèi)受到廣泛關(guān)注。在7月底正式上線后，憑借在動(dòng)態(tài)性、語(yǔ)義理解、動(dòng)漫風(fēng)格、快速推理等方面的亮點(diǎn)，Vidu 產(chǎn)品表現(xiàn)位列全球視頻大模型的“第一梯隊(duì)”，并在TikTok 等海外社交媒體平臺(tái)上掀起多種 AI 視頻主題玩法的熱潮，如“跨越時(shí)空的擁抱”等。根據(jù)第三方的數(shù)據(jù)顯示，Vidu 上線首月便位列全球網(wǎng)頁(yè)類產(chǎn)品用戶訪問量增速第一。

面向?qū)I(yè)創(chuàng)作領(lǐng)域，Vidu 也牽手海內(nèi)外多位 AI 藝術(shù)家，探索 AI 賦能下的全新創(chuàng)作模式。比如與北京電影節(jié) AIGC 短片單元最佳影片得主、Ainimate Lab 合作打造的動(dòng)畫短片《一路向南》，畫面質(zhì)量接近傳統(tǒng)動(dòng)畫制作標(biāo)準(zhǔn)，但成本僅為傳統(tǒng)流程的 1/40。Ainimate Lab AI 負(fù)責(zé)人陳劉芳表示，該短片的創(chuàng)作團(tuán)隊(duì)僅由三人構(gòu)成：一名導(dǎo)演、一名故事版藝術(shù)家和一名 AIGC 技術(shù)應(yīng)用專家，制作周期約為 1 周，而傳統(tǒng)流程需要 20 人，包含導(dǎo)演、美術(shù)、建模、燈光、渲染等不同“工種”，周期在一個(gè)月左右。由此可見，Vidu 大大縮短了制作周期并顯著降低了成本。

生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝表示， "主體參照"這一全新功能的上線，代表著 AI 完整敘事的開端，AI 視頻創(chuàng)作也將邁向更高效、更靈活的階段。無(wú)論是制作短視頻、動(dòng)畫作品還是廣告片，在敘事的藝術(shù)中，一個(gè)完整的敘事體系是“主體一致、場(chǎng)景一致、風(fēng)格一致”等要素的有機(jī)結(jié)合。

因此，視頻模型要達(dá)到敘事的完整性，就必須在這些核心元素上實(shí)現(xiàn)全面可控?！爸黧w參照”功能是 Vidu 在一致性方面邁出的重要一步，但這僅僅是開始。未來(lái)，Vidu 將繼續(xù)探索如何精確控制多主體交互、風(fēng)格統(tǒng)一、多變場(chǎng)景穩(wěn)定切換等復(fù)雜元素，以滿足更高層次的敘事需求。

從更長(zhǎng)遠(yuǎn)的視角來(lái)看，一旦實(shí)現(xiàn)了全面的可控性，視頻創(chuàng)作行業(yè)將經(jīng)歷一場(chǎng)顛覆性的變革。屆時(shí)，角色、場(chǎng)景、風(fēng)格，甚至鏡頭運(yùn)用、光影效果等元素，都將轉(zhuǎn)化為可靈活調(diào)整的參數(shù)。用戶只需要?jiǎng)觿?dòng)手指、調(diào)調(diào)參，就可以完成一部影像作品的創(chuàng)作，而每一個(gè)作品的背后，也將是用戶基于AI構(gòu)建出的獨(dú)特世界觀和自我表達(dá)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.