國慶假期Sora 2的橫空出世那叫一個吸睛,尤其是客串(Cameo)功能,直接把Sora拉到了“AI版抖音”的高度。
但有一說一,在國內(nèi),這個玩法早就已經(jīng)有了。
我們先上傳一張奧特曼的照片,來感受下最近比較火的秒變風格的視頻:
- 奧特曼在房間關(guān)上燈,畫面瞬間變成漫畫風格。
視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
這個功能叫做參考生,來自Vidu,模型選擇的是Vidu Q2。實際上Vidu 去年9月就在全球首個提出【參考生】視頻功能,Vidu Q2已經(jīng)是其參考生視頻的第5個迭代版本了。
而同樣的提示詞給到Sora 2,它生成的效果是這樣的:
視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
可以看到,Sora 2并沒有g(shù)et到我們提示詞里的“關(guān)燈”,而是選擇碰了一下門把手,并且視頻開頭也是較為昏暗。
(雖然語義理解不佳,但Sora 2的優(yōu)勢是音視頻可以一鍋出。)
而且劇透一個好消息,據(jù)說在這個月底,Vidu Q2參考生視頻還會迎來重大的更新。
我們已經(jīng)拿到了內(nèi)測資格,因此,按照老規(guī)矩,一波實測,走起~
Vidu Q2參考生視頻 PK Sora2
Vidu Q2的參考生功能,從操作角度來看,一大優(yōu)勢就是可以上傳多張圖片(參考圖可以多達7個),然后一句話讓它們直接聯(lián)動起來,像這樣:
對生成視頻的結(jié)果,我們還可以選擇時長、清晰度、寬高比和一次生成視頻的數(shù)量等:
從這個角度來看,參考生在操作上確實是要比Sora 2要靈活得多。
那么接下來,我們就進一步從不同維度來一場PK。
Round 1:一致性大比拼
畢竟一致性是視頻生成領(lǐng)域一直以來的一大痛點,因此第一輪的比拼,咱們就來看看它倆是否能做到前后一致。
有請金牌銷售——奧特曼:
- 奧特曼介紹一下圖中的包包。
視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
可以看到,Vidu Q2在生成視頻的過程中,無論是包包還是人物,全程沒有異常的變化。
并且放大圖片做對比,包包各處拼接的顏色也是與原圖高度相符:
同樣的Prompt,我們再來“喂”給Sora 2,依舊是讓奧特曼來介紹:
視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
Sora 2依舊的優(yōu)勢在于奧特曼說著中文介紹著這款包包,但……
最基本的一致性卻沒有保持住,甚至包包各處的顏色都已經(jīng)變了樣,連包帶兒都時而三條時而兩條。
整體來看,一致性這塊兒,Vidu Q2可以說是完勝了。
Round 2:物理規(guī)律遵循
除了一致性之外,另一個考量AI視頻生成好壞的因素,就要屬遵循物理規(guī)律了。
接下來,我們來上一點難度,參考圖是這樣的:
這張圖的難點顯而易見,就是考驗大模型們是否能精準的按照物理規(guī)律,把舞者在鏡中各個角度的姿態(tài)表現(xiàn)出來。
Vidu Q2請聽題:
- 圖中的女子在圖中的舞蹈房內(nèi),從圖片中的動作開始,翩翩起舞,動作流暢一致,鏡面反射出舞蹈全景,鏡頭緩慢環(huán)繞捕捉舞蹈細節(jié)。
視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
畢竟這道題目的難度系數(shù)較高,雖然還是有一點細節(jié)出錯,但Vidu Q2參考生整體的表現(xiàn)還算是不錯。
但到了Sora 2這里,“華點”就有點多了。
首先還是老問題,不允許上傳包含寫實人物的圖像;于是,我們便替換成了一張動漫的人物:
結(jié)果……動漫人物依舊是無法生成……索性我們就直接用文字Prompt去生成:
視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
從最終的結(jié)果來看,能看清的人物(包括鏡面里)有3位,整體完成度較高;配上了音樂也是比較加分(雖然最后誤闖進一位攝影師)。
整體來看,在遵循物理規(guī)律方面,兩位選手可以說是各有亮點。
Round 3:運鏡哪家強?
最后,在一致性和物理規(guī)律之后,AI視頻生成中運鏡的使用,也是非常加分的一點。
這次的參考圖是這樣的:
運鏡方面,我們分了三段Prompt:
- 0-1s鏡頭1,頭發(fā)飄揚,拉開弓,超近特寫,背景是黑暗森林閃著奇幻的光,箭射出去。切鏡頭。
- 1-6s鏡頭2,黑暗游拿著弓在黑暗森林里快速跑動跳躍,鏡頭自由跟隨,特寫全身自由切換,在樹林中穿梭,急速大幅度不斷跳躍,閃爍。切鏡頭。
- 6-8s鏡頭3,一個旋轉(zhuǎn)鏡頭環(huán)繞人臉慢動作特寫,露出邪魅的笑容。
首先是Vidu Q2的表現(xiàn):
視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
如何?是不是有動漫片段的效果了?
鏡頭是僅僅跟隨人物,從近景到遠景再到拉近,可謂是一氣呵成。
接下來是Sora 2的表現(xiàn):
視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
可以明顯看到,Sora 2生成的切鏡會更多,而Vidu是一鏡到底的跟隨運鏡。
因此,這一輪,兩者各有優(yōu)勢,Vidu Q2 參考生更符合日常動漫中鏡頭運鏡語言,Sora 2的不停切鏡則渲染了緊張的氛圍。
中美視頻生成PK,已經(jīng)來到了Next Level
通過以上幾個維度的實測,我們可以清晰地看到當前AI視頻生成領(lǐng)域的發(fā)展現(xiàn)狀 。
在這次Vidu Q2參考生視頻與Sora 2的直接PK中,兩者幾乎打了個平手。
Sora 2在音視頻同步輸出方面具備優(yōu)勢 ,但在更關(guān)乎視頻內(nèi)容核心質(zhì)量的維度上,Vidu Q2參考生視頻展示了其獨到的處理能力。
不過有一說一,這場比拼的意義遠不止于評判兩個模型孰優(yōu)孰劣,它更揭示了行業(yè)未來的走向正逐漸被實際應(yīng)用的需求所定義 。
AI視頻技術(shù)能否成功的關(guān)鍵,在于它是否能從一個僅能生成驚艷片段的玩具,轉(zhuǎn)變?yōu)橐粋€能無縫融入創(chuàng)作者工作流的生產(chǎn)力工具 。
當下的創(chuàng)作者需要的不僅僅是隨機、不可控的創(chuàng)意火花,而是能夠精確執(zhí)行指令、穩(wěn)定復現(xiàn)角色的可靠伙伴。
這正是一致性等功能所具備的戰(zhàn)略價值 。保持角色和場景、道具的一致,是實現(xiàn)AI短劇、AI數(shù)字人廣告乃至虛擬偶像IP等一系列商業(yè)應(yīng)用的基礎(chǔ) 。
如果每一次生成的人物都面目全非,那么任何形式的敘事都無從談起。Vidu Q2參考生視頻在此處的深耕,本質(zhì)上是在嘗試解決AI視頻工業(yè)化生產(chǎn)的核心難題。
即將技術(shù)轉(zhuǎn)化為可規(guī)?;?、可商業(yè)化的穩(wěn)定產(chǎn)出 。
從這個角度看,構(gòu)建真正的“AI版抖音”,比拼的也絕非單一的視頻生成效果 。這個戰(zhàn)場是一個包含了從創(chuàng)意構(gòu)思到內(nèi)容生成、再到精細化編輯、分發(fā)與商業(yè)化的完整生態(tài)。
△創(chuàng)作者@陳暢用Vidu Q2參考生制作的短片
在生態(tài)方面,Vidu 目前基于產(chǎn)品矩陣構(gòu)建了主體庫共享生態(tài),商業(yè)化生態(tài),創(chuàng)作者生態(tài)等,核心模型產(chǎn)品驅(qū)動的完整生態(tài)才是其最大的競爭壁壘。
因此,這場技術(shù)競賽不僅是中美頂級模型之間的一次較量,更應(yīng)該被視為AI視頻生產(chǎn)力革命的序章 。
無論是Sora 2還是Vidu Q2,它們的快速迭代都在推動著技術(shù)的成熟和成本的降低 。
One More Thing
正如我們在最開始預告的,Vidu Q2參考生視頻要在這個月底有一波重大的更新。
據(jù)悉Vidu Q2 參考生不僅能支持專業(yè)半專業(yè)用戶群體的真實需求,同時也能完全滿足廣告電商、影視動漫短劇、互動娛樂等商業(yè)領(lǐng)域客戶的更高要求,此外,使用體驗也將對C端用戶非常友好。
我們可以大膽猜測一波,生數(shù)科技Vidu這次是否也要將音頻的模態(tài)容納進來呢?
Vidu Q2體驗地址:
https://www.vidu.cn/create/character2video
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.