網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

當Sora2遇上國產(chǎn) Vidu Q2，國產(chǎn)參考生真的更香了！一手親測

2025-10-10 19:34:31　來源: 量子位

北京舉報

分享至

國慶假期Sora 2的橫空出世那叫一個吸睛，尤其是客串（Cameo）功能，直接把Sora拉到了“AI版抖音”的高度。

但有一說一，在國內(nèi)，這個玩法早就已經(jīng)有了。

我們先上傳一張奧特曼的照片，來感受下最近比較火的秒變風格的視頻：

奧特曼在房間關(guān)上燈，畫面瞬間變成漫畫風格。

視頻地址：https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg

這個功能叫做參考生，來自Vidu，模型選擇的是Vidu Q2。實際上Vidu 去年9月就在全球首個提出【參考生】視頻功能，Vidu Q2已經(jīng)是其參考生視頻的第5個迭代版本了。

而同樣的提示詞給到Sora 2，它生成的效果是這樣的：

視頻地址：https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg

可以看到，Sora 2并沒有g(shù)et到我們提示詞里的“關(guān)燈”，而是選擇碰了一下門把手，并且視頻開頭也是較為昏暗。

（雖然語義理解不佳，但Sora 2的優(yōu)勢是音視頻可以一鍋出。）

而且劇透一個好消息，據(jù)說在這個月底，Vidu Q2參考生視頻還會迎來重大的更新。

我們已經(jīng)拿到了內(nèi)測資格，因此，按照老規(guī)矩，一波實測，走起~

Vidu Q2參考生視頻 PK Sora2

Vidu Q2的參考生功能，從操作角度來看，一大優(yōu)勢就是可以上傳多張圖片（參考圖可以多達7個），然后一句話讓它們直接聯(lián)動起來，像這樣：

對生成視頻的結(jié)果，我們還可以選擇時長、清晰度、寬高比和一次生成視頻的數(shù)量等：

從這個角度來看，參考生在操作上確實是要比Sora 2要靈活得多。

那么接下來，我們就進一步從不同維度來一場PK。

Round 1：一致性大比拼

畢竟一致性是視頻生成領(lǐng)域一直以來的一大痛點，因此第一輪的比拼，咱們就來看看它倆是否能做到前后一致。

有請金牌銷售——奧特曼：

奧特曼介紹一下圖中的包包。

視頻地址：https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg

可以看到，Vidu Q2在生成視頻的過程中，無論是包包還是人物，全程沒有異常的變化。

并且放大圖片做對比，包包各處拼接的顏色也是與原圖高度相符：

同樣的Prompt，我們再來“喂”給Sora 2，依舊是讓奧特曼來介紹：

視頻地址：https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg

Sora 2依舊的優(yōu)勢在于奧特曼說著中文介紹著這款包包，但……

最基本的一致性卻沒有保持住，甚至包包各處的顏色都已經(jīng)變了樣，連包帶兒都時而三條時而兩條。

整體來看，一致性這塊兒，Vidu Q2可以說是完勝了。

Round 2：物理規(guī)律遵循

除了一致性之外，另一個考量AI視頻生成好壞的因素，就要屬遵循物理規(guī)律了。

接下來，我們來上一點難度，參考圖是這樣的：

這張圖的難點顯而易見，就是考驗大模型們是否能精準的按照物理規(guī)律，把舞者在鏡中各個角度的姿態(tài)表現(xiàn)出來。

Vidu Q2請聽題：

圖中的女子在圖中的舞蹈房內(nèi)，從圖片中的動作開始，翩翩起舞，動作流暢一致，鏡面反射出舞蹈全景，鏡頭緩慢環(huán)繞捕捉舞蹈細節(jié)。

視頻地址：https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg

畢竟這道題目的難度系數(shù)較高，雖然還是有一點細節(jié)出錯，但Vidu Q2參考生整體的表現(xiàn)還算是不錯。

但到了Sora 2這里，“華點”就有點多了。

首先還是老問題，不允許上傳包含寫實人物的圖像；于是，我們便替換成了一張動漫的人物：

結(jié)果……動漫人物依舊是無法生成……索性我們就直接用文字Prompt去生成：

視頻地址：https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg

從最終的結(jié)果來看，能看清的人物（包括鏡面里）有3位，整體完成度較高；配上了音樂也是比較加分（雖然最后誤闖進一位攝影師）。

整體來看，在遵循物理規(guī)律方面，兩位選手可以說是各有亮點。

Round 3：運鏡哪家強？

最后，在一致性和物理規(guī)律之后，AI視頻生成中運鏡的使用，也是非常加分的一點。

這次的參考圖是這樣的：

運鏡方面，我們分了三段Prompt：

0-1s鏡頭1，頭發(fā)飄揚，拉開弓，超近特寫，背景是黑暗森林閃著奇幻的光，箭射出去。切鏡頭。
1-6s鏡頭2，黑暗游拿著弓在黑暗森林里快速跑動跳躍，鏡頭自由跟隨，特寫全身自由切換，在樹林中穿梭，急速大幅度不斷跳躍，閃爍。切鏡頭。
6-8s鏡頭3，一個旋轉(zhuǎn)鏡頭環(huán)繞人臉慢動作特寫，露出邪魅的笑容。

首先是Vidu Q2的表現(xiàn)：

視頻地址：https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg

如何？是不是有動漫片段的效果了？

鏡頭是僅僅跟隨人物，從近景到遠景再到拉近，可謂是一氣呵成。

接下來是Sora 2的表現(xiàn)：

視頻地址：https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg

可以明顯看到，Sora 2生成的切鏡會更多，而Vidu是一鏡到底的跟隨運鏡。

因此，這一輪，兩者各有優(yōu)勢，Vidu Q2 參考生更符合日常動漫中鏡頭運鏡語言，Sora 2的不停切鏡則渲染了緊張的氛圍。

中美視頻生成PK，已經(jīng)來到了Next Level

通過以上幾個維度的實測，我們可以清晰地看到當前AI視頻生成領(lǐng)域的發(fā)展現(xiàn)狀。

在這次Vidu Q2參考生視頻與Sora 2的直接PK中，兩者幾乎打了個平手。

Sora 2在音視頻同步輸出方面具備優(yōu)勢，但在更關(guān)乎視頻內(nèi)容核心質(zhì)量的維度上，Vidu Q2參考生視頻展示了其獨到的處理能力。

不過有一說一，這場比拼的意義遠不止于評判兩個模型孰優(yōu)孰劣，它更揭示了行業(yè)未來的走向正逐漸被實際應(yīng)用的需求所定義。

AI視頻技術(shù)能否成功的關(guān)鍵，在于它是否能從一個僅能生成驚艷片段的玩具，轉(zhuǎn)變?yōu)橐粋€能無縫融入創(chuàng)作者工作流的生產(chǎn)力工具。

當下的創(chuàng)作者需要的不僅僅是隨機、不可控的創(chuàng)意火花，而是能夠精確執(zhí)行指令、穩(wěn)定復現(xiàn)角色的可靠伙伴。

這正是一致性等功能所具備的戰(zhàn)略價值。保持角色和場景、道具的一致，是實現(xiàn)AI短劇、AI數(shù)字人廣告乃至虛擬偶像IP等一系列商業(yè)應(yīng)用的基礎(chǔ) 。

如果每一次生成的人物都面目全非，那么任何形式的敘事都無從談起。Vidu Q2參考生視頻在此處的深耕，本質(zhì)上是在嘗試解決AI視頻工業(yè)化生產(chǎn)的核心難題。

即將技術(shù)轉(zhuǎn)化為可規(guī)?；?、可商業(yè)化的穩(wěn)定產(chǎn)出。

從這個角度看，構(gòu)建真正的“AI版抖音”，比拼的也絕非單一的視頻生成效果。這個戰(zhàn)場是一個包含了從創(chuàng)意構(gòu)思到內(nèi)容生成、再到精細化編輯、分發(fā)與商業(yè)化的完整生態(tài)。

△創(chuàng)作者@陳暢用Vidu Q2參考生制作的短片

在生態(tài)方面，Vidu 目前基于產(chǎn)品矩陣構(gòu)建了主體庫共享生態(tài)，商業(yè)化生態(tài)，創(chuàng)作者生態(tài)等，核心模型產(chǎn)品驅(qū)動的完整生態(tài)才是其最大的競爭壁壘。

因此，這場技術(shù)競賽不僅是中美頂級模型之間的一次較量，更應(yīng)該被視為AI視頻生產(chǎn)力革命的序章。

無論是Sora 2還是Vidu Q2，它們的快速迭代都在推動著技術(shù)的成熟和成本的降低。

One More Thing

正如我們在最開始預告的，Vidu Q2參考生視頻要在這個月底有一波重大的更新。

據(jù)悉Vidu Q2 參考生不僅能支持專業(yè)半專業(yè)用戶群體的真實需求，同時也能完全滿足廣告電商、影視動漫短劇、互動娛樂等商業(yè)領(lǐng)域客戶的更高要求，此外，使用體驗也將對C端用戶非常友好。

我們可以大膽猜測一波，生數(shù)科技Vidu這次是否也要將音頻的模態(tài)容納進來呢？

Vidu Q2體驗地址：
https://www.vidu.cn/create/character2video

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.