機器之心報道
機器之心編輯部
這次,OpenAI 又搞了波大的,祭出 Sora2,可以直接生成最長 20 秒的 1080p 視頻。
比如,有網(wǎng)友拿奧特曼生成了 GPU 外賣小哥,甚至還有去超市偷顯卡的劇情。
相比于舊版本,Sora 2 在物理準(zhǔn)確性、真實感和可控性方面都更勝一籌,而且它還和谷歌 Veo3 一樣具備音畫同步能力。
我們使用同樣的提示詞,讓兩個版本的 Sora 同臺競技。
提示詞:A black tech reviewer talking about a smartphone, while sitting at a desk in front of 2 displays.(一位黑人技術(shù)評論員坐在辦公桌前,面對兩臺顯示屏談?wù)撘豢钪悄苁謾C。)
上個版本的 Sora 并未對視頻中的物體產(chǎn)生「理解」,模型仍然容易出現(xiàn)「幻覺」。
黑人小哥右手拿的手機總是憑空出現(xiàn)或消失,左手會在不經(jīng)意間多根手指或少根手指,顯示屏中的圖片也都出現(xiàn)了手指畸變的情況。
而 Sora 2 生成的視頻足夠以假亂真,沒有物體相互穿透或者無故消失和重現(xiàn),人物手指也始終沒出現(xiàn)畸變的問題,還實現(xiàn)了音頻、視頻一鍋出。
要知道,我們對黑人小哥的評論話術(shù)沒有任何提示,但 Sora2 生成的小哥嘴皮子溜得很,全程沒有打磕巴,評論話術(shù)也完全是模型自己編的。我們還可以隨意調(diào)整生成視頻比例。
這也難怪 Sora2 一經(jīng)推出,外網(wǎng)就炸了鍋。
「這款下一代 AI 視頻和音頻模型,可能是 Veo3 的真正競爭者。」
「Sora2 的音頻生成比 Veo 3 更加出色?!?/p>
當(dāng)然,也有潑冷水的。
「Sora2 生成的視頻逼真效果確實讓人嘆為觀止,但成本也非常巨大。」
Gary Marcus也一如既往的「毒舌」。他引用了一項研究數(shù)據(jù),當(dāng)生成的視頻長度加倍時,文本到視頻生成器的能耗會增加四倍。
他認(rèn)為GPU是AI開發(fā)中的核心計算資源,需求量極大,將這些寶貴的計算資源用于開發(fā)一個AI生成的視頻社交應(yīng)用,而不是用于像癌癥研究這樣更有意義的領(lǐng)域,是一種資源錯配。
與 Veo3 對比
目前,我們有兩種方法使用 Sora2,既可以訪問網(wǎng)頁端,也可以下載 Sora iOS APP(美國和加拿大用戶)。
這兩種方法都免費,但需要邀請碼,并且得是美區(qū)IP。
網(wǎng)頁版訪問地址:https://sora.chatgpt.com/explore
接下來還是老規(guī)矩,我們奉上一手實測,將其與谷歌 Veo3 來個正面對決。
Round 1:考驗演技
Prompt:Handheld medium shot tracking an American soldier walking through a ruined Normandy battlefield at dusk. Heavy rain falls. The camera moves backward, facing him directly. His muddy face is blank, eyes hollow. Explosions flash behind him.
He stops, kneels in the mud, and whispers: ‘Why am I still here?’ A slow, somber orchestral score swells.(手持中景鏡頭跟蹤一名美國士兵走過諾曼底廢墟戰(zhàn)場,黃昏時分,沉重的雨水傾盆而下。鏡頭向后移動,正對著他,他滿臉泥污,表情空洞,眼神無神。爆炸的光芒在他身后閃現(xiàn)。他停下,跪在泥土中,低聲說:「我為什么還在這里?」一段緩慢而沉重的管弦樂旋律響起。)
二者對于人物表情、場景設(shè)定的捕捉都很到位,爆炸聲、配樂也都配的恰到好處,但從提示詞遵循的角度來說,Veo3 更勝一籌。
提示詞中明確要求一名美國士兵走過諾曼底廢墟戰(zhàn)場,然后跪下低語,Veo3 嚴(yán)格遵循了文本描述,而 Sora2 生成的視頻省略了「停下腳步,在泥濘中跪下」這一趴。
而且 Veo3 生成的雨水落下的效果更加逼真,人物的運動幅度也更大。
我們還比較了上一個版本的 Sora,意外發(fā)現(xiàn)切鏡頭的效果相當(dāng)絲滑,只是沒有聲音。
Round 2:生成 ASMR
Veo3 剛發(fā)布時,有網(wǎng)友生成 ASMR 視頻一下子火了,這次我們也試了下。
Prompt:asmr creator typing on a noisy keyboard and then looking up and blowing into the microphone as she talks.(ASMR 創(chuàng)作者在嘈雜的鍵盤上打字,隨后抬起頭對著麥克風(fēng)吹氣并開始說話。)
這兩個模型生成效果都很驚艷,它們能夠精準(zhǔn)實現(xiàn)音畫同步,捕捉到每一個細(xì)節(jié)。ASMR 創(chuàng)作者手敲鍵盤的聲音清晰呈現(xiàn),并且當(dāng)她抬頭呼氣時,音效也能無縫切換,與畫面完美結(jié)合。
這么說吧,如果不標(biāo)注 AI 生成,估計會騙過在座諸位的眼睛。
Round 3: 考驗唱功
Prompt:A male singer in a cozy recording studio singing into a microphone with headphones on, surrounded by acoustic panels and warm lighting — close-up on emotional facial expressions, intimate mood.(一位男歌手戴著耳機,站在一個溫馨的錄音室里,唱著歌,麥克風(fēng)前面。周圍是聲學(xué)面板和柔和的燈光 —— 鏡頭特寫他的情感豐富的面部表情,氛圍溫馨而親密。)
這效果確實沒得說,真實得沒邊了。
不管是 Sora2 還是 Veo3,音畫同步的處理非常精準(zhǔn),男歌手的歌聲與口型完全一致,耳機、麥克風(fēng)和錄音室的環(huán)境細(xì)節(jié)也都處理得非常到位,讓整個畫面顯得自然且真實。
Round 4:編假新聞
再來看它們生成的「假新聞」。
Prompt:A news anchor with a serious tone reporting an obviously fake news story about aliens landing in New York City, complete with stock footage overlays, dramatic music, and animated graphics behind them — newsroom background.(一位新聞主播以嚴(yán)肅的語氣報道關(guān)于外星人降臨紐約市的假新聞,畫面中包含了庫存視頻素材的疊加、戲劇性的音樂和動態(tài)圖形,背景是新聞室。)
這一局 Sora2 勝出。
Veo3 生成畫面主要是以演播室的 AI 主播為主,她操著一口純正的美式播音腔一本正經(jīng)地胡說八道,身后的屏幕雖然也呈現(xiàn)相關(guān)外星人畫面,但較為模糊,多少有些出戲。
Sora2 除了呈現(xiàn)演播室主播播報新聞外,還時不時切換現(xiàn)場鏡頭,使得虛構(gòu)的內(nèi)容看起來像是一個真正的新聞報道。
Round 5:生成脫口秀
我們使用脫口秀場景,測試了一下他們對于中文提示詞的理解能力。
提示詞:一個脫口秀演員在臺上說了一個笑話,內(nèi)容是「別整天說自己是單身狗,狗在你這個年紀(jì),早 die 了」,觀眾爆笑。
給一段中文提示詞,Sora2 就可以根據(jù)語言自動生成中國脫口秀演員,挑眉、嘴角上揚等微表情都能捕捉到,且口型對得嚴(yán)絲合縫,唯一的 bug 就是如果中文提示詞里面夾雜著英文,英文就說不對。
我們之前用 Veo3 也嘗試過同樣的提示詞,但 Veo3 只能輸出說著英語的外國人。為了驗證,我們重新使用 flow 平臺中的 Veo3,仍未生成成功,原因是目前它僅支持英語提示。
Round 6:體操考驗
無論是 Veo3 還是 Sora2,在生成體操視頻方面還是會翻車。
提示詞:一位體操運動員在明亮的體操房內(nèi),身著鮮艷的體操服,在高低杠上優(yōu)雅地旋轉(zhuǎn)、跳躍、翻騰,動作行云流水,鏡頭從不同角度捕捉她的精彩表現(xiàn),背景音樂是激昂的交響樂,旁白詳細(xì)講解著她的動作技巧和訓(xùn)練歷程。
我們用 Sora2 分別生成了帶中文和英文兩種解說的體操視頻,畫外音解說效果確實不錯,但體操動作還是會鬧笑話。比如體操運動員的動作突然倍速、突然多出來的胳膊:
或者一個大回環(huán)人已經(jīng)飛出老遠(yuǎn)了,但下一秒仍穩(wěn)穩(wěn)抓到單杠:
Veo3 也有好多邪門的細(xì)節(jié),在單杠上旋轉(zhuǎn)時要骨折的胳膊、原地跳躍時 360 度旋轉(zhuǎn)的手臂……
在版權(quán)方面,OpenAI長教訓(xùn)了,Sora2不僅采用邀請制,還采取了安全措施,如水印和對公眾人物深度偽造的限制,以防止濫用。
在我們體驗中,Sora 2 App經(jīng)常因版權(quán)保護措施和其他原因而拒絕生成視頻,其他創(chuàng)作者生成的作品也禁止下載或錄屏。
一個全是假視頻的 TikTok,真的會火嗎?
除了常規(guī)的視頻生成功能外,這次 OpenAI 還推出了基于自拍的客串功能。
比如讓奧特曼客串 SpaceX 發(fā)射現(xiàn)場。
提示詞:@sama watches spaceX rocketship launch. Then laugh.@sama says 「good job」。
OpenAI 推出的 Sora iOS 應(yīng)用,最初在美國和加拿大上線。
手指一劃,就能觀看一個個 100% 由 AI 生成的視頻流,我們還可以通過可滑動的動態(tài)信息流生成、重混和分享視頻。
不得不說,該 App 就連頁面設(shè)計都像極了 TikTok,包含一個由推薦算法驅(qū)動的「為你推薦」頁面,在視頻流的右側(cè)為用戶提供了點贊、評論或重混視頻的選項,底部的導(dǎo)航欄分別是主頁、搜索、發(fā)布視頻、通知和「我的」,甚至還有「私信」。
對于 OpenAI 這種打法,有人認(rèn)為,「單論視頻生成的模型,從谷歌到國內(nèi)的快手、字節(jié)、MiniMax、百度,大家一個比一個卷,沒有誰能持續(xù)領(lǐng)先。但通過 Sora 應(yīng)用程序建立產(chǎn)品壁壘后,OpenAl 就可以有充分的喘息時間來追平模型差距。即便在某些指標(biāo)上暫時落后,它依舊能牢牢握住用戶入口和使用習(xí)慣?!?/p>
可問題是,OpenAI 并不是第一個這么干的。上周,Meta 也剛剛宣布,在其 Meta AI 應(yīng)用中新增了一個名為 Vibes 的視頻流。
早在去年,即夢AI App就先后在安卓應(yīng)用市場和蘋果 App Store上線,后來隨著平臺功能完善和社區(qū)運營啟動,即夢AI App逐步形成了創(chuàng)作者生成的視頻流生態(tài),目前已發(fā)展為國內(nèi)領(lǐng)先的 AI 內(nèi)容創(chuàng)作與分發(fā)平臺。
因此,一個全是假視頻的 TikTok 能否持續(xù)火下去、能否真正成為 OpenAI 的產(chǎn)品壁壘,這還有待時間驗證。
最后,想體驗的讀者歡迎留言獲取邀請碼。數(shù)量有限,先到先得。
https://x.com/GaryMarcus/status/1973153261801898248
https://x.com/AstroJoeB/status/1973140106866213113
https://x.com/bilawalsidhu/status/1973151157137842416
視頻鏈接:https://mp.weixin.qq.com/s/nGdYAyKN-yOf4z97elCs7g
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.