新智元報道
編輯:艾倫 桃子
【新智元導(dǎo)讀】凌晨1點,OpenAI突然扔出Sora 2核彈,AI視頻迎來「GPT-3.5時刻」!一大批驚艷Demo放出,物理智能提升一大截,首次實現(xiàn)音畫同步,人物一致性、可控性刷新SOTA。但最絕的還是Sora App,它的問世,或?qū)氐字厮芏桃曨l社交媒體的交互邏輯與社區(qū)互動方式。
實屬沒想到,Sora 2深夜炸場!
剛剛,OpenAI直播正式官宣新一代AI視頻模型——Sora 2,正面狙擊谷歌Veo 3。
它在物理準(zhǔn)確性、逼真度上,一舉刷新SOTA,并在一致性、可控性上實現(xiàn)了巨大飛躍。
值得一提的是,Sora 2首次實現(xiàn)「音畫同步」。
奧特曼發(fā)長文激動地表示,「創(chuàng)意領(lǐng)域的ChatGPT時刻來臨」!
人類創(chuàng)造力即將迎來一次寒武紀(jì)大爆發(fā),隨之而來的藝術(shù)和娛樂質(zhì)量,也將大幅提升。
突然間,創(chuàng)作天地變得無比開闊,令人印象非常深刻。
他還特意強調(diào)了一個創(chuàng)意玩法——把自己和朋友們放進視頻里,效果好玩到炸!
這不,奧特曼拿著大話筒,直呼「10am PT.開啟直播」。
而且,他還和Sora團隊負(fù)責(zé)人Bill Peebles用Sora 2,直接拍了一部官宣2分鐘視頻,效果極其震撼。
令人意外的是,人物角色的一致性非常高,看來我們離好萊塢級大片不遠(yuǎn)了。
正如爆料所言,Sora首個App正式解禁,在iOS端可直接下載。安卓用戶,需通過sora.com訪問。
Sora 2出世,視頻GPT-3.5時刻來臨
說到AI視頻生成,過去總有種「夢里啥都有」的感覺——籃球瞬移進筐、人物剛剛還在左邊,下一幀就冒出來個分身。
技術(shù)進步快沒錯,但「假」也總是藏不住。
直到Sora 2推出,第一次讓人覺得,AI終于開始尊重物理和常識,生成世界不再是「隨便編編」,而是真能照進現(xiàn)實。
2024年2月,Sora首次放出,堪稱視頻界的「GPT-1時刻」!這是首次,讓所有人看到視頻生成真的可用了。
過去半年,OpenAI團隊死磕「如何讓模型真正學(xué)會模擬實際運行」這個關(guān)鍵,如今終于取得重大突破。
基于海量視頻數(shù)據(jù)的預(yù)訓(xùn)練和后訓(xùn)練技術(shù),Sora 2的高光時刻降臨。
正如官博所言,Sora 2開啟了「視頻領(lǐng)域的GPT-3.5 時刻」!
接下來,具體看看Sora 2歷經(jīng)一年多,究竟取得了哪些重大突破?
AI穿幫,終于被揪出來了
最讓人感慨的,是Sora 2在物理細(xì)節(jié)上的進化。
別小看這個點,比如你讓它生成人投籃,舊模型為了「滿足」指令,球會強行飛進籃筐(哪怕角度完全不合理);
現(xiàn)在的Sora 2,球打板彈開、甚至投丟都成常態(tài),動作有慣性、受力和材質(zhì)都說得通。
頭頂一只貓咪并完成三周半跳?奧運冠軍能否做到尚未可知,但Sora認(rèn)為完全不在話下。
Prompt: figure skater performs a triple axle with a cat on her head
被業(yè)界封為「AI體操界的圖靈測試」,Sora 2一次性就通過了。
Prompt: a gymnast flips on a balance beam. cinematic
就連這種不符合邏輯的奇葩操作:一名男子騎在一匹馬背上,而這匹馬又騎在另一匹馬背上,Sora 2也能以意想不到方式完成。
Prompt: a man rides a horse which is on another horse
槳板上的后空翻也不是P上去的,而是力學(xué)能自洽地演繹。
Prompt: a man does a backflip on a paddleboard
你甚至能感受到角色的失誤、嘗試、掙扎,而不是一味「全都對」。
有點像在看小型紀(jì)錄片——會成功,但也會失敗。
Prompt: Title — Lanterns Above, Distance Between (10.0s, Live Action Black & White Festival Night)
Sora 2還能生成各類復(fù)雜環(huán)境聲,效果十分驚艷,幾乎聽不出AI生成的痕跡。
Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
「世界模擬器」這詞,終于有點底氣了。
多鏡頭、多風(fēng)格,連貫成片不是夢
以前你讓AI連續(xù)生成幾個鏡頭,角色的衣服總莫名其妙換了、光線亂飄、道具沒了。
Sora 2這次特別強調(diào)「世界狀態(tài)」連續(xù)性——哪怕你讓角色從廚房走到陽臺,鏡頭切換時陽光、服飾、甚至地上灑的水都能一氣呵成,不再穿幫。
你還可以像導(dǎo)演一樣指定每個鏡頭的順序、節(jié)奏、景別變化,把握故事節(jié)奏。
風(fēng)格上,它已經(jīng)能寫實、能做電影質(zhì)感;
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)
甚至連日漫那種「超現(xiàn)實高燃」也能做得行云流水。
比如生成一場刀光劍影的動漫打斗,每一幀都能讓二次元粉感嘆「這比PPT流暢多了」。
還有曾經(jīng)爆火全網(wǎng)的吉卜力風(fēng)格,Sora 2在生成效果上也能拿捏。
Prompt: in the style of a studio ghibli anime, a boy and his dog run up a grassy scenic mountain with gorgeous clouds, overlooking a village in the distant background
而且音頻直接跟上,不僅對白和口型對齊,連環(huán)境音、動作聲效都隨場景變化,給人一種「拿來即用」的感覺,省去后期剪輯音頻的繁瑣。
就比如,一位年長的教授可以英語無縫切換德語講話。
Prompt: old professor talks in english then german
更多Sora 2官方驚艷Demo一覽:
左右滑動查看
新玩法:Sora App 讓你「投影」自己進故事
除了模型本身,這次最讓人感到「時代變了」的,是全新iOS 社交App——Sora。
打開App,只需要錄一小段帶聲音的視頻,系統(tǒng)驗證身份和采集形象后,你或朋友,馬上就能把你的樣子和聲音準(zhǔn)確「扔進」任意生成場景:
可以讓自己出現(xiàn)在巴黎鐵塔前開派對、和熊貓打乒乓,甚至和馬斯克同框唱歌(當(dāng)然,公眾人物暫時不支持哈)。
Sora 2可以直出一只鴕鳥叼走男子的帽子,在農(nóng)場里奔跑的視頻,效果非常自然,讓人辨別不出這是AI生成的。
Prompt: an ostrich steals dads hat and dad chases after it
更令人驚喜的是,在Sora 2中還能賦予一個人「超能力」——飛起來,一個Prompt就可實現(xiàn)。
這個功能還用于Sora App,帶來了一種全新的社交互動方式。
Prompt: Add @kendra except she can actually fly
「狗超人」拯救人類的劇情,在Sora 2中上演了。
Prompt: @rocket is a superpowered superhero dog, flying through the sky and saving new york city
還有更多的驚艷Demo,以第一視角帶你暢玩。
左右滑動查看
這個「Cameo」功能用一次就停不下來,很多OpenAI內(nèi)測員工說靠它結(jié)識了新朋友,AI不止能生成內(nèi)容,還能創(chuàng)造社交紐帶。
Sora的分發(fā)邏輯也頗有趣:推薦更偏向于「有二創(chuàng)價值」的視頻,而不是單純讓你無腦刷時長。
你可以用自然語言告訴系統(tǒng)想看什么類型、什么風(fēng)格、哪種故事,算法會主動調(diào)整推薦。
起步是邀請制,先在美加上線,后續(xù)很快擴展。
拿到邀請碼還能上sora.com網(wǎng)頁體驗,高質(zhì)量Pro版則專屬ChatGPT Pro用戶。
歷史作品不會丟,API也在路上。
全網(wǎng)實測震撼
提前拿到內(nèi)測資格的開發(fā)者,已經(jīng)放出諸多Sora 2的震撼demo。
@Miguel | AP直言,Sora是自己見過第一個,可以把動漫效果做到很到位的AI視頻模型。
再來看Sora 2極致運鏡效果,從近拉到遠(yuǎn),完全沒有違和感。
還有人體驗后驚艷地表示,我非常確定我們已進入一個社交媒體新時代!
漫雪紛飛中,一對情侶在跳舞。
還有OpenAI研究員@gabriel,也在第一時間公開了一些「奧特曼參演劇情」的demo。
奧特曼本尊,正竊取用于Sora推理的GPU。
安全與治理:不是喊口號,是真上心
能力強了,風(fēng)險也大了。
Sora 2在每一個環(huán)節(jié)都布下「安全網(wǎng)」:
三層審核:文本提示、上傳素材、視頻逐幀、自動生成的場景描述和音頻轉(zhuǎn)寫,全流程分層分類攔截。有些內(nèi)容在輸入就會被攔,有的生成完還要二次封堵,尤其未成年場景嚴(yán)上加嚴(yán)。
肖像權(quán)與公眾人物保護:剛上線時,禁止用別人的視頻做「換臉」,不支持生成公眾人物。只有你自己驗證授權(quán)后,別人才可以用你的形象做視頻,所有涉及你形象的作品你都能查到、撤回。
青少年守護:青少年賬號內(nèi)容和Cameo權(quán)限都有限制,家長可以通過ChatGPT平臺控制推薦、管理私信甚至關(guān)掉個性化推薦。
可追溯性:視頻下載會帶動態(tài)水印,所有內(nèi)容都嵌入行業(yè)標(biāo)準(zhǔn)元數(shù)據(jù)。官方還開發(fā)了檢測工具,方便未來判斷「是不是AI造的」。
壓力測試:在成人內(nèi)容、極端主義、自傷、暴力、誤導(dǎo)性政治等維度,都有專門評測和紅隊攻防。對違規(guī)攔截率、誤殺率的數(shù)據(jù)都透明公布,核心指標(biāo)大多在95-99%區(qū)間。
核心團隊介紹
在Sora 2官博最后,OpenAI放出了所有參與的成員名單,陣容超豪華。
在這份「電影謝幕工作人員表」中,OpenAI的幾乎所有員工都被拉出來謝幕。
而為我們帶來這場如夢如幻的電影的「總導(dǎo)演」,也就是Sora負(fù)責(zé)人Bill Peebles。
他是一名95后,本科畢業(yè)于MIT計算機專業(yè),后于加州伯克利取得計算機博士學(xué)位。
他曾先后在英偉達(dá)、Adobe、Meta的AI崗實習(xí),博士畢業(yè)后直接加入了OpenAI,工作的最大業(yè)績是Created Sora(創(chuàng)造出了Sora)。
字越少事越大,言簡意賅。
下一步:從玩內(nèi)容到「世界模擬」
OpenAI說,Sora 2不會是終點。
OpenAI坦言它還會犯錯,但路線已經(jīng)明朗:繼續(xù)用更多、更高質(zhì)量的視頻數(shù)據(jù)喂養(yǎng)模型,世界模擬的準(zhǔn)確性和細(xì)節(jié)感會越逼真。
這個進化帶來的不僅僅是讓你玩得爽,更會影響影視廣告、動畫分鏡、教育科普、產(chǎn)品演示,甚至是未來AI機器人「在現(xiàn)實世界里學(xué)本事」。
當(dāng)然,這也意味著欺詐、非自愿肖像、青少年保護等問題會更加突出,需要靠技術(shù)、產(chǎn)品、社區(qū)和政策一起盯著。
你想把自己「丟」進哪個世界?
Sora 2這一波,是真正把視頻生成從「像不像」推向「合不合理」,物理邏輯、鏡頭控制、音畫同步、可玩性和安全性全線升級;
Cameo則把創(chuàng)作從「看別人」變成「玩自己」,讓每個人都能成為主角。
不妨現(xiàn)在就想想:如果有30秒,讓你出現(xiàn)在任何場景,你最想玩點啥?
是和偶像穿越打怪,還是帶寵物環(huán)游地球,或者干脆做自己的動漫主角?
歡迎在評論區(qū)留言告訴我們你的第一條Sora 2創(chuàng)意。
下一個出圈的爆款視頻,也許就來自你手里的Sora。
參考資料:
https://openai.com/index/sora-2/
https://openai.com/index/sora-2-system-card/
https://cdn.openai.com/pdf/50d5973c-c4ff-4c2d-986f-c72b5d0ff069/sora_2_system_card.pdf
https://www.youtube.com/watch?v=gzneGhpXwjU
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.