智東西
作者 李水青
編輯 心緣
智東西10月1日?qǐng)?bào)道,今日凌晨,OpenAI發(fā)布了旗艦視頻和音頻生成模型Sora 2,并推出“AI版抖音”——Sora應(yīng)用程序。
OpenAI將Sora 2稱作“正直奔視頻領(lǐng)域的GPT-3.5時(shí)刻”。相比之前的Sora,Sora 2能更加精準(zhǔn)逼真地模擬物理世界,并且更易于控制,還支持同步對(duì)話和音效。
從官方公布的視頻Demo來看,它可以完成一些對(duì)于之前的視頻生成模型難以完成的事情:奧運(yùn)會(huì)體操動(dòng)作、精準(zhǔn)模擬浮力和槳板上后空翻,以及花滑運(yùn)動(dòng)員頭頂貓咪的三周半跳。
▲提示詞:花樣滑冰運(yùn)動(dòng)員頭頂一只貓表演三周半跳
Sora應(yīng)用程序定位一款社交App,支持用戶將自己生成的視頻上傳,并通過“客串”功能讓用戶參與到好友視頻創(chuàng)作中。OpenAI的目標(biāo)是試圖打造一種全新獨(dú)特的人際溝通方式。
▲OpenAI推出社交App Sora
目前,Sora iOS應(yīng)用程序現(xiàn)已開放下載,以邀請(qǐng)制的形式在美國和加拿大推出。獲得邀請(qǐng)碼的用戶也可在Sora官網(wǎng)免費(fèi)體驗(yàn)Sora 2,ChatGPT Pro用戶可以體驗(yàn)更高質(zhì)量的Sora 2 Pro模型。
Sora 2一經(jīng)發(fā)布就在外網(wǎng)炸開了鍋,有大部分人是求邀請(qǐng)碼的,有小部分人已拿到邀請(qǐng)碼。社交平臺(tái)X上立馬出現(xiàn)了不少Sora 2生成視頻,甚至連OpenAI CEO薩姆·阿爾特曼都被“玩壞了”。
同時(shí)也有不少人感到擔(dān)憂,X上的一位用戶稱:“幾個(gè)月后,我們將無法區(qū)分什么是真實(shí)的,什么不是真實(shí)的,那將是一個(gè)可怕的時(shí)代?!?/p>
▲社交平臺(tái)X的網(wǎng)友評(píng)論
一、Sora 2來了:“視頻領(lǐng)域的GPT-3.5時(shí)刻”
OpenAI稱,2024年2月發(fā)布的Sora在很多方面都堪稱視頻領(lǐng)域的“GPT-1 時(shí)刻”——視頻生成首次開始顯現(xiàn)成效,通過擴(kuò)展預(yù)訓(xùn)練計(jì)算能力,物體持久性等需求得以實(shí)現(xiàn)。
OpenAI將Sora 2稱作“正直奔視頻領(lǐng)域的GPT-3.5時(shí)刻”。先前的視頻模常常使得物體變形并扭曲現(xiàn)實(shí),以便成功執(zhí)行文本提示。例如,如果籃球運(yùn)動(dòng)員投籃不中,球可能會(huì)自動(dòng)傳送到籃筐。但在Sora 2中,如果籃球運(yùn)動(dòng)員投籃不中,球會(huì)從籃板上反彈。
還比如,下面這個(gè)Sora 2生成的后空翻視頻,表演者甚至在落地后有一些踉蹌,且臉上出現(xiàn)了因小失誤有些尷尬的表情,很像真實(shí)生活中的場景。
▲提示詞:一個(gè)人做后空翻
有趣的是,該模型犯下的“錯(cuò)誤”往往看起來像是Sora 2 隱式建模的內(nèi)部智能體所犯的錯(cuò)誤;盡管它仍然不完美,但與先前的系統(tǒng)相比,它在遵循物理定律方面做得更好。
OpenAI認(rèn)為,對(duì)于任何有用的世界模擬器來說,這都是一項(xiàng)極其重要的能力——你必須能夠模擬失敗,而不僅僅是成功。
該模型在可控性方面也實(shí)現(xiàn)了巨大的飛躍,能夠執(zhí)行跨越多個(gè)鏡頭的復(fù)雜指令,同時(shí)精準(zhǔn)地保留世界狀態(tài)。它擅長處理寫實(shí)、電影和動(dòng)漫風(fēng)格。
▲提示詞:維京人參戰(zhàn)——北海發(fā)射(10.0 秒,冬季涼爽的日光/中世紀(jì)早期)……
作為通用的視頻音頻生成系統(tǒng),它能夠創(chuàng)建具有高度真實(shí)感的復(fù)雜背景音景、語音和音效。
▲提示詞:兩名身穿亮色技術(shù)盔甲的登山探險(xiǎn)者,臉上結(jié)滿冰霜,瞇著眼睛,急切地在雪地里喊叫,一次一個(gè)
用戶還可以將現(xiàn)實(shí)世界的元素直接注入Sora 2。例如,通過觀察我們一位隊(duì)友的視頻,該模型可以將其插入到任何由Sora生成的環(huán)境中,并準(zhǔn)確刻畫其外貌和聲音。這項(xiàng)功能非常通用,適用于任何人類、動(dòng)物或物體。
▲提示詞:大腳對(duì)他真的很好,有點(diǎn)兒太好了,好得有點(diǎn)兒古怪。大腳想跟他一起玩,但他想玩得太多了。
OpenAI稱,該模型遠(yuǎn)非完美,并且存在很多錯(cuò)誤,但它證實(shí)了進(jìn)一步擴(kuò)大視頻數(shù)據(jù)上的神經(jīng)網(wǎng)絡(luò)將使我們更接近模擬現(xiàn)實(shí)。
二、AI版抖音推出,真人“客串”視頻,新社交神器?
今天,OpenAI還推出了一款名為“Sora”的全新iOS社交應(yīng)用,該應(yīng)用由Sora 2提供支持。
在應(yīng)用中,用戶可以創(chuàng)作、混錄彼此的創(chuàng)作風(fēng)格,在可自定義的Sora動(dòng)態(tài)中發(fā)現(xiàn)新視頻,并通過“客串(Cameos)”功能將自己或好友引入到視頻中。使用客串功能,用戶只需在應(yīng)用中進(jìn)行一次簡短的音視頻錄制,即可以驚人的保真度將自己直接帶入任何Sora場景。
這看起來像一款A(yù)I版的抖音或TikTok,而OpenAI認(rèn)為,圍繞這項(xiàng)“客串”功能構(gòu)建的社交應(yīng)用是Sora 2體驗(yàn)的魅力所在。
幾個(gè)月前,OpenAI在Sora團(tuán)隊(duì)開始嘗試“上傳自己生成的視頻”的功能,他們都玩得很開心。OpenAI稱,這感覺就像是溝通方式的自然演變——從短信到表情符號(hào),再到語音備忘錄,再到現(xiàn)在的視頻。
上周,OpenAI向全體員工內(nèi)部發(fā)布了這款應(yīng)用。已經(jīng)有同事反饋,他們通過這項(xiàng)功能在公司結(jié)識(shí)了新朋友。
三、邀請(qǐng)制推出,Sora 2免費(fèi)可用,Pro用戶體驗(yàn)更高級(jí)
OpenAI將Sora應(yīng)用以邀請(qǐng)制的形式推出,確保用戶能與好友一同使用。
收到邀請(qǐng)后,用戶還可以通過sora.com訪問Sora 2 。Sora 2最初將免費(fèi)提供,但這些功能仍受計(jì)算能力限制。ChatGPT Pro用戶還可以在sora.com上使用實(shí)驗(yàn)性的、更高質(zhì)量的Sora 2 Pro模型。
OpenAI還計(jì)劃在API中發(fā)布Sora 2。Sora 1 Turbo將繼續(xù)可用,用戶創(chuàng)建的所有內(nèi)容也將繼續(xù)存在于sora.com中。
為了防止上癮等問題,OpenAI將采取一系列措施。
一是其將為用戶提供工具和自主選擇權(quán),讓他們能夠掌控信息流中的內(nèi)容。利用OpenAI現(xiàn)有的大型語言模型,其開發(fā)了一類新的推薦算法,可以通過自然語言進(jìn)行指導(dǎo);還內(nèi)置了定期調(diào)查用戶健康狀況的機(jī)制,并主動(dòng)為他們提供調(diào)整信息流的選項(xiàng)。
默認(rèn)情況下,OpenAI會(huì)向用戶顯示主要針對(duì)關(guān)注或互動(dòng)的人的內(nèi)容,并優(yōu)先顯示模型認(rèn)為用戶最有可能用作創(chuàng)作靈感的視頻;不會(huì)針對(duì)用戶在動(dòng)態(tài)信息流中花費(fèi)的時(shí)間進(jìn)行優(yōu)化,明確設(shè)計(jì)這款應(yīng)用的初衷是最大限度地提升創(chuàng)作量,而非消費(fèi)量。
在青少年保護(hù)方面,OpenAI將通過ChatGPT推出Sora家長控制功能,以便家長可以覆蓋無限滾動(dòng)限制、關(guān)閉算法個(gè)性化以及管理私信設(shè)置。
在客串功能方面,用戶可以與Sora端到端地掌控肖像。只有用戶本人才能決定誰可以使用自己的客串,并且可以隨時(shí)撤銷訪問權(quán)限或移除包含該客串的任何視頻。用戶可以隨時(shí)查看包含您客串的視頻,包括其他人創(chuàng)建的草稿。
OpenAI在這款應(yīng)用中處理了許多安全問題,例如肖像使用方面的知情同意、出處確認(rèn)、防止有害內(nèi)容的生成等等。
其他應(yīng)用的很多問題都源于其盈利模式。OpenAI目前唯一的計(jì)劃是,如果需求量相對(duì)于可用計(jì)算能力過大,最終允許用戶選擇支付一定金額來生成額外的視頻。
結(jié)語:Sora 2憋大招,或推動(dòng)視頻生成產(chǎn)業(yè)洗牌
自O(shè)penAI在2024年2月發(fā)布Sora已經(jīng)過去超一年半時(shí)間,Sora 2終于到來。從效果來看,這款模型在模擬真實(shí)性、可控性及音效方面都有比較大的進(jìn)展,有望推動(dòng)視頻生成產(chǎn)業(yè)格局加速洗牌。
視頻模型正在飛速發(fā)展,通用世界模擬器不僅提供了新的內(nèi)容生成方式,還有望重塑人際溝通方式。OpenAI正通過全新的Sora社交App靠近這一目標(biāo),也標(biāo)志視頻生成模型在落地應(yīng)用上更加成熟。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.