夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI視頻生成全面起飛,背后的技術(shù)邏輯是什么?

0
分享至



過去的幾個(gè)月里,視頻生成迎來了爆發(fā)式發(fā)展:OpenAI 發(fā)布了 Sora,谷歌 DeepMind 推出了 Veo 3,初創(chuàng)公司 Runway 也上線了 Gen-4。這些工具都能生成幾乎無法與真實(shí)拍攝或 CGI 動(dòng)畫區(qū)分的視頻片段。與此同時(shí),Netflix 在其劇集《永恒宇航員》(The Eternaut)中首次大規(guī)模使用 AI 生成視覺特效,這是生成視頻技術(shù)首次進(jìn)入大眾電視制作領(lǐng)域。

當(dāng)然,演示片段往往是“精挑細(xì)選”,展示了模型最理想的表現(xiàn)。但隨著這類技術(shù)被越來越多的用戶掌握,哪怕是最普通的創(chuàng)作者,如今也能輕松做出令人驚艷的內(nèi)容。然而,弊端也隨之而來:創(chuàng)作者們不得不與大量的 AI“流水線作品”競爭,社交媒體的信息流也正被虛假的新聞視頻填滿。更重要的是,視頻生成的能耗極高,比文本或圖像生成要高出許多倍。

既然 AI 視頻已經(jīng)無處不在,不妨花點(diǎn)時(shí)間,聊聊它背后的核心技術(shù)。

現(xiàn)在市面上有一系列高端工具,專業(yè)的視頻制作人或許會(huì)把生成模型嵌入他們的工作流中,但對(duì)大多數(shù)人來說,只需在應(yīng)用或網(wǎng)站上輸入指令即可。比如輸入:“嗨,Gemini,給我生成一段獨(dú)角獸吃意大利面的影片?!狈祷氐慕Y(jié)果可能時(shí)好時(shí)壞,通常需要多試幾次,甚至十幾次,才能得到相對(duì)滿意的版本。

那么問題來了:為什么生成結(jié)果參差不齊?為什么這么耗能?答案是:如今的主流視頻生成模型多采用潛在擴(kuò)散 Transformer(latent diffusion transformers)。

想象一下:你有一張清晰的圖片,給它加一層隨機(jī)像素噪聲,再加一層,如此反復(fù),最后你得到的就是一片像老電視機(jī)雪花一樣的“隨機(jī)像素海”。

擴(kuò)散模型(diffusion model)就是一個(gè)神經(jīng)網(wǎng)絡(luò),被訓(xùn)練來逆轉(zhuǎn)這一過程,從雜亂的像素中逐步恢復(fù)出圖像。訓(xùn)練時(shí),模型會(huì)看到數(shù)以百萬計(jì)的不同時(shí)期加噪圖像,并學(xué)習(xí)如何一步步還原。

因此,當(dāng)用戶輸入一個(gè)文本提示詞時(shí),擴(kuò)散模型會(huì)先生成一張隨機(jī)噪聲圖,然后在語言模型的引導(dǎo)下,逐步把它修復(fù)成與你提示相符的圖像。

這里的語言模型之所以能“對(duì)號(hào)入座”,是因?yàn)榇蠖鄶?shù)生成模型都用到了從互聯(lián)網(wǎng)上抓取的海量圖文或圖像-視頻配對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。這意味著模型學(xué)到的世界觀,本質(zhì)上是互聯(lián)網(wǎng)內(nèi)容的“蒸餾版”,不可避免地夾雜著偏見和不良信息。

圖像之外,擴(kuò)散模型也能應(yīng)用于音頻、視頻等數(shù)據(jù)類型。區(qū)別在于:視頻生成不是修復(fù)單張圖片,而是要保證幀與幀之間的一致性。

直接處理視頻的像素?cái)?shù)據(jù)計(jì)算量巨大,因此大多數(shù)視頻生成模型都采用潛在擴(kuò)散(latent diffusion)技術(shù)。這意味著模型并不直接處理數(shù)百萬像素,而是先把視頻幀和文本提示壓縮到一個(gè)潛在空間,即“數(shù)學(xué)編碼”。在這個(gè)空間里,數(shù)據(jù)只保留核心特征,大大降低了計(jì)算量。

就像在線視頻播放,視頻會(huì)被壓縮傳輸,等到播放時(shí)再解壓還原。潛在擴(kuò)散的過程類似,模型在潛在空間中一步步修復(fù)出視頻的編碼,最后再解碼成用戶可以觀看的真實(shí)視頻。

相比常規(guī)擴(kuò)散模型,潛在擴(kuò)散效率更高。但即便如此,視頻生成依然比圖像和文本耗能得多。

要讓生成的視頻在連續(xù)幀之間保持一致性,光靠擴(kuò)散模型還不夠。OpenAI 在 Sora 中提出,把Transformer 融入擴(kuò)散模型中,這已經(jīng)成為行業(yè)標(biāo)準(zhǔn)。

Transformer 本是用來處理長序列數(shù)據(jù)的,比如自然語言模型 GPT-5、Gemini 都依賴它來生成連貫的長文本。視頻生成借鑒了這一點(diǎn):把視頻切分成一個(gè)個(gè)小“立方體片段”,再用 Transformer 來保持整體連貫性。

這樣一來,生成的視頻不再出現(xiàn)“物體突然消失”的問題,尺寸和方向也不受限制,模型可以同時(shí)學(xué)習(xí)短視頻和寬屏大片,從而大幅提升生成質(zhì)量。

Veo 3 帶來的一大突破,是首次能在生成視頻的同時(shí)生成音頻,包括對(duì)口型的對(duì)白、環(huán)境音效、背景音樂等。正如 DeepMind 的 CEO Demis Hassabis 在 Google I/O 上所說:“我們正在走出視頻生成的‘無聲時(shí)代’?!?/p>

技術(shù)上的難點(diǎn)在于如何把音頻和視頻對(duì)齊。DeepMind 的解決方案是:在擴(kuò)散模型中,把音頻和視頻壓縮到同一個(gè)數(shù)據(jù)流里,讓它們?cè)谏蛇^程中同步解碼,確保聲畫匹配。

值得注意的是,擴(kuò)散模型和大型語言模型(LLM)之間的界限正在模糊。今年夏天,DeepMind 就透露正在開發(fā)一種基于擴(kuò)散模型的實(shí)驗(yàn)性語言模型

雖然視頻生成(使用擴(kuò)散模型)會(huì)消耗大量能量,但擴(kuò)散模型本身實(shí)際上比 Transformer 更高效。因此,通過使用擴(kuò)散模型而非 Transformer 來生成文本,谷歌 DeepMind 的全新 LLM 可能會(huì)比現(xiàn)有的 LLM 更高效。期待在不久的將來看到更多來自擴(kuò)散模型的成果!

1.https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新藥實(shí)驗(yàn)操作中兩員工窒息死亡,調(diào)查報(bào)告公布!知名上市公司總裁被建議處罰,其年薪超190萬元,公司曾因兩女員工實(shí)驗(yàn)室互毆刷屏

新藥實(shí)驗(yàn)操作中兩員工窒息死亡,調(diào)查報(bào)告公布!知名上市公司總裁被建議處罰,其年薪超190萬元,公司曾因兩女員工實(shí)驗(yàn)室互毆刷屏

每日經(jīng)濟(jì)新聞
2025-09-21 10:58:43
干得漂亮!網(wǎng)傳南京理工一男生走錯(cuò)女浴室被女生掛網(wǎng)上,結(jié)局亮了

干得漂亮!網(wǎng)傳南京理工一男生走錯(cuò)女浴室被女生掛網(wǎng)上,結(jié)局亮了

火山詩話
2025-09-21 06:15:18
邁阿密國際3-2華盛頓特區(qū)聯(lián),梅西雙響+助攻,西爾維蒂失點(diǎn)

邁阿密國際3-2華盛頓特區(qū)聯(lián),梅西雙響+助攻,西爾維蒂失點(diǎn)

懂球帝
2025-09-21 09:57:28
白宮:H-1B簽證手續(xù)費(fèi)10萬美元!一次性繳納,只適用于新申請(qǐng)者!

白宮:H-1B簽證手續(xù)費(fèi)10萬美元!一次性繳納,只適用于新申請(qǐng)者!

AI商業(yè)論
2025-09-21 08:21:17
479元一根的蘋果17掛繩真有人買:王自如曬上身效果 感受下

479元一根的蘋果17掛繩真有人買:王自如曬上身效果 感受下

安兔兔
2025-09-20 22:08:08
上海炒股大賽冠軍肺腑之言:洗盤如果散戶洗不掉,莊家會(huì)怎么辦?

上海炒股大賽冠軍肺腑之言:洗盤如果散戶洗不掉,莊家會(huì)怎么辦?

股經(jīng)縱橫談
2025-09-20 17:34:28
36歲廣東男按摩師,從業(yè)幾十年,來按摩的女客人從來不單是為按摩

36歲廣東男按摩師,從業(yè)幾十年,來按摩的女客人從來不單是為按摩

云端小院
2025-09-21 07:43:37
看懂了敘利亞變天,也就懂了波蘭為何阻斷中歐班列,無非兩點(diǎn)原因

看懂了敘利亞變天,也就懂了波蘭為何阻斷中歐班列,無非兩點(diǎn)原因

時(shí)時(shí)有聊
2025-09-20 19:48:05
“風(fēng)王”剛剛誕生,臺(tái)風(fēng)今起影響廈門!大風(fēng)!大雨!中雨!

“風(fēng)王”剛剛誕生,臺(tái)風(fēng)今起影響廈門!大風(fēng)!大雨!中雨!

魯中晨報(bào)
2025-09-21 11:01:12
全智賢被抵制后續(xù):廣告撤回、代言下架,如今連迪士尼也被扯進(jìn)去

全智賢被抵制后續(xù):廣告撤回、代言下架,如今連迪士尼也被扯進(jìn)去

甜檸聊史
2025-09-20 23:25:09
爺青回 50歲小李子近照曝光,顏值回春瘦成閃電,這是受啥刺激了

爺青回 50歲小李子近照曝光,顏值回春瘦成閃電,這是受啥刺激了

洲洲影視娛評(píng)
2025-09-20 22:56:45
C919連續(xù)曝出零訂單新聞,網(wǎng)友們分析出背后原因了

C919連續(xù)曝出零訂單新聞,網(wǎng)友們分析出背后原因了

清暉有墨
2025-09-20 11:45:43
從福建跨省履新的他,有新職(附簡歷)

從福建跨省履新的他,有新職(附簡歷)

魯中晨報(bào)
2025-09-21 11:29:04
米格-31竄犯愛沙尼亞,進(jìn)入F-35射程才離開!當(dāng)年僅17秒就被擊落

米格-31竄犯愛沙尼亞,進(jìn)入F-35射程才離開!當(dāng)年僅17秒就被擊落

鷹眼Defence
2025-09-20 16:58:14
對(duì)手球迷高喊梅西!C羅雙響打臉,指著耳朵微笑:大聲點(diǎn)我聽不見

對(duì)手球迷高喊梅西!C羅雙響打臉,指著耳朵微笑:大聲點(diǎn)我聽不見

念洲
2025-09-21 07:47:52
5-1!40歲C羅雙響+生涯第945球,獲8.7分,率隊(duì)3戰(zhàn)全勝領(lǐng)跑沙特聯(lián)

5-1!40歲C羅雙響+生涯第945球,獲8.7分,率隊(duì)3戰(zhàn)全勝領(lǐng)跑沙特聯(lián)

我愛英超
2025-09-21 04:20:42
賺錢的公司都不要了,江蘇女老板套現(xiàn)3.3億,果斷離場

賺錢的公司都不要了,江蘇女老板套現(xiàn)3.3億,果斷離場

今日美食分享
2025-09-20 17:20:18
這才是大殺器!以色列“鐵束”激光系統(tǒng),兩美元摧毀百萬美元導(dǎo)彈

這才是大殺器!以色列“鐵束”激光系統(tǒng),兩美元摧毀百萬美元導(dǎo)彈

史政先鋒
2025-09-19 21:50:24
朱時(shí)茂沒想到,《731》上映僅1天,陳佩斯因一特殊舉動(dòng)口碑暴漲

朱時(shí)茂沒想到,《731》上映僅1天,陳佩斯因一特殊舉動(dòng)口碑暴漲

小丸子的娛樂圈
2025-09-19 13:32:48
剛剛,日本氫電池重大突破!氫動(dòng)力氫能源時(shí)代或?qū)⒌絹恚?>
    </a>
        <h3>
      <a href=徐德文科學(xué)頻道
2025-09-20 21:23:36
2025-09-21 13:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15645文章數(shù) 514099關(guān)注度
往期回顧 全部

科技要聞

蔚來全新ES8正式上市:售價(jià)40.68萬元起

頭條要聞

11國將承認(rèn)巴勒斯坦國之際 美國追加60億美元對(duì)以軍售

頭條要聞

11國將承認(rèn)巴勒斯坦國之際 美國追加60億美元對(duì)以軍售

體育要聞

利物浦1.36億新援尷尬?0射1黃+7場仍0球

娛樂要聞

干啥都拿獎(jiǎng)!85號(hào)賽車手王一博拿下季軍

財(cái)經(jīng)要聞

OpenAI想殺入蘋果“腹地”

汽車要聞

全系華為+寧德時(shí)代 阿維塔07 26款售21.99萬元起

態(tài)度原創(chuàng)

家居
親子
旅游
手機(jī)
公開課

家居要聞

公共藝術(shù) 限時(shí)體驗(yàn)打造

親子要聞

這些動(dòng)畫片,孩子越看越聰明~

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

5-6K華為稱王,蘋果第二,小米第三

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 久久久成人一区二区免费影院| 激情熟妇熟女| 欧美人与动牲交精品| 任你躁在线精品免费6| 欧美成人精品三级网站视频| 五十路久久精品中文字幕| 四虎东方av| 亚洲最大在线观看| 日韩影院久久| 亚洲综合色88综合天堂| 色久悠悠综合网址| 伊人久久大香线蕉综合bd高清| xxx欧美另类| 久久夜色精品久久噜噜亚| 欧洲两性网站| 体验区试看120秒啪啪免费| 欧美丰满熟妇性xxxx| 亚洲成片在线看一区二区| 成人久久网xfplay| 久久中文AV| 国产经典1区| 精品人伦一二三区免费| 男人天堂新地址| 干欧美女人视屏| 国产精品一二三四| 国产乱码日韩一区二区三区| 一区av二区| 色人阁影音先锋| 国产一区,二| 农村人甜伦一区二区三区| 依依成人精品视频在线观看| 777奇米成人影视| 亚洲熟妇av一区二区三区宅男| 国产精品国产三级国产av主播 | 成人影院一区二区色| 亚洲AV无码成人片在线观看黑料| 国产爆乳无码| 久久九九有精品国产尤物| 八区国产精品| 国产综合精品91老熟女| 人人妇人人干搞|