網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI視頻生成全面起飛，背后的技術(shù)邏輯是什么？

2025-09-17 14:52:11　來源: DeepTech深科技

北京舉報(bào)

分享至

過去的幾個(gè)月里，視頻生成迎來了爆發(fā)式發(fā)展：OpenAI 發(fā)布了 Sora，谷歌 DeepMind 推出了 Veo 3，初創(chuàng)公司 Runway 也上線了 Gen-4。這些工具都能生成幾乎無法與真實(shí)拍攝或 CGI 動(dòng)畫區(qū)分的視頻片段。與此同時(shí)，Netflix 在其劇集《永恒宇航員》（The Eternaut）中首次大規(guī)模使用 AI 生成視覺特效，這是生成視頻技術(shù)首次進(jìn)入大眾電視制作領(lǐng)域。

當(dāng)然，演示片段往往是“精挑細(xì)選”，展示了模型最理想的表現(xiàn)。但隨著這類技術(shù)被越來越多的用戶掌握，哪怕是最普通的創(chuàng)作者，如今也能輕松做出令人驚艷的內(nèi)容。然而，弊端也隨之而來：創(chuàng)作者們不得不與大量的 AI“流水線作品”競爭，社交媒體的信息流也正被虛假的新聞視頻填滿。更重要的是，視頻生成的能耗極高，比文本或圖像生成要高出許多倍。

既然 AI 視頻已經(jīng)無處不在，不妨花點(diǎn)時(shí)間，聊聊它背后的核心技術(shù)。

現(xiàn)在市面上有一系列高端工具，專業(yè)的視頻制作人或許會(huì)把生成模型嵌入他們的工作流中，但對(duì)大多數(shù)人來說，只需在應(yīng)用或網(wǎng)站上輸入指令即可。比如輸入：“嗨，Gemini，給我生成一段獨(dú)角獸吃意大利面的影片?！狈祷氐慕Y(jié)果可能時(shí)好時(shí)壞，通常需要多試幾次，甚至十幾次，才能得到相對(duì)滿意的版本。

那么問題來了：為什么生成結(jié)果參差不齊？為什么這么耗能？答案是：如今的主流視頻生成模型多采用潛在擴(kuò)散 Transformer（latent diffusion transformers）。

想象一下：你有一張清晰的圖片，給它加一層隨機(jī)像素噪聲，再加一層，如此反復(fù)，最后你得到的就是一片像老電視機(jī)雪花一樣的“隨機(jī)像素海”。

擴(kuò)散模型（diffusion model）就是一個(gè)神經(jīng)網(wǎng)絡(luò)，被訓(xùn)練來逆轉(zhuǎn)這一過程，從雜亂的像素中逐步恢復(fù)出圖像。訓(xùn)練時(shí)，模型會(huì)看到數(shù)以百萬計(jì)的不同時(shí)期加噪圖像，并學(xué)習(xí)如何一步步還原。

因此，當(dāng)用戶輸入一個(gè)文本提示詞時(shí)，擴(kuò)散模型會(huì)先生成一張隨機(jī)噪聲圖，然后在語言模型的引導(dǎo)下，逐步把它修復(fù)成與你提示相符的圖像。

這里的語言模型之所以能“對(duì)號(hào)入座”，是因?yàn)榇蠖鄶?shù)生成模型都用到了從互聯(lián)網(wǎng)上抓取的海量圖文或圖像-視頻配對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。這意味著模型學(xué)到的世界觀，本質(zhì)上是互聯(lián)網(wǎng)內(nèi)容的“蒸餾版”，不可避免地夾雜著偏見和不良信息。

圖像之外，擴(kuò)散模型也能應(yīng)用于音頻、視頻等數(shù)據(jù)類型。區(qū)別在于：視頻生成不是修復(fù)單張圖片，而是要保證幀與幀之間的一致性。

直接處理視頻的像素?cái)?shù)據(jù)計(jì)算量巨大，因此大多數(shù)視頻生成模型都采用潛在擴(kuò)散（latent diffusion）技術(shù)。這意味著模型并不直接處理數(shù)百萬像素，而是先把視頻幀和文本提示壓縮到一個(gè)潛在空間，即“數(shù)學(xué)編碼”。在這個(gè)空間里，數(shù)據(jù)只保留核心特征，大大降低了計(jì)算量。

就像在線視頻播放，視頻會(huì)被壓縮傳輸，等到播放時(shí)再解壓還原。潛在擴(kuò)散的過程類似，模型在潛在空間中一步步修復(fù)出視頻的編碼，最后再解碼成用戶可以觀看的真實(shí)視頻。

相比常規(guī)擴(kuò)散模型，潛在擴(kuò)散效率更高。但即便如此，視頻生成依然比圖像和文本耗能得多。

要讓生成的視頻在連續(xù)幀之間保持一致性，光靠擴(kuò)散模型還不夠。OpenAI 在 Sora 中提出，把Transformer 融入擴(kuò)散模型中，這已經(jīng)成為行業(yè)標(biāo)準(zhǔn)。

Transformer 本是用來處理長序列數(shù)據(jù)的，比如自然語言模型 GPT-5、Gemini 都依賴它來生成連貫的長文本。視頻生成借鑒了這一點(diǎn)：把視頻切分成一個(gè)個(gè)小“立方體片段”，再用 Transformer 來保持整體連貫性。

這樣一來，生成的視頻不再出現(xiàn)“物體突然消失”的問題，尺寸和方向也不受限制，模型可以同時(shí)學(xué)習(xí)短視頻和寬屏大片，從而大幅提升生成質(zhì)量。

Veo 3 帶來的一大突破，是首次能在生成視頻的同時(shí)生成音頻，包括對(duì)口型的對(duì)白、環(huán)境音效、背景音樂等。正如 DeepMind 的 CEO Demis Hassabis 在 Google I/O 上所說：“我們正在走出視頻生成的‘無聲時(shí)代’?！?/p>

技術(shù)上的難點(diǎn)在于如何把音頻和視頻對(duì)齊。DeepMind 的解決方案是：在擴(kuò)散模型中，把音頻和視頻壓縮到同一個(gè)數(shù)據(jù)流里，讓它們?cè)谏蛇^程中同步解碼，確保聲畫匹配。

值得注意的是，擴(kuò)散模型和大型語言模型（LLM）之間的界限正在模糊。今年夏天，DeepMind 就透露正在開發(fā)一種基于擴(kuò)散模型的實(shí)驗(yàn)性語言模型

雖然視頻生成（使用擴(kuò)散模型）會(huì)消耗大量能量，但擴(kuò)散模型本身實(shí)際上比 Transformer 更高效。因此，通過使用擴(kuò)散模型而非 Transformer 來生成文本，谷歌 DeepMind 的全新 LLM 可能會(huì)比現(xiàn)有的 LLM 更高效。期待在不久的將來看到更多來自擴(kuò)散模型的成果！

1.https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.