過去的幾個(gè)月里,視頻生成迎來了爆發(fā)式發(fā)展:OpenAI 發(fā)布了 Sora,谷歌 DeepMind 推出了 Veo 3,初創(chuàng)公司 Runway 也上線了 Gen-4。這些工具都能生成幾乎無法與真實(shí)拍攝或 CGI 動(dòng)畫區(qū)分的視頻片段。與此同時(shí),Netflix 在其劇集《永恒宇航員》(The Eternaut)中首次大規(guī)模使用 AI 生成視覺特效,這是生成視頻技術(shù)首次進(jìn)入大眾電視制作領(lǐng)域。
當(dāng)然,演示片段往往是“精挑細(xì)選”,展示了模型最理想的表現(xiàn)。但隨著這類技術(shù)被越來越多的用戶掌握,哪怕是最普通的創(chuàng)作者,如今也能輕松做出令人驚艷的內(nèi)容。然而,弊端也隨之而來:創(chuàng)作者們不得不與大量的 AI“流水線作品”競爭,社交媒體的信息流也正被虛假的新聞視頻填滿。更重要的是,視頻生成的能耗極高,比文本或圖像生成要高出許多倍。
既然 AI 視頻已經(jīng)無處不在,不妨花點(diǎn)時(shí)間,聊聊它背后的核心技術(shù)。
現(xiàn)在市面上有一系列高端工具,專業(yè)的視頻制作人或許會(huì)把生成模型嵌入他們的工作流中,但對(duì)大多數(shù)人來說,只需在應(yīng)用或網(wǎng)站上輸入指令即可。比如輸入:“嗨,Gemini,給我生成一段獨(dú)角獸吃意大利面的影片?!狈祷氐慕Y(jié)果可能時(shí)好時(shí)壞,通常需要多試幾次,甚至十幾次,才能得到相對(duì)滿意的版本。
那么問題來了:為什么生成結(jié)果參差不齊?為什么這么耗能?答案是:如今的主流視頻生成模型多采用潛在擴(kuò)散 Transformer(latent diffusion transformers)。
想象一下:你有一張清晰的圖片,給它加一層隨機(jī)像素噪聲,再加一層,如此反復(fù),最后你得到的就是一片像老電視機(jī)雪花一樣的“隨機(jī)像素海”。
擴(kuò)散模型(diffusion model)就是一個(gè)神經(jīng)網(wǎng)絡(luò),被訓(xùn)練來逆轉(zhuǎn)這一過程,從雜亂的像素中逐步恢復(fù)出圖像。訓(xùn)練時(shí),模型會(huì)看到數(shù)以百萬計(jì)的不同時(shí)期加噪圖像,并學(xué)習(xí)如何一步步還原。
因此,當(dāng)用戶輸入一個(gè)文本提示詞時(shí),擴(kuò)散模型會(huì)先生成一張隨機(jī)噪聲圖,然后在語言模型的引導(dǎo)下,逐步把它修復(fù)成與你提示相符的圖像。
這里的語言模型之所以能“對(duì)號(hào)入座”,是因?yàn)榇蠖鄶?shù)生成模型都用到了從互聯(lián)網(wǎng)上抓取的海量圖文或圖像-視頻配對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。這意味著模型學(xué)到的世界觀,本質(zhì)上是互聯(lián)網(wǎng)內(nèi)容的“蒸餾版”,不可避免地夾雜著偏見和不良信息。
圖像之外,擴(kuò)散模型也能應(yīng)用于音頻、視頻等數(shù)據(jù)類型。區(qū)別在于:視頻生成不是修復(fù)單張圖片,而是要保證幀與幀之間的一致性。
直接處理視頻的像素?cái)?shù)據(jù)計(jì)算量巨大,因此大多數(shù)視頻生成模型都采用潛在擴(kuò)散(latent diffusion)技術(shù)。這意味著模型并不直接處理數(shù)百萬像素,而是先把視頻幀和文本提示壓縮到一個(gè)潛在空間,即“數(shù)學(xué)編碼”。在這個(gè)空間里,數(shù)據(jù)只保留核心特征,大大降低了計(jì)算量。
就像在線視頻播放,視頻會(huì)被壓縮傳輸,等到播放時(shí)再解壓還原。潛在擴(kuò)散的過程類似,模型在潛在空間中一步步修復(fù)出視頻的編碼,最后再解碼成用戶可以觀看的真實(shí)視頻。
相比常規(guī)擴(kuò)散模型,潛在擴(kuò)散效率更高。但即便如此,視頻生成依然比圖像和文本耗能得多。
要讓生成的視頻在連續(xù)幀之間保持一致性,光靠擴(kuò)散模型還不夠。OpenAI 在 Sora 中提出,把Transformer 融入擴(kuò)散模型中,這已經(jīng)成為行業(yè)標(biāo)準(zhǔn)。
Transformer 本是用來處理長序列數(shù)據(jù)的,比如自然語言模型 GPT-5、Gemini 都依賴它來生成連貫的長文本。視頻生成借鑒了這一點(diǎn):把視頻切分成一個(gè)個(gè)小“立方體片段”,再用 Transformer 來保持整體連貫性。
這樣一來,生成的視頻不再出現(xiàn)“物體突然消失”的問題,尺寸和方向也不受限制,模型可以同時(shí)學(xué)習(xí)短視頻和寬屏大片,從而大幅提升生成質(zhì)量。
Veo 3 帶來的一大突破,是首次能在生成視頻的同時(shí)生成音頻,包括對(duì)口型的對(duì)白、環(huán)境音效、背景音樂等。正如 DeepMind 的 CEO Demis Hassabis 在 Google I/O 上所說:“我們正在走出視頻生成的‘無聲時(shí)代’?!?/p>
技術(shù)上的難點(diǎn)在于如何把音頻和視頻對(duì)齊。DeepMind 的解決方案是:在擴(kuò)散模型中,把音頻和視頻壓縮到同一個(gè)數(shù)據(jù)流里,讓它們?cè)谏蛇^程中同步解碼,確保聲畫匹配。
值得注意的是,擴(kuò)散模型和大型語言模型(LLM)之間的界限正在模糊。今年夏天,DeepMind 就透露正在開發(fā)一種基于擴(kuò)散模型的實(shí)驗(yàn)性語言模型
雖然視頻生成(使用擴(kuò)散模型)會(huì)消耗大量能量,但擴(kuò)散模型本身實(shí)際上比 Transformer 更高效。因此,通過使用擴(kuò)散模型而非 Transformer 來生成文本,谷歌 DeepMind 的全新 LLM 可能會(huì)比現(xiàn)有的 LLM 更高效。期待在不久的將來看到更多來自擴(kuò)散模型的成果!
1.https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.