AI大神卡帕西投錢！全球首個直播生成模型發(fā)布，實時生成無時長限制

2025-07-19 12:16:46　來源: 智東西

北京舉報

分享至

智東西
編譯李水青
編輯漠影

智東西7月19日報道，昨日，以色列AI創(chuàng)企Decart推出首個直播擴散AI視頻模型——MirageLSD。不同于Veo等市面上時長有限、存在延時的視頻生成模型，Mirage可以實時轉(zhuǎn)換無限長的視頻流，響應時間小于40毫秒。

前特斯拉AI總監(jiān)、OpenAI創(chuàng)始團隊成員Andrej Karpathy在社交平臺X上稱：“Veo等視頻擴散模型很神奇，但它們需要花費數(shù)秒/數(shù)分鐘才能生成，MirageLSD是實時的魔法?！彼J為這將是一項通用和強大的技術(shù)，有望改變游戲、直播、視頻通話、影視、會議、AR/VR等多種領(lǐng)域。

Decart創(chuàng)立于2023年，由Andrej Karpathy參與投資，Mirage是Decart繼“AI版我的世界” Oasis之后推出的第二個模型。目前，由MirageLSD模型驅(qū)動的Mirage平臺已上線，iOS、Android版本預計下周上線。

體驗地址：https://mirage.decart.ai/

一、Andrej Karpathy強推：實時的魔法，改變游戲直播行業(yè)

在社交平臺X中，AI大神Andrej Karpathy激動地稱：”擴散視頻模型現(xiàn)在支持實時生成了！“

Andrej Karpathy談道，此前，簡單的視頻濾鏡支持實時生成，但大多只能進行基本的重新著色和樣式設(shè)置。市面上已有的Veo等視頻擴散模型很神奇，但它們需要花費數(shù)秒甚至數(shù)分鐘才能生成。MirageLSD就是實時魔法。與簡單的視頻濾鏡不同，擴散模型實際上理解它們正在查看的內(nèi)容，因此它們可以智能地設(shè)置視頻源所有部分的樣式，例如將帽子戴在頭上，或?qū)⒐鈩Υ髟谑稚系取?/p>

Andrej Karpathy還稱，該模型可以任意操控，例如通過文本提示來進行操控。可定制的智能視頻濾鏡會隨著時間的推移解鎖許多酷炫的想法：

-將攝像頭畫面轉(zhuǎn)化為虛擬實景；

▲攝像機拍攝畫面實時生成視頻（源自：Decart官網(wǎng)）

-執(zhí)導并拍攝自己的電影，使用道具演繹場景，實時拍攝且即時回看；

▲實景道具演繹視頻實時變3D卡通動畫（源自：Decart官網(wǎng)）

-圍繞簡單的球體或方塊生成有氛圍的代碼游戲，然后借助實時擴散模型為游戲添加紋理，使其變得精美；

▲生成游戲畫面（源自：Decart官網(wǎng)）

-對任意視頻流進行風格化處理和自定義：游戲、視頻…… 比如，《上古卷軸 5：天際》想更 “史詩感爆棚”？《毀滅戰(zhàn)士 2》僅用一個提示詞就能達到現(xiàn)代虛幻引擎的畫質(zhì)？恐怖片想變成 “只有可愛元素、粉色調(diào)與小兔子” 的風格？這誰知道呢！

▲生成游戲畫面（源自：Decart官網(wǎng)）

-Zoom通話背景實時虛擬更換。

-眼鏡：例如，實時卡通化你的視覺？

-現(xiàn)在我們可以打造哈利·波特的厄里斯魔鏡，在鏡子里展現(xiàn)你的“原始畫面”，但會增強你內(nèi)心最深處的渴望（由AI推斷）。

Andrej Karpathy稱，可以設(shè)想的應用場景太多了，他可能錯過了最重要的一點。并且聲明：“我是Decart的小額天使投資人，我很興奮，因為在我看來，這項技術(shù)會很快變得非常好，感覺它很通用、很強大，但技術(shù)難度也很高。祝賀團隊發(fā)布成功！”

二、破解視頻生成“30秒瓶頸”，生成速度提升16倍

MirageLSD是首個實現(xiàn)無限實時零延遲視頻生成的系統(tǒng)。它基于名為“實時流擴散（LSD）”的定制模型構(gòu)建，該模型能夠逐幀生成視頻，同時保持時間連貫性。

與以往的方法不同，LSD支持完全交互式的視頻合成——允許在視頻生成過程中持續(xù)進行提示、轉(zhuǎn)換和編輯。

當前的視頻模型無法生成超過30秒的視頻生成，否則會因錯誤累積而導致質(zhì)量嚴重下降。它們通常需要幾分鐘的處理時間才能輸出幾分鐘的視頻。即使是當今最快的實時系統(tǒng)，通常也會分塊生成視頻，從而帶來不可避免的延遲，影響交互使用。

為了實時生成視頻，LSD必須以因果關(guān)系的方式運行——僅基于前一幀生成每一幀。這種自回歸結(jié)構(gòu)確保了連續(xù)性，但也帶來了一個嚴重的缺陷：誤差累積。每一幀都會繼承上一幀的缺陷。微小的誤差累積起來，會導致質(zhì)量迅速下降，直到幀變得不連貫。

啟用LSD需要解決兩個以前從未在單個系統(tǒng)中同時解決的挑戰(zhàn)。

1、基于擴散強制技術(shù)，實現(xiàn)無限生成

為了實現(xiàn)無限的自回歸生成，Mirage研究人員以擴散強制技術(shù)為基礎(chǔ)，進行逐幀去噪；引入了歷史增強功能，使模型能夠針對損壞的輸入歷史幀進行微調(diào)。這教會模型預測并糾正輸入偽影，使其能夠抵御自回歸生成中常見的漂移。

這些操作使得MirageLSD成為第一個能夠無限生成視頻而不會崩潰的模型——穩(wěn)定、可提示，并且與場景和用戶輸入保持一致。

2、速度提高16倍，實時生成視頻

響應度被定義為最壞情況的響應延遲，即使是以前的自回歸模型的響應速度也比MirageLSD慢16倍以上，從而無法實現(xiàn)實時交互。

實時生成要求每幀生成時間不超過40毫秒，以免人眼察覺。Mirage研究人員通過以下方式實現(xiàn)這一目標：

設(shè)計定制的CUDA巨型內(nèi)核，以最小化開銷并最大化吞吐量；基于快捷蒸餾和模型修剪，減少每幀所需的計算量；優(yōu)化模型架構(gòu)以與GPU硬件保持一致，從而實現(xiàn)峰值效率。

總之，這些技術(shù)使響應速度比之前的模型提高了16倍，能夠以24 FPS的速度生成實時視頻。

三、與Veo走差異化路線，首個實時無限視頻生成模型

當下，AI視頻生成方面模型已提高了生成視覺質(zhì)量和時長，但大多數(shù)系統(tǒng)仍然缺少交互性、低延遲和時間穩(wěn)定性。

MovieGen、WAN和Veo等固定長度模型可以生成高質(zhì)量的視頻片段，但它們的非因果設(shè)計和全片段推理會引入延遲，并阻止實時交互或超出預定義長度的擴展。

CausVid、LTX和Seeweed-APT等自回歸模型通過對先前的輸出進行條件化來生成更長的序列，雖然這提高了可擴展性，但分塊推理仍然限制了響應速度，并容易出現(xiàn)錯誤累積，限制了生成長度，并最終導致無法進行真正的交互。

可控生成方法，包括ControlNet和基于LoRA的適配器，可以實現(xiàn)有針對性的編輯和風格轉(zhuǎn)換，但需要離線微調(diào)，不適合實時逐幀提示。

Mirage自身之前的系統(tǒng)Oasis首次在受限域內(nèi)實現(xiàn)了實時因果生成。MirageLSD則將其擴展到開放域、可提示的視頻，具有零延遲、實時速度和無限穩(wěn)定性——這是先前研究無法實現(xiàn)的組合。

結(jié)語：實時無限生成視頻，精確控制仍然有限

MirageLSD雖然實現(xiàn)了實時、可提示且穩(wěn)定的視頻生成，但仍面臨一些挑戰(zhàn)。首先，該系統(tǒng)目前依賴于有限的過去幀窗口。引入長期記憶機制可以提高擴展序列的連貫性，從而實現(xiàn)更一致的角色身份、場景布局和長期動作。

此外，雖然MirageLSD支持文本引導的轉(zhuǎn)換，但對特定對象、空間區(qū)域或運動的精確控制仍然有限。集成結(jié)構(gòu)化控制信號（例如關(guān)鍵點或場景注釋）或許可以在實時場景中實現(xiàn)更精細的用戶控制編輯。

Mirage提出，團隊需要進一步研究來提升語義和幾何一致性，尤其是在極端風格轉(zhuǎn)換的情況下的表現(xiàn)。解決這個問題需要在提示驅(qū)動的指導下建立更強大的內(nèi)容保存機制。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.