網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊發(fā)布的AI框架Yan，會(huì)是元宇宙的破局者嗎？

2025-08-18 23:38:45　來源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

2023年冬天，有一款真人互動(dòng)影像游戲在Steam上發(fā)行，迅速火遍全球，你知道是誰嗎？

在《完蛋！我被美女包圍了！》里，玩家將扮演男主與六位美女展開戀愛攻略。所有的決策都由玩家進(jìn)行選擇，不同選擇對(duì)應(yīng)不同的劇情走向。爆火的原因之一是這種結(jié)局不確定的互動(dòng)式玩法相當(dāng)吸引人。

這個(gè)游戲里不同劇情發(fā)展都是提前錄制好的。

與通過直接錄制視頻的手法不同，這次騰訊做的是直接用AI實(shí)時(shí)生成視頻，畫面根據(jù)玩家的按鍵交互進(jìn)行發(fā)展?！锻甑埃∥冶籝an包圍了！》

2025年8月12日，騰訊Yan團(tuán)隊(duì)發(fā)布同名AI框架Yan，實(shí)現(xiàn)實(shí)時(shí)交互式視頻生成。這個(gè)框架包含三大模塊：Yan-Sim達(dá)到1080P/60FPS實(shí)時(shí)渲染，Yan-Gen支持文字和圖像驅(qū)動(dòng)的世界生成，Yan-Edit允許游戲中實(shí)時(shí)編輯場(chǎng)景結(jié)構(gòu)和風(fēng)格。技術(shù)創(chuàng)新解決了語義漂移、實(shí)時(shí)性能和多模態(tài)融合等關(guān)鍵難題。論文發(fā)表在arXiv上。過去的AI視頻生成技術(shù)就像播放預(yù)先錄制好的電影片段，你只能觀看，無法干預(yù)劇情發(fā)展。但Yan系統(tǒng)完全不同，它更像一個(gè)超級(jí)智能的游戲引擎，能夠根據(jù)你的每一個(gè)操作指令，瞬間調(diào)整畫面內(nèi)容。當(dāng)你按下鍵盤上的前進(jìn)鍵時(shí)，畫面中的角色真的會(huì)向前移動(dòng)；當(dāng)你輸入"把這個(gè)藍(lán)色的平臺(tái)變成紅色"時(shí)，AI會(huì)立即執(zhí)行你的指令，并保持所有物理規(guī)律的真實(shí)感。這項(xiàng)研究的核心創(chuàng)新在于將交互式視頻生成分解為三個(gè)相互配合的模塊。第一個(gè)模塊叫做Yan-Sim，專門負(fù)責(zé)AAA級(jí)別的實(shí)時(shí)模擬，確保每秒60幀的流暢體驗(yàn)。第二個(gè)模塊Yan-Gen處理多模態(tài)生成，能夠理解文字描述和圖像輸入，創(chuàng)造出符合要求的虛擬場(chǎng)景。第三個(gè)模塊Yan-Edit則負(fù)責(zé)多粒度編輯，讓用戶可以隨時(shí)修改場(chǎng)景中的任何元素。突破傳統(tǒng)限制的AAA級(jí)實(shí)時(shí)模擬在傳統(tǒng)的AI視頻生成中，系統(tǒng)需要花費(fèi)大量時(shí)間來"思考"下一幀畫面應(yīng)該是什么樣子，就像一個(gè)畫家需要仔細(xì)觀察、構(gòu)思、然后一筆一筆地繪制。但Yan-Sim采用了一種全新的方法，它預(yù)先學(xué)會(huì)了如何快速"素描"，能夠在瞬間完成復(fù)雜場(chǎng)景的繪制。研究團(tuán)隊(duì)的核心突破在于設(shè)計(jì)了一個(gè)高度壓縮的3D變分自編碼器（3D-VAE）。將壓縮率從1×8×8增加到了2×32×32。為了實(shí)現(xiàn)實(shí)時(shí)響應(yīng)，研究團(tuán)隊(duì)還開發(fā)了移位窗口去噪推理技術(shù)。這個(gè)技術(shù)的工作原理就像一個(gè)高效的清潔工人，不是等所有房間都臟了再一次性打掃，而是持續(xù)地、有序地清理每個(gè)房間。在視頻生成過程中，系統(tǒng)會(huì)同時(shí)處理多個(gè)時(shí)間點(diǎn)的畫面，早期的畫面相對(duì)"干凈"（噪聲較少），后期的畫面比較"臟"（噪聲較多），通過這種方式顯著減少了每幀畫面的平均處理時(shí)間。研究團(tuán)隊(duì)還采用了KV緩存技術(shù)，這就像給AI裝上了短期記憶系統(tǒng)。當(dāng)你在虛擬世界中移動(dòng)時(shí)，AI會(huì)記住剛才看到的場(chǎng)景特征，避免重復(fù)計(jì)算相同的內(nèi)容。這種技術(shù)讓整個(gè)系統(tǒng)的運(yùn)行效率提升了數(shù)倍。為了滿足實(shí)時(shí)性要求，研究團(tuán)隊(duì)還采用了結(jié)構(gòu)剪枝和FP8量化等優(yōu)化策略。結(jié)構(gòu)剪枝就像給一個(gè)復(fù)雜的機(jī)械裝置去掉不必要的零件，讓它更輕便但功能不減。FP8量化則是將原本需要高精度計(jì)算的部分轉(zhuǎn)換為更高效的計(jì)算方式，在幾乎不影響質(zhì)量的前提下，將推理速度提升了1.5到2倍。通過這些技術(shù)的結(jié)合運(yùn)用，Yan-Sim能夠在單個(gè)NVIDIA RTX 4060顯卡上實(shí)現(xiàn)1080P分辨率、60FPS的實(shí)時(shí)交互式視頻生成。測(cè)試結(jié)果顯示，系統(tǒng)的延遲控制在0.07秒以內(nèi)，這意味著當(dāng)你按下操作鍵后，畫面幾乎能夠瞬間響應(yīng)你的指令。多模態(tài)智能生成的創(chuàng)新架構(gòu)Yan-Gen模塊的設(shè)計(jì)理念源于一個(gè)深刻的洞察：要讓AI生成的虛擬世界真正可信，就必須讓它同時(shí)理解文字描述、圖像信息和用戶的操作意圖。研究團(tuán)隊(duì)面臨的最大挑戰(zhàn)是"反漂移"問題。在自回歸式的視頻生成中，AI需要基于前面生成的畫面來創(chuàng)造后續(xù)內(nèi)容。如果前面出現(xiàn)了微小的錯(cuò)誤，這些錯(cuò)誤會(huì)像滾雪球一樣越累越大，最終導(dǎo)致生成的內(nèi)容完全偏離原始意圖。為了解決這個(gè)問題，研究團(tuán)隊(duì)創(chuàng)造性地提出了分層字幕系統(tǒng)。這個(gè)系統(tǒng)的工作方式類似于電影制作中的分鏡頭腳本。全局字幕就像總導(dǎo)演的整體構(gòu)想，描述了虛擬世界的基本設(shè)定、視覺風(fēng)格和環(huán)境條件，這些信息在整個(gè)生成過程中保持不變，為AI提供穩(wěn)定的參考框架。局部字幕則像現(xiàn)場(chǎng)導(dǎo)演的具體指導(dǎo)，描述當(dāng)前場(chǎng)景中正在發(fā)生的具體事件和細(xì)節(jié)變化。全局字幕的生成過程非常有趣。研究團(tuán)隊(duì)會(huì)讓AI觀看一段展現(xiàn)整個(gè)虛擬世界的視頻，然后要求它總結(jié)出三個(gè)核心要素：世界的整體布局（包括主要區(qū)域和連接方式）、視覺主題（色彩搭配、材質(zhì)風(fēng)格、建筑特色）、基礎(chǔ)環(huán)境條件（光照效果、天氣狀況）。這就像讓一個(gè)旅行作家在游覽一個(gè)新城市后，寫出一份能夠幫助其他人快速了解這個(gè)城市特色的簡介。局部字幕則關(guān)注更加細(xì)致的內(nèi)容：當(dāng)前視野范圍內(nèi)的具體場(chǎng)景、正在發(fā)生交互的物體、關(guān)鍵事件（比如角色受傷或任務(wù)完成）。這些信息幫助AI精確地渲染每一個(gè)瞬間的細(xì)節(jié)變化。在技術(shù)實(shí)現(xiàn)上，Yan-Gen基于預(yù)訓(xùn)練的Wan模型進(jìn)行開發(fā)，通過低秩適應(yīng)（LoRA）微調(diào)技術(shù)來適應(yīng)交互式視頻數(shù)據(jù)的特點(diǎn)。研究團(tuán)隊(duì)巧妙地設(shè)計(jì)了一個(gè)多模態(tài)條件注入機(jī)制，文本信息通過umt5-xxl編碼器處理，圖像信息通過ViT-H-14視覺編碼器處理，而動(dòng)作信號(hào)則通過專門的多層感知機(jī)處理。這三種不同類型的信息通過解耦的交叉注意力層分別注入到生成模型中，確保AI能夠同時(shí)理解和響應(yīng)多種不同的輸入信號(hào)。為了實(shí)現(xiàn)真正的實(shí)時(shí)交互，研究團(tuán)隊(duì)還開發(fā)了一個(gè)創(chuàng)新的后訓(xùn)練流程。首先，他們使用自回歸初始化技術(shù)，讓AI學(xué)會(huì)預(yù)測(cè)視頻序列中的關(guān)鍵時(shí)間點(diǎn)。然后通過因果注意力機(jī)制的改造，確保每一幀的生成只依賴于之前的歷史信息，而不會(huì)"偷看"未來的內(nèi)容。最后，他們使用分布匹配蒸餾技術(shù)，將原本需要多步計(jì)算的復(fù)雜模型壓縮成只需要4步就能完成的高效模型。這種設(shè)計(jì)讓Yan-Gen能夠在單個(gè)NVIDIA H20顯卡上實(shí)現(xiàn)12-17FPS的實(shí)時(shí)生成速度，如果使用4塊顯卡并行計(jì)算，速度可以提升到30FPS。更重要的是，整個(gè)系統(tǒng)支持無限長度的內(nèi)容生成，用戶可以在虛擬世界中無限探索，而不會(huì)受到預(yù)設(shè)內(nèi)容長度的限制。革命性的多粒度實(shí)時(shí)編輯能力Yan-Edit模塊代表了交互式視頻編輯領(lǐng)域的一個(gè)重大突破。以往的視頻編輯系統(tǒng)就像傳統(tǒng)的膠片剪輯，你必須停下播放，仔細(xì)編輯某個(gè)片段，然后重新播放才能看到效果。但Yan-Edit可以在視頻播放的過程中隨時(shí)改變?nèi)魏文阆胍薷牡膬?nèi)容。這個(gè)模塊的核心創(chuàng)新在于將交互式機(jī)制模擬與視覺渲染徹底分離?？梢园堰@種設(shè)計(jì)想象成一個(gè)雙層結(jié)構(gòu)的娛樂設(shè)施：底層是一個(gè)精密的機(jī)械裝置，負(fù)責(zé)控制所有的運(yùn)動(dòng)軌跡和物理規(guī)律；上層是一個(gè)靈活的裝飾系統(tǒng)，負(fù)責(zé)所有的視覺呈現(xiàn)。當(dāng)你想要改變某個(gè)物體的顏色時(shí)，只需要調(diào)整上層的裝飾系統(tǒng)，底層的機(jī)械運(yùn)作完全不受影響，所以這個(gè)物體的運(yùn)動(dòng)方式和物理特性保持完全一致。研究團(tuán)隊(duì)首先使用深度估計(jì)技術(shù)為每一幀視頻提取深度圖信息。深度圖就像是物體世界的"骨架透視圖"，它記錄了場(chǎng)景中每個(gè)物體的3D結(jié)構(gòu)和空間位置關(guān)系，但完全不包含顏色、紋理等視覺信息。通過這種方式，AI可以學(xué)會(huì)一種更加通用的交互機(jī)制理解能力，不會(huì)被特定的視覺外觀所干擾。交互式機(jī)制模擬器基于Yan-Sim技術(shù)構(gòu)建，專門負(fù)責(zé)學(xué)習(xí)基于深度圖的結(jié)構(gòu)相關(guān)交互規(guī)律。當(dāng)用戶輸入"在場(chǎng)景中添加一個(gè)圓柱形風(fēng)扇"這樣的結(jié)構(gòu)指令時(shí)，這個(gè)模擬器會(huì)在深度圖層面添加相應(yīng)的3D結(jié)構(gòu)，并確保新添加的物體遵循正確的物理規(guī)律。這就像一個(gè)經(jīng)驗(yàn)豐富的建筑師，即使看不到建筑物的外觀裝飾，也能準(zhǔn)確判斷在哪里可以添加新的結(jié)構(gòu)元素，以及這些元素應(yīng)該如何與現(xiàn)有結(jié)構(gòu)協(xié)調(diào)運(yùn)作。視覺渲染器則基于Yan-Gen技術(shù)開發(fā)，專門負(fù)責(zé)將深度圖轉(zhuǎn)換為最終的視覺輸出。用戶可以通過樣式提示詞來控制渲染效果，比如"竹子和水彩畫風(fēng)格，柔和的陽光"或"紫色玻璃和銀色欄桿，青色光線，抽象幾何著色器，寒冷的黃昏"。渲染器會(huì)根據(jù)這些描述，為深度圖中的每個(gè)結(jié)構(gòu)元素賦予相應(yīng)的視覺外觀。整個(gè)編輯過程的實(shí)時(shí)性得益于兩個(gè)關(guān)鍵技術(shù)的結(jié)合。首先是ControlNet技術(shù)的應(yīng)用，它就像一個(gè)智能的翻譯器，能夠?qū)⑸疃葓D信息準(zhǔn)確地傳遞給視覺生成模型。其次是KV緩存機(jī)制的延續(xù)使用，確保編輯過程中的計(jì)算效率。研究團(tuán)隊(duì)設(shè)計(jì)了兩種不同粒度的編輯能力。結(jié)構(gòu)編輯允許用戶動(dòng)態(tài)添加、移除或替換場(chǎng)景中的交互元素。比如在一個(gè)競速游戲場(chǎng)景中，用戶可以實(shí)時(shí)添加跳板、移除障礙物、或者將旋轉(zhuǎn)平臺(tái)替換為木門。這些結(jié)構(gòu)變化會(huì)立即反映在深度圖中，并且新添加的元素會(huì)具備正確的物理特性和交互能力。樣式編輯則關(guān)注視覺外觀的實(shí)時(shí)變化。用戶可以在游戲進(jìn)行過程中切換整個(gè)場(chǎng)景的視覺風(fēng)格，從現(xiàn)實(shí)主義的渲染切換到卡通風(fēng)格，或者從白天場(chǎng)景變?yōu)橐雇韴?chǎng)景。更精細(xì)的樣式編輯還支持對(duì)特定物體的顏色、材質(zhì)、光照效果進(jìn)行獨(dú)立調(diào)整。在訓(xùn)練過程中，研究團(tuán)隊(duì)采用了一個(gè)巧妙的分階段策略。他們首先訓(xùn)練交互式機(jī)制模擬器，使用結(jié)構(gòu)提示詞來學(xué)習(xí)3D結(jié)構(gòu)層面的交互規(guī)律。然后訓(xùn)練視覺渲染器，結(jié)合開源的ControlNet權(quán)重和自研的蒸餾技術(shù)，實(shí)現(xiàn)對(duì)深度圖的高質(zhì)量樣式渲染。整個(gè)訓(xùn)練過程使用了大量的隨機(jī)生成深度視頻和樣式提示詞，確保模型具備良好的泛化能力。實(shí)際應(yīng)用中，Yan-Edit展現(xiàn)出了令人驚嘆的實(shí)用性。在一個(gè)測(cè)試場(chǎng)景中，用戶開始時(shí)在一個(gè)綠色草地上進(jìn)行游戲，通過樣式編輯功能，可以瞬間將場(chǎng)景切換為水彩畫沖洗風(fēng)格。隨后又可以切換為抽象幾何著色器風(fēng)格，整個(gè)過程完全實(shí)時(shí)，不會(huì)中斷游戲體驗(yàn)。數(shù)據(jù)收集與訓(xùn)練的工程化突破要訓(xùn)練一個(gè)能夠理解復(fù)雜交互規(guī)律的AI系統(tǒng)，最大的挑戰(zhàn)不是算法設(shè)計(jì)，而是如何獲得足夠高質(zhì)量的訓(xùn)練數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)收集方法就像手工制作精密零件，費(fèi)時(shí)費(fèi)力且難以保證一致性。Yan團(tuán)隊(duì)開發(fā)了一套全自動(dòng)化的數(shù)據(jù)收集流水線，就像建造了一座高度自動(dòng)化的工廠，能夠持續(xù)不斷地生產(chǎn)高質(zhì)量的交互式視頻數(shù)據(jù)。研究團(tuán)隊(duì)選擇了騰訊自研的《元夢(mèng)之星》游戲作為數(shù)據(jù)收集環(huán)境?，F(xiàn)代3D游戲引擎具備復(fù)雜的物理模擬能力和豐富的交互機(jī)制，能夠提供真實(shí)世界中難以獲得的高精度動(dòng)作-視覺對(duì)應(yīng)關(guān)系?！对獕?mèng)之星》包含了超過90種不同風(fēng)格的場(chǎng)景，從草原到城堡，從雨林到峽谷，為AI系統(tǒng)提供了極其豐富的學(xué)習(xí)素材。數(shù)據(jù)收集的核心是一個(gè)智能探索代理系統(tǒng)。這個(gè)代理就像一個(gè)永不疲倦的游戲測(cè)試員，能夠自動(dòng)在各種場(chǎng)景中進(jìn)行探索和交互。研究團(tuán)隊(duì)巧妙地結(jié)合了隨機(jī)探索和強(qiáng)化學(xué)習(xí)兩種策略：隨機(jī)模型負(fù)責(zé)增加探索的廣度，確保代理能夠嘗試各種不同的動(dòng)作組合；強(qiáng)化學(xué)習(xí)模型負(fù)責(zé)增加探索的深度，讓代理能夠到達(dá)游戲場(chǎng)景的各個(gè)角落。這種雙重策略確保了收集到的數(shù)據(jù)既有多樣性又有代表性。為了保證數(shù)據(jù)的高精度，研究團(tuán)隊(duì)開發(fā)了基于時(shí)間戳的精確對(duì)齊技術(shù)。在游戲引擎運(yùn)行過程中，系統(tǒng)會(huì)在代理執(zhí)行動(dòng)作的確切時(shí)刻捕獲屏幕截圖，同時(shí)記錄對(duì)應(yīng)的動(dòng)作信號(hào)。這種精確對(duì)齊確保了每個(gè)動(dòng)作都能與相應(yīng)的視覺變化準(zhǔn)確對(duì)應(yīng)，為AI學(xué)習(xí)正確的因果關(guān)系提供了可靠基礎(chǔ)。數(shù)據(jù)質(zhì)量控制是整個(gè)流水線的關(guān)鍵環(huán)節(jié)。研究團(tuán)隊(duì)設(shè)計(jì)了三層過濾系統(tǒng)來確保數(shù)據(jù)質(zhì)量。視覺過濾器負(fù)責(zé)檢測(cè)渲染失敗或被遮擋的圖像，通過計(jì)算圖像的顏色方差來識(shí)別異常幀。如果一段視頻的平均顏色方差低于設(shè)定閾值，說明圖像可能存在渲染問題或大面積遮擋，這段數(shù)據(jù)會(huì)被自動(dòng)丟棄。異常過濾器專門處理視頻卡頓問題。當(dāng)游戲引擎性能不足時(shí)，會(huì)產(chǎn)生大量重復(fù)幀，導(dǎo)致視頻播放時(shí)出現(xiàn)明顯的卡頓現(xiàn)象。過濾器會(huì)檢測(cè)視頻段的幀數(shù)，如果超過正常范圍，就判定為異常數(shù)據(jù)并予以排除。規(guī)則過濾器則專注于游戲機(jī)制的一致性，識(shí)別那些不符合游戲規(guī)則的數(shù)據(jù)片段，比如在"準(zhǔn)備階段"收集的數(shù)據(jù)，此時(shí)游戲機(jī)制尚未激活，交互行為可能不一致。數(shù)據(jù)平衡處理是訓(xùn)練成功的另一個(gè)關(guān)鍵因素。原始收集的數(shù)據(jù)往往存在偏差，某些場(chǎng)景或動(dòng)作類型可能被過度采樣，而另一些可能采樣不足。研究團(tuán)隊(duì)開發(fā)了一個(gè)智能平衡采樣系統(tǒng)，它會(huì)分析數(shù)據(jù)在各個(gè)維度上的分布，包括坐標(biāo)位置、角色狀態(tài)、碰撞情況等，然后進(jìn)行平衡采樣，確保最終的訓(xùn)練數(shù)據(jù)集在各個(gè)維度上都具有相對(duì)均勻的分布。為了支持高分辨率視頻生成，整個(gè)數(shù)據(jù)收集系統(tǒng)被配置為1920×1080分辨率運(yùn)行，使用NVIDIA RTX 4060顯卡進(jìn)行實(shí)時(shí)渲染。為了實(shí)現(xiàn)30FPS的高幀率數(shù)據(jù)收集，研究團(tuán)隊(duì)采用了動(dòng)作插值技術(shù)：代理每秒發(fā)出10次動(dòng)作指令，同時(shí)系統(tǒng)每秒捕獲30幀畫面，通過時(shí)間戳匹配技術(shù)，將動(dòng)作信號(hào)分配給相應(yīng)的視頻幀。團(tuán)隊(duì)最終收集到超過4億幀的高質(zhì)量交互式視頻數(shù)據(jù)，涵蓋90多種不同風(fēng)格的場(chǎng)景。這個(gè)數(shù)據(jù)集不僅在規(guī)模上超越了現(xiàn)有的交互式視頻數(shù)據(jù)集，在質(zhì)量和多樣性方面也達(dá)到了新的高度。數(shù)據(jù)集中包含了8種不同的動(dòng)作類型，不僅有基礎(chǔ)的移動(dòng)操作，還包括跳躍、俯沖、視角旋轉(zhuǎn)等復(fù)雜動(dòng)作，為AI系統(tǒng)學(xué)習(xí)豐富的交互機(jī)制提供了充分的素材。至頂AI實(shí)驗(yàn)室洞見騰訊團(tuán)隊(duì)用來采集數(shù)據(jù)的游戲《元夢(mèng)之星》，也算是元宇宙概念游戲的先行者。元宇宙的概念炒了很多年了，似乎一直缺少關(guān)鍵技術(shù)突破，Yan或者同類技術(shù)可能成為破局者。Yan的出現(xiàn)可能還會(huì)催生全新的創(chuàng)意產(chǎn)業(yè)形態(tài)。游戲開發(fā)者可以通過自然語言快速原型化新的游戲概念；教育工作者可以創(chuàng)造出高度個(gè)性化的交互式學(xué)習(xí)環(huán)境；內(nèi)容創(chuàng)作者可以實(shí)時(shí)生成獨(dú)特的視頻內(nèi)容。目前的系統(tǒng)仍然需要高性能的GPU支持。研究團(tuán)隊(duì)也承認(rèn)，在長時(shí)間生成過程中保持視覺一致性還需要持續(xù)改進(jìn)。但隨著技術(shù)不斷進(jìn)步，未來也許每個(gè)人都能夠輕松地創(chuàng)造和體驗(yàn)屬于自己的AI生成虛擬世界。論文地址：https://arxiv.org/abs/2508.08601v1END本文來自至頂AI實(shí)驗(yàn)室，一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破，挖掘其潛在的應(yīng)用場(chǎng)景，為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。
Q&AQ1：Yan框架是什么？A：Yan是一個(gè)基礎(chǔ)交互視頻生成框架，由騰訊團(tuán)隊(duì)開發(fā)，整合了模擬、生成和編輯全流程。它包括三個(gè)核心模塊：AAA級(jí)模擬模塊實(shí)現(xiàn)實(shí)時(shí)1080P/60FPS渲染，多模態(tài)生成模塊支持文本或圖像驅(qū)動(dòng)的視頻創(chuàng)作，以及多粒度編輯模塊允許在交互中動(dòng)態(tài)修改內(nèi)容。Yan通過解耦機(jī)制模擬和視覺渲染，推動(dòng)AI驅(qū)動(dòng)的交互創(chuàng)作范式，適用于游戲和媒體應(yīng)用。Q2：Yan如何實(shí)現(xiàn)1080P/60FPS視頻模擬？A：Yan的AAA級(jí)模擬模塊（Yan-Sim）使用高度壓縮的3D-VAE和基于KV緩存的移位窗口去噪推理過程，減少延遲并提升效率。它通過增加VAE壓縮率和采用因果注意力機(jī)制，支持幀級(jí)交互，實(shí)現(xiàn)1080P分辨率和60FPS實(shí)時(shí)性能。視覺質(zhì)量高，能處理多樣場(chǎng)景和復(fù)雜物理機(jī)制。優(yōu)化策略包括剪枝、量化和CUDA圖加速。Q3：Yan的編輯功能支持哪些操作？A：Yan-Edit模塊支持文本驅(qū)動(dòng)的多粒度編輯，包括結(jié)構(gòu)編輯（如添加互動(dòng)對(duì)象）和風(fēng)格編輯（如改變顏色和紋理）。它解耦交互機(jī)制模擬和視覺渲染，使用深度圖保留物理結(jié)構(gòu)，并通過文本提示實(shí)時(shí)修改內(nèi)容。用戶可在交互過程中動(dòng)態(tài)輸入新提示，比如結(jié)構(gòu)替換和風(fēng)格切換，確保機(jī)制準(zhǔn)確性和渲染一致性。閱讀 60

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.