讓AI作畫自己糾錯！隨機丟模塊就能提升生成質(zhì)量，告別塑料感廢片

2025-08-23 13:41:08　來源: 量子位

北京舉報

分享至

夢晨發(fā)自凹非寺
量子位 | 公眾號 QbitAI

AI作畫、生視頻，可以「自己救自己」了？！

當大家還在為CFG（無分類器引導）的參數(shù)搞到頭禿，卻依然得到一堆“塑料感”廢片而發(fā)愁時，來自清華大學、阿里巴巴AMAP（高德地圖）、中國科學院自動化研究所的研究團隊，推出全新方法S2-Guidance (Stochastic Self-Guidance)。

核心亮點在于通過隨機丟棄網(wǎng)絡模塊（Stochastic Block-Dropping）來動態(tài)構(gòu)建“弱”的子網(wǎng)絡，從而實現(xiàn)對生成過程的自我修正。這不僅讓AI學會了“主動避坑”，更重要的是，它避免了其他類似方法中繁瑣、針對特定模型的參數(shù)調(diào)整過程，真正做到了即插即用、效果顯著。

S2-Guidance方法在文生圖和文生視頻任務中，顯著提升了生成結(jié)果的質(zhì)量與連貫性。

具體表現(xiàn)在：

卓越的時間動態(tài)：無論是熊的運動姿態(tài)，還是賽車的動態(tài)鏡頭，都更具動感。
精細的細節(jié)渲染：能夠刻畫出宇航員頭盔的透明質(zhì)感等復雜細節(jié)。
更少的視覺偽影：有效減少了跑步者、打傘的女人等圖像中的瑕疵。
豐富的藝術(shù)表達：在抽象肖像、城堡、彩色粉末爆炸等場景中，藝術(shù)細節(jié)更加飽滿。
更好的物體協(xié)調(diào)性：貓與火箭、書與羊等組合中的物體關系更加和諧一致。

一、CFG的瓶頸：效果失真 + 缺乏通用性

在擴散模型的世界里，CFG (Classifier-Free Guidance)是提升生成質(zhì)量和文本對齊度的標準操作。但它的“線性外推”本質(zhì)，導致高引導強度下容易產(chǎn)生過飽和、失真等問題。

為了解決這個問題，學術(shù)界此前的思路是引入一個“監(jiān)督員”——弱模型（weak model）。比如Autoguidance就提出用訓練不充分的模型來修正。但這個思路在實踐中遇到了核心難題：如何找到一個“恰到好處”的弱模型？

弱模型如果太弱，它的預測就接近于無用噪聲，無法提供有效引導。
弱模型如果太強，它和主模型的行為又過于相似，起不到修正作用。
最關鍵的是，對于像SD3這樣已經(jīng)發(fā)布的大模型，我們幾乎不可能再獲得一個與之配套的、訓練到“一半火候”的官方弱模型。這使得Autoguidance的思路雖然理論上可行，但在現(xiàn)實中往往難以復現(xiàn)和應用。

為了繞開這個難題，后續(xù)的一些工作嘗試“憑空制造”弱模型。它們通過在推理時手動修改網(wǎng)絡結(jié)構(gòu)來實現(xiàn)，比如模糊化特定的注意力圖（Attention Map），或者在視頻生成中跳過某些時空注意力層。但這些方法又帶來了新的問題：它們通常是高度定制化的，需要針對不同任務進行精細的參數(shù)調(diào)整和大量的實驗，缺乏通用性，使用起來非常繁瑣。

S2-Guidance則另辟蹊徑，它問了一個直擊靈魂的問題：我們能不能不找外援，也不搞復雜的調(diào)參，讓模型自己監(jiān)督自己，并且這個過程是通用且自動的？

二、S2-Guidance的精妙構(gòu)思：“隨機丟模塊”就夠了

S2-Guidance 在生成質(zhì)量流形上的工作機制如下圖所示。

生成過程從當前狀態(tài)（M?，橙色線框）向下一個狀態(tài)（M???）演進。標準CFG提供了一個強力但不夠精準的引導方向（灰色箭頭），它無法精確地命中代表最高質(zhì)量的“山峰”（黃色峰值）。S2-Guidance的改進之處在于：它通過隨機丟棄網(wǎng)絡模塊的策略，計算出一個“自我修正”的預測（藍色箭頭，“隨機丟棄后的預測”）。最終，合成的S2-Guidance引導向量（紫色箭頭）能更精準地將生成過程引向流形上的最優(yōu)區(qū)域，最終得到保真度更高的結(jié)果。

第一步：通過隨機模塊丟棄，動態(tài)構(gòu)建內(nèi)生子網(wǎng)絡

高性能擴散模型（如SD3）的核心架構(gòu)多為Transformer，由一系列功能相似的Block堆疊而成。研究表明，這類大型網(wǎng)絡存在顯著的模型冗余（model redundancy）。

S2-Guidance巧妙地利用了這一點。如圖2所示，在每個推理步驟中，它通過隨機模塊丟棄（Stochastic Block-Dropping）這一策略，在前向傳播時臨時“跳過”或“屏蔽”掉一小部分網(wǎng)絡模塊。這個過程等效于在推理時動態(tài)地、無成本地構(gòu)建出一個輕量化的內(nèi)生子網(wǎng)絡（intrinsic sub-network）。

這個子網(wǎng)絡并非外部訓練的“弱模型”，而是完整模型的一個原生變體。由于部分功能模塊被臨時禁用，其預測能力相對受限，而它的預測結(jié)果恰恰暴露了完整模型在高認知不確定性（epistemic uncertainty）區(qū)域的“潛在錯誤傾向”。這種方法的優(yōu)越性在于，它是一種通用且自動的策略，無需研究者手動判斷應修改哪個特定模塊，也無需為不同任務設計不同的“手術(shù)方案”。

第二步：利用子網(wǎng)絡預測進行負向引導
當子網(wǎng)絡給出了其預測方向后，S2-Guidance執(zhí)行了其最關鍵的一步：負向引導修正。它并非嘗試去靠近或模仿子網(wǎng)絡的預測，而是主動地排斥（repel）它。

這在S2-Guidance的引導公式中體現(xiàn)得淋漓盡致，其核心邏輯可以直觀地理解為：

最終引導方向 = 標準CFG引導方向 - 子網(wǎng)絡預測的“高不確定性”方向

通過這個簡單的“糾錯式減法”，模型在保持CFG強引導力的同時，被一個源自內(nèi)部的修正信號“拉回”，從而精準地規(guī)避了那些可能導致生成低質(zhì)量、不真實結(jié)果的“陷阱區(qū)域”。最終，該方法在無需外部模型和繁瑣參數(shù)微調(diào)的前提下，實現(xiàn)了便捷、通用且高效的自我優(yōu)化。

理論先行：在“玩具實驗”中驗證可行性

在提出這個大膽的假設后，研究團隊首先在一維和二維的高斯混合分布（Gaussian Mixture）這種有精確解的“玩具實驗”上進行了驗證。結(jié)果（如下圖-圖3所示）非常清晰：

S2-Guidance 實現(xiàn)了引導強度與分布保真度的平衡。在玩具實驗中，CFG（紅框）會扭曲分布，而S2-Guidance能精準地捕獲真實數(shù)據(jù)分布（半透明區(qū)域）的位置和形狀，緩解了模式分離和分布失真的問題。

CFG（b）雖然比無引導好，但生成的分布中心明顯偏離了真實位置（紅色框）。
Autoguidance（c）有所改善，但仍不完美，難以找到合適的弱模型導致其效果受限。
而S2-Guidance（e）生成的分布，在位置和形狀上都與真實的半透明分布更加貼合，證明了這種“自我糾錯”機制緩解了CFG的分布失真問題。

有了理論上的堅實基礎，團隊才將其推廣到更復雜的圖像和視頻生成任務中。

三、實驗效果：全方位、可量化的質(zhì)量提升

理論說得天花亂墜，不如看療效。S2-Guidance在各大SOTA模型上，展現(xiàn)出了令人信服的、全方位的實力提升。

1 全面的視覺質(zhì)量提升
開篇的這張對比圖（圖1）就是最好的證明。簡單來說，S2-Guidance讓生成結(jié)果在多個維度上實現(xiàn)了飛躍：

動態(tài)感更強：無論是熊爬樹時更有力的動作，還是賽車鏡頭里傳達出的速度感，時間動態(tài)（temporal dynamics）都遠超CFG。
細節(jié)更精致：宇航員頭盔的透明質(zhì)感、抽象畫作的筆觸、彩色粉末爆炸的瞬間，細節(jié)（finer details）都得到了驚人的保留和渲染。
偽影更少：跑步的人、打傘的女人等場景中，CFG常見的肢體扭曲和物體粘連等偽影（fewer artifacts）被有效消除。
物體一致性更好： “貓和火箭”、“書和羊”這類組合中，物體間的關系和比例（improved object coherence）更協(xié)調(diào)。

S2-Guidance 在美學質(zhì)量和指令遵循度上，總能生成更出色的圖像。可以看到，像CFG、APG、CFG++和CFG-Zero這些現(xiàn)有的引導方法，常常會生成各種瑕疵，比如不自然的偽影、變形的物體，或者干脆無法理解復雜的指令（見紅框）。而S2-Guidance方法則能產(chǎn)出干凈、協(xié)調(diào)、觀感舒適的圖像，完美地規(guī)避了這些問題。

2 同臺競技，更勝一籌

當和其他先進的引導方法（如APG、CFG++、CFG-Zero）同臺競技時，S2-Guidance的優(yōu)勢就體現(xiàn)在穩(wěn)定性上。在圖4中可以看到，對于復雜的prompt，其他方法（紅色框內(nèi)）往往會產(chǎn)生扭曲的物體或不自然的偽影，或者干脆無法遵循完整的指令。而S2-Guidance則能穩(wěn)定地生成干凈、連貫且高度符合prompt描述的圖像，在美學質(zhì)量（aesthetic quality）和指令遵循度（prompt coherence）上都表現(xiàn)出色。

圖5. S2-Guidance 能夠生成時間和物理上都更合理的視頻，解決了CFG的兩大核心問題。頂行對比： CFG無法生成合理的運動，它讓卡車詭異地“橫向漂移”而不是向前開（見紅框）。相比之下，S2-Guidance渲染出了一個穩(wěn)定又真實的行車場景。底行對比： CFG沒有完全理解指令，生成的光線并未“環(huán)繞”人臉（紅色框），并且也漏掉了“發(fā)光粒子”這一細節(jié)（藍色框）。而S2-Guidance則忠實地還原了整個prompt，生成了一個動態(tài)感十足、視覺元素豐富的場景。

3 視頻生成：告別“指令遺忘癥”，擁抱物理真實感

在視頻生成中，S2-Guidance更是解決了CFG的兩個核心痛點：

物理真實性：遵循物理規(guī)律是生成可信視頻的基礎。如圖5頂行所示，對于“一個停車計時器和一輛卡車”的場景，CFG在處理物體運動時出現(xiàn)了嚴重失真。視頻中的卡車并沒有正常行駛，而是呈現(xiàn)出一種不符合物理常識的“橫向漂移”，這種不自然的滑動破壞了整個場景的真實感。相比之下，S2-Guidance（第二行）則成功渲染出一個穩(wěn)定且邏輯自洽的場景，物體的運動狀態(tài)真實可信
復雜指令遵循：對于“金線編織并環(huán)繞她的臉，周圍還有發(fā)光粒子”這樣的復雜描述，CFG不僅忽略了關鍵的“環(huán)繞”動作（光線沒有在臉周圍運動），還漏掉了“發(fā)光粒子”。S2-Guidance則忠實地還原了整個動態(tài)、豐富的視覺場景，一個細節(jié)都不少。

4 硬核數(shù)據(jù)：領先的性能表現(xiàn)

這些視覺提升的背后，是HPSv2.1、T2I-CompBench、VBench等權(quán)威榜單上實打?qū)嵉念I先成績。例如，在SD3模型和T2I-CompBench基準上，S2-Guidance在顏色、形狀、紋理等維度的得分上均超越了包括CFG-Zero在內(nèi)的所有對比方法。在VBench視頻評測中，S2-Guidance同樣在總分、語義一致性等多個關鍵指標上取得了最優(yōu)性能。

HPSv2.1、T2I-CompBench榜單上的對比

圖7:VBench榜單上的對比圖7:VBench榜單上的對比

視覺效果對比

S2-Guidance：

Baseline：

四、不只是有效，而且高效

搞這么一套“自我糾錯”系統(tǒng)，會不會很慢？答案是幾乎不慢。

研究者在論文中通過嚴謹?shù)南趯嶒炞C明，哪怕在每個去噪步驟中只分裂出一個“小號”（即N=1），效果也和分裂出幾十個小號取平均（Naive S2-Guidance）幾乎一樣好。

這得益于擴散過程單一步的微小隨機抖動，在幾十上百步的迭代中會被自然地“平均”掉，最終共同將生成結(jié)果穩(wěn)穩(wěn)地導向高質(zhì)量的終點。

一句話總結(jié)：S2-Guidance用較小的計算代價，實現(xiàn)了顯著的質(zhì)量提升。

論文: https://arxiv.org/abs/2508.12880
項目主頁: https://s2guidance.github.io/
項目代碼: https://github.com/AMAP-ML/S2-Guidance

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.