夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AI作畫、生視頻,可以「自己救自己」了?!
當大家還在為CFG(無分類器引導)的參數(shù)搞到頭禿,卻依然得到一堆“塑料感”廢片而發(fā)愁時,來自清華大學、阿里巴巴AMAP(高德地圖)、中國科學院自動化研究所的研究團隊,推出全新方法S2-Guidance (Stochastic Self-Guidance)。
核心亮點在于通過隨機丟棄網(wǎng)絡模塊(Stochastic Block-Dropping)來動態(tài)構(gòu)建“弱”的子網(wǎng)絡,從而實現(xiàn)對生成過程的自我修正。這不僅讓AI學會了“主動避坑”,更重要的是,它避免了其他類似方法中繁瑣、針對特定模型的參數(shù)調(diào)整過程,真正做到了即插即用、效果顯著。
S2-Guidance方法在文生圖和文生視頻任務中,顯著提升了生成結(jié)果的質(zhì)量與連貫性。
具體表現(xiàn)在:
- 卓越的時間動態(tài): 無論是熊的運動姿態(tài),還是賽車的動態(tài)鏡頭,都更具動感。
- 精細的細節(jié)渲染: 能夠刻畫出宇航員頭盔的透明質(zhì)感等復雜細節(jié)。
- 更少的視覺偽影: 有效減少了跑步者、打傘的女人等圖像中的瑕疵。
- 豐富的藝術(shù)表達: 在抽象肖像、城堡、彩色粉末爆炸等場景中,藝術(shù)細節(jié)更加飽滿。
- 更好的物體協(xié)調(diào)性: 貓與火箭、書與羊等組合中的物體關系更加和諧一致。
一、CFG的瓶頸:效果失真 + 缺乏通用性
在擴散模型的世界里,CFG (Classifier-Free Guidance)是提升生成質(zhì)量和文本對齊度的標準操作。但它的“線性外推”本質(zhì),導致高引導強度下容易產(chǎn)生過飽和、失真等問題。
為了解決這個問題,學術(shù)界此前的思路是引入一個“監(jiān)督員”——弱模型(weak model)。比如Autoguidance就提出用訓練不充分的模型來修正。但這個思路在實踐中遇到了核心難題:如何找到一個“恰到好處”的弱模型?
- 弱模型如果太弱,它的預測就接近于無用噪聲,無法提供有效引導。
- 弱模型如果太強,它和主模型的行為又過于相似,起不到修正作用。
- 最關鍵的是,對于像SD3這樣已經(jīng)發(fā)布的大模型,我們幾乎不可能再獲得一個與之配套的、訓練到“一半火候”的官方弱模型。這使得Autoguidance的思路雖然理論上可行,但在現(xiàn)實中往往難以復現(xiàn)和應用。
為了繞開這個難題,后續(xù)的一些工作嘗試“憑空制造”弱模型。它們通過在推理時手動修改網(wǎng)絡結(jié)構(gòu)來實現(xiàn),比如模糊化特定的注意力圖(Attention Map),或者在視頻生成中跳過某些時空注意力層。但這些方法又帶來了新的問題:它們通常是高度定制化的,需要針對不同任務進行精細的參數(shù)調(diào)整和大量的實驗,缺乏通用性,使用起來非常繁瑣。
S2-Guidance則另辟蹊徑,它問了一個直擊靈魂的問題:我們能不能不找外援,也不搞復雜的調(diào)參,讓模型自己監(jiān)督自己,并且這個過程是通用且自動的?
二、S2-Guidance的精妙構(gòu)思:“隨機丟模塊”就夠了
S2-Guidance 在生成質(zhì)量流形上的工作機制如下圖所示。
生成過程從當前狀態(tài)(M?,橙色線框)向下一個狀態(tài)(M???)演進。標準CFG提供了一個強力但不夠精準的引導方向(灰色箭頭),它無法精確地命中代表最高質(zhì)量的“山峰”(黃色峰值)。S2-Guidance的改進之處在于:它通過隨機丟棄網(wǎng)絡模塊的策略,計算出一個“自我修正”的預測(藍色箭頭,“隨機丟棄后的預測”)。最終,合成的S2-Guidance引導向量(紫色箭頭)能更精準地將生成過程引向流形上的最優(yōu)區(qū)域,最終得到保真度更高的結(jié)果。
第一步:通過隨機模塊丟棄,動態(tài)構(gòu)建內(nèi)生子網(wǎng)絡
高性能擴散模型(如SD3)的核心架構(gòu)多為Transformer,由一系列功能相似的Block堆疊而成。研究表明,這類大型網(wǎng)絡存在顯著的模型冗余(model redundancy)。
S2-Guidance巧妙地利用了這一點。如圖2所示,在每個推理步驟中,它通過隨機模塊丟棄(Stochastic Block-Dropping)這一策略,在前向傳播時臨時“跳過”或“屏蔽”掉一小部分網(wǎng)絡模塊。這個過程等效于在推理時動態(tài)地、無成本地構(gòu)建出一個輕量化的內(nèi)生子網(wǎng)絡(intrinsic sub-network)。
這個子網(wǎng)絡并非外部訓練的“弱模型”,而是完整模型的一個原生變體。由于部分功能模塊被臨時禁用,其預測能力相對受限,而它的預測結(jié)果恰恰暴露了完整模型在高認知不確定性(epistemic uncertainty)區(qū)域的“潛在錯誤傾向”。這種方法的優(yōu)越性在于,它是一種通用且自動的策略,無需研究者手動判斷應修改哪個特定模塊,也無需為不同任務設計不同的“手術(shù)方案”。
第二步:利用子網(wǎng)絡預測進行負向引導
當子網(wǎng)絡給出了其預測方向后,S2-Guidance執(zhí)行了其最關鍵的一步:負向引導修正。它并非嘗試去靠近或模仿子網(wǎng)絡的預測,而是主動地排斥(repel)它。
這在S2-Guidance的引導公式中體現(xiàn)得淋漓盡致,其核心邏輯可以直觀地理解為:
最終引導方向 = 標準CFG引導方向 - 子網(wǎng)絡預測的“高不確定性”方向
通過這個簡單的“糾錯式減法”,模型在保持CFG強引導力的同時,被一個源自內(nèi)部的修正信號“拉回”,從而精準地規(guī)避了那些可能導致生成低質(zhì)量、不真實結(jié)果的“陷阱區(qū)域”。最終,該方法在無需外部模型和繁瑣參數(shù)微調(diào)的前提下,實現(xiàn)了便捷、通用且高效的自我優(yōu)化。
理論先行:在“玩具實驗”中驗證可行性
在提出這個大膽的假設后,研究團隊首先在一維和二維的高斯混合分布(Gaussian Mixture)這種有精確解的“玩具實驗”上進行了驗證。結(jié)果(如下圖-圖3所示)非常清晰:
S2-Guidance 實現(xiàn)了引導強度與分布保真度的平衡。 在玩具實驗中,CFG(紅框)會扭曲分布,而S2-Guidance能精準地捕獲真實數(shù)據(jù)分布(半透明區(qū)域)的位置和形狀,緩解了模式分離和分布失真的問題。
- CFG(b) 雖然比無引導好,但生成的分布中心明顯偏離了真實位置(紅色框)。
- Autoguidance(c) 有所改善,但仍不完美,難以找到合適的弱模型導致其效果受限。
- 而S2-Guidance(e) 生成的分布,在位置和形狀上都與真實的半透明分布更加貼合,證明了這種“自我糾錯”機制緩解了CFG的分布失真問題。
有了理論上的堅實基礎,團隊才將其推廣到更復雜的圖像和視頻生成任務中。
三、實驗效果:全方位、可量化的質(zhì)量提升
理論說得天花亂墜,不如看療效。S2-Guidance在各大SOTA模型上,展現(xiàn)出了令人信服的、全方位的實力提升。
1 全面的視覺質(zhì)量提升
開篇的這張對比圖(圖1)就是最好的證明。簡單來說,S2-Guidance讓生成結(jié)果在多個維度上實現(xiàn)了飛躍:
- 動態(tài)感更強: 無論是熊爬樹時更有力的動作,還是賽車鏡頭里傳達出的速度感,時間動態(tài)(temporal dynamics)都遠超CFG。
- 細節(jié)更精致: 宇航員頭盔的透明質(zhì)感、抽象畫作的筆觸、彩色粉末爆炸的瞬間,細節(jié)(finer details)都得到了驚人的保留和渲染。
- 偽影更少: 跑步的人、打傘的女人等場景中,CFG常見的肢體扭曲和物體粘連等偽影(fewer artifacts)被有效消除。
- 物體一致性更好: “貓和火箭”、“書和羊”這類組合中,物體間的關系和比例(improved object coherence)更協(xié)調(diào)。
S2-Guidance 在美學質(zhì)量和指令遵循度上,總能生成更出色的圖像。 可以看到,像CFG、APG、CFG++和CFG-Zero這些現(xiàn)有的引導方法,常常會生成各種瑕疵,比如不自然的偽影、變形的物體,或者干脆無法理解復雜的指令(見紅框)。而S2-Guidance方法則能產(chǎn)出干凈、協(xié)調(diào)、觀感舒適的圖像,完美地規(guī)避了這些問題。
2 同臺競技,更勝一籌
當和其他先進的引導方法(如APG、CFG++、CFG-Zero)同臺競技時,S2-Guidance的優(yōu)勢就體現(xiàn)在穩(wěn)定性上。在圖4中可以看到,對于復雜的prompt,其他方法(紅色框內(nèi))往往會產(chǎn)生扭曲的物體或不自然的偽影,或者干脆無法遵循完整的指令。而S2-Guidance則能穩(wěn)定地生成干凈、連貫且高度符合prompt描述的圖像,在美學質(zhì)量(aesthetic quality)和指令遵循度(prompt coherence)上都表現(xiàn)出色。
圖5. S2-Guidance 能夠生成時間和物理上都更合理的視頻,解決了CFG的兩大核心問題。 頂行對比: CFG無法生成合理的運動,它讓卡車詭異地“橫向漂移”而不是向前開(見紅框)。相比之下,S2-Guidance渲染出了一個穩(wěn)定又真實的行車場景。 底行對比: CFG沒有完全理解指令,生成的光線并未“環(huán)繞”人臉(紅色框),并且也漏掉了“發(fā)光粒子”這一細節(jié)(藍色框)。而S2-Guidance則忠實地還原了整個prompt,生成了一個動態(tài)感十足、視覺元素豐富的場景。
3 視頻生成:告別“指令遺忘癥”,擁抱物理真實感
在視頻生成中,S2-Guidance更是解決了CFG的兩個核心痛點:
- 物理真實性: 遵循物理規(guī)律是生成可信視頻的基礎。如圖5頂行所示,對于“一個停車計時器和一輛卡車”的場景,CFG在處理物體運動時出現(xiàn)了嚴重失真。視頻中的卡車并沒有正常行駛,而是呈現(xiàn)出一種不符合物理常識的“橫向漂移”,這種不自然的滑動破壞了整個場景的真實感。相比之下,S2-Guidance(第二行)則成功渲染出一個穩(wěn)定且邏輯自洽的場景,物體的運動狀態(tài)真實可信
- 復雜指令遵循: 對于“金線編織并環(huán)繞她的臉,周圍還有發(fā)光粒子”這樣的復雜描述,CFG不僅忽略了關鍵的“環(huán)繞”動作(光線沒有在臉周圍運動),還漏掉了“發(fā)光粒子”。S2-Guidance則忠實地還原了整個動態(tài)、豐富的視覺場景,一個細節(jié)都不少。
4 硬核數(shù)據(jù):領先的性能表現(xiàn)
這些視覺提升的背后,是HPSv2.1、T2I-CompBench、VBench等權(quán)威榜單上實打?qū)嵉念I先成績。例如,在SD3模型和T2I-CompBench基準上,S2-Guidance在顏色、形狀、紋理等維度的得分上均超越了包括CFG-Zero在內(nèi)的所有對比方法。在VBench視頻評測中,S2-Guidance同樣在總分、語義一致性等多個關鍵指標上取得了最優(yōu)性能。
HPSv2.1、T2I-CompBench榜單上的對比
圖7:VBench榜單上的對比 圖7:VBench榜單上的對比
視覺效果對比
S2-Guidance:
Baseline:
四、不只是有效,而且高效
搞這么一套“自我糾錯”系統(tǒng),會不會很慢?答案是幾乎不慢。
研究者在論文中通過嚴謹?shù)南趯嶒炞C明,哪怕在每個去噪步驟中只分裂出一個“小號”(即N=1),效果也和分裂出幾十個小號取平均(Naive S2-Guidance)幾乎一樣好。
這得益于擴散過程單一步的微小隨機抖動,在幾十上百步的迭代中會被自然地“平均”掉,最終共同將生成結(jié)果穩(wěn)穩(wěn)地導向高質(zhì)量的終點。
一句話總結(jié):S2-Guidance用較小的計算代價,實現(xiàn)了顯著的質(zhì)量提升。
論文: https://arxiv.org/abs/2508.12880
項目主頁: https://s2guidance.github.io/
項目代碼: https://github.com/AMAP-ML/S2-Guidance
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.