夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓AI作畫自己糾錯!隨機丟模塊就能提升生成質(zhì)量,告別塑料感廢片

0
分享至

夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

AI作畫、生視頻,可以「自己救自己」了?!

當大家還在為CFG(無分類器引導)的參數(shù)搞到頭禿,卻依然得到一堆“塑料感”廢片而發(fā)愁時,來自清華大學、阿里巴巴AMAP(高德地圖)、中國科學院自動化研究所的研究團隊,推出全新方法S2-Guidance (Stochastic Self-Guidance)。



核心亮點在于通過隨機丟棄網(wǎng)絡模塊(Stochastic Block-Dropping)來動態(tài)構(gòu)建“弱”的子網(wǎng)絡,從而實現(xiàn)對生成過程的自我修正。這不僅讓AI學會了“主動避坑”,更重要的是,它避免了其他類似方法中繁瑣、針對特定模型的參數(shù)調(diào)整過程,真正做到了即插即用、效果顯著。

S2-Guidance方法在文生圖和文生視頻任務中,顯著提升了生成結(jié)果的質(zhì)量與連貫性。

具體表現(xiàn)在:

  • 卓越的時間動態(tài): 無論是熊的運動姿態(tài),還是賽車的動態(tài)鏡頭,都更具動感。
  • 精細的細節(jié)渲染: 能夠刻畫出宇航員頭盔的透明質(zhì)感等復雜細節(jié)。
  • 更少的視覺偽影: 有效減少了跑步者、打傘的女人等圖像中的瑕疵。
  • 豐富的藝術(shù)表達: 在抽象肖像、城堡、彩色粉末爆炸等場景中,藝術(shù)細節(jié)更加飽滿。
  • 更好的物體協(xié)調(diào)性: 貓與火箭、書與羊等組合中的物體關系更加和諧一致。

一、CFG的瓶頸:效果失真 + 缺乏通用性

在擴散模型的世界里,CFG (Classifier-Free Guidance)是提升生成質(zhì)量和文本對齊度的標準操作。但它的“線性外推”本質(zhì),導致高引導強度下容易產(chǎn)生過飽和、失真等問題。

為了解決這個問題,學術(shù)界此前的思路是引入一個“監(jiān)督員”——弱模型(weak model)。比如Autoguidance就提出用訓練不充分的模型來修正。但這個思路在實踐中遇到了核心難題:如何找到一個“恰到好處”的弱模型?

  • 弱模型如果太弱,它的預測就接近于無用噪聲,無法提供有效引導。
  • 弱模型如果太強,它和主模型的行為又過于相似,起不到修正作用。
  • 最關鍵的是,對于像SD3這樣已經(jīng)發(fā)布的大模型,我們幾乎不可能再獲得一個與之配套的、訓練到“一半火候”的官方弱模型。這使得Autoguidance的思路雖然理論上可行,但在現(xiàn)實中往往難以復現(xiàn)和應用。

為了繞開這個難題,后續(xù)的一些工作嘗試“憑空制造”弱模型。它們通過在推理時手動修改網(wǎng)絡結(jié)構(gòu)來實現(xiàn),比如模糊化特定的注意力圖(Attention Map),或者在視頻生成中跳過某些時空注意力層。但這些方法又帶來了新的問題:它們通常是高度定制化的,需要針對不同任務進行精細的參數(shù)調(diào)整和大量的實驗,缺乏通用性,使用起來非常繁瑣。

S2-Guidance則另辟蹊徑,它問了一個直擊靈魂的問題:我們能不能不找外援,也不搞復雜的調(diào)參,讓模型自己監(jiān)督自己,并且這個過程是通用且自動的?

二、S2-Guidance的精妙構(gòu)思:“隨機丟模塊”就夠了

S2-Guidance 在生成質(zhì)量流形上的工作機制如下圖所示。

生成過程從當前狀態(tài)(M?,橙色線框)向下一個狀態(tài)(M???)演進。標準CFG提供了一個強力但不夠精準的引導方向(灰色箭頭),它無法精確地命中代表最高質(zhì)量的“山峰”(黃色峰值)。S2-Guidance的改進之處在于:它通過隨機丟棄網(wǎng)絡模塊的策略,計算出一個“自我修正”的預測(藍色箭頭,“隨機丟棄后的預測”)。最終,合成的S2-Guidance引導向量(紫色箭頭)能更精準地將生成過程引向流形上的最優(yōu)區(qū)域,最終得到保真度更高的結(jié)果。



第一步:通過隨機模塊丟棄,動態(tài)構(gòu)建內(nèi)生子網(wǎng)絡

高性能擴散模型(如SD3)的核心架構(gòu)多為Transformer,由一系列功能相似的Block堆疊而成。研究表明,這類大型網(wǎng)絡存在顯著的模型冗余(model redundancy)。

S2-Guidance巧妙地利用了這一點。如圖2所示,在每個推理步驟中,它通過隨機模塊丟棄(Stochastic Block-Dropping)這一策略,在前向傳播時臨時“跳過”或“屏蔽”掉一小部分網(wǎng)絡模塊。這個過程等效于在推理時動態(tài)地、無成本地構(gòu)建出一個輕量化的內(nèi)生子網(wǎng)絡(intrinsic sub-network)。

這個子網(wǎng)絡并非外部訓練的“弱模型”,而是完整模型的一個原生變體。由于部分功能模塊被臨時禁用,其預測能力相對受限,而它的預測結(jié)果恰恰暴露了完整模型在高認知不確定性(epistemic uncertainty)區(qū)域的“潛在錯誤傾向”。這種方法的優(yōu)越性在于,它是一種通用且自動的策略,無需研究者手動判斷應修改哪個特定模塊,也無需為不同任務設計不同的“手術(shù)方案”。

第二步:利用子網(wǎng)絡預測進行負向引導
當子網(wǎng)絡給出了其預測方向后,S2-Guidance執(zhí)行了其最關鍵的一步:負向引導修正。它并非嘗試去靠近或模仿子網(wǎng)絡的預測,而是主動地排斥(repel)它。

這在S2-Guidance的引導公式中體現(xiàn)得淋漓盡致,其核心邏輯可以直觀地理解為:

最終引導方向 = 標準CFG引導方向 - 子網(wǎng)絡預測的“高不確定性”方向

通過這個簡單的“糾錯式減法”,模型在保持CFG強引導力的同時,被一個源自內(nèi)部的修正信號“拉回”,從而精準地規(guī)避了那些可能導致生成低質(zhì)量、不真實結(jié)果的“陷阱區(qū)域”。最終,該方法在無需外部模型和繁瑣參數(shù)微調(diào)的前提下,實現(xiàn)了便捷、通用且高效的自我優(yōu)化。

理論先行:在“玩具實驗”中驗證可行性

在提出這個大膽的假設后,研究團隊首先在一維和二維的高斯混合分布(Gaussian Mixture)這種有精確解的“玩具實驗”上進行了驗證。結(jié)果(如下圖-圖3所示)非常清晰:

S2-Guidance 實現(xiàn)了引導強度與分布保真度的平衡。 在玩具實驗中,CFG(紅框)會扭曲分布,而S2-Guidance能精準地捕獲真實數(shù)據(jù)分布(半透明區(qū)域)的位置和形狀,緩解了模式分離和分布失真的問題。



  • CFG(b) 雖然比無引導好,但生成的分布中心明顯偏離了真實位置(紅色框)。
  • Autoguidance(c) 有所改善,但仍不完美,難以找到合適的弱模型導致其效果受限。
  • 而S2-Guidance(e) 生成的分布,在位置和形狀上都與真實的半透明分布更加貼合,證明了這種“自我糾錯”機制緩解了CFG的分布失真問題。

有了理論上的堅實基礎,團隊才將其推廣到更復雜的圖像和視頻生成任務中。

三、實驗效果:全方位、可量化的質(zhì)量提升

理論說得天花亂墜,不如看療效。S2-Guidance在各大SOTA模型上,展現(xiàn)出了令人信服的、全方位的實力提升。

1 全面的視覺質(zhì)量提升
開篇的這張對比圖(圖1)就是最好的證明。簡單來說,S2-Guidance讓生成結(jié)果在多個維度上實現(xiàn)了飛躍:

  • 動態(tài)感更強: 無論是熊爬樹時更有力的動作,還是賽車鏡頭里傳達出的速度感,時間動態(tài)(temporal dynamics)都遠超CFG。
  • 細節(jié)更精致: 宇航員頭盔的透明質(zhì)感、抽象畫作的筆觸、彩色粉末爆炸的瞬間,細節(jié)(finer details)都得到了驚人的保留和渲染。
  • 偽影更少: 跑步的人、打傘的女人等場景中,CFG常見的肢體扭曲和物體粘連等偽影(fewer artifacts)被有效消除。
  • 物體一致性更好: “貓和火箭”、“書和羊”這類組合中,物體間的關系和比例(improved object coherence)更協(xié)調(diào)。



S2-Guidance 在美學質(zhì)量和指令遵循度上,總能生成更出色的圖像。 可以看到,像CFG、APG、CFG++和CFG-Zero這些現(xiàn)有的引導方法,常常會生成各種瑕疵,比如不自然的偽影、變形的物體,或者干脆無法理解復雜的指令(見紅框)。而S2-Guidance方法則能產(chǎn)出干凈、協(xié)調(diào)、觀感舒適的圖像,完美地規(guī)避了這些問題。

2 同臺競技,更勝一籌

當和其他先進的引導方法(如APG、CFG++、CFG-Zero)同臺競技時,S2-Guidance的優(yōu)勢就體現(xiàn)在穩(wěn)定性上。在圖4中可以看到,對于復雜的prompt,其他方法(紅色框內(nèi))往往會產(chǎn)生扭曲的物體或不自然的偽影,或者干脆無法遵循完整的指令。而S2-Guidance則能穩(wěn)定地生成干凈、連貫且高度符合prompt描述的圖像,在美學質(zhì)量(aesthetic quality)和指令遵循度(prompt coherence)上都表現(xiàn)出色。



圖5. S2-Guidance 能夠生成時間和物理上都更合理的視頻,解決了CFG的兩大核心問題。 頂行對比: CFG無法生成合理的運動,它讓卡車詭異地“橫向漂移”而不是向前開(見紅框)。相比之下,S2-Guidance渲染出了一個穩(wěn)定又真實的行車場景。 底行對比: CFG沒有完全理解指令,生成的光線并未“環(huán)繞”人臉(紅色框),并且也漏掉了“發(fā)光粒子”這一細節(jié)(藍色框)。而S2-Guidance則忠實地還原了整個prompt,生成了一個動態(tài)感十足、視覺元素豐富的場景。

3 視頻生成:告別“指令遺忘癥”,擁抱物理真實感

在視頻生成中,S2-Guidance更是解決了CFG的兩個核心痛點:

  • 物理真實性: 遵循物理規(guī)律是生成可信視頻的基礎。如圖5頂行所示,對于“一個停車計時器和一輛卡車”的場景,CFG在處理物體運動時出現(xiàn)了嚴重失真。視頻中的卡車并沒有正常行駛,而是呈現(xiàn)出一種不符合物理常識的“橫向漂移”,這種不自然的滑動破壞了整個場景的真實感。相比之下,S2-Guidance(第二行)則成功渲染出一個穩(wěn)定且邏輯自洽的場景,物體的運動狀態(tài)真實可信
  • 復雜指令遵循: 對于“金線編織并環(huán)繞她的臉,周圍還有發(fā)光粒子”這樣的復雜描述,CFG不僅忽略了關鍵的“環(huán)繞”動作(光線沒有在臉周圍運動),還漏掉了“發(fā)光粒子”。S2-Guidance則忠實地還原了整個動態(tài)、豐富的視覺場景,一個細節(jié)都不少。

4 硬核數(shù)據(jù):領先的性能表現(xiàn)

這些視覺提升的背后,是HPSv2.1、T2I-CompBench、VBench等權(quán)威榜單上實打?qū)嵉念I先成績。例如,在SD3模型和T2I-CompBench基準上,S2-Guidance在顏色、形狀、紋理等維度的得分上均超越了包括CFG-Zero在內(nèi)的所有對比方法。在VBench視頻評測中,S2-Guidance同樣在總分、語義一致性等多個關鍵指標上取得了最優(yōu)性能。


HPSv2.1、T2I-CompBench榜單上的對比



圖7:VBench榜單上的對比 圖7:VBench榜單上的對比


視覺效果對比

S2-Guidance:









Baseline:









四、不只是有效,而且高效

搞這么一套“自我糾錯”系統(tǒng),會不會很慢?答案是幾乎不慢。

研究者在論文中通過嚴謹?shù)南趯嶒炞C明,哪怕在每個去噪步驟中只分裂出一個“小號”(即N=1),效果也和分裂出幾十個小號取平均(Naive S2-Guidance)幾乎一樣好。

這得益于擴散過程單一步的微小隨機抖動,在幾十上百步的迭代中會被自然地“平均”掉,最終共同將生成結(jié)果穩(wěn)穩(wěn)地導向高質(zhì)量的終點。

一句話總結(jié):S2-Guidance用較小的計算代價,實現(xiàn)了顯著的質(zhì)量提升。

論文: https://arxiv.org/abs/2508.12880
項目主頁: https://s2guidance.github.io/
項目代碼: https://github.com/AMAP-ML/S2-Guidance

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今天主任說了鼓勵醫(yī)務人員做兼職不是鼓勵護士賣烤腸、醫(yī)生賣烤紅薯

今天主任說了鼓勵醫(yī)務人員做兼職不是鼓勵護士賣烤腸、醫(yī)生賣烤紅薯

金水路7號站
2025-08-29 08:05:15
爾灣華裔母女從中、韓運送女子赴美賣淫,已被ICE逮捕,等待遣返

爾灣華裔母女從中、韓運送女子赴美賣淫,已被ICE逮捕,等待遣返

大洛杉磯LA
2025-08-29 03:34:30
烏克蘭遠程導彈試射后,不到24小時,普京罕見讓步

烏克蘭遠程導彈試射后,不到24小時,普京罕見讓步

阿校談史
2025-08-28 11:12:08
剩余7天,大陸定調(diào)統(tǒng)一,臺胞將出席閱兵慶典,日本不許別國赴京

剩余7天,大陸定調(diào)統(tǒng)一,臺胞將出席閱兵慶典,日本不許別國赴京

通文知史
2025-08-28 16:55:03
黨員干部可以去寺廟燒香拜佛嗎?權(quán)威解釋來了!

黨員干部可以去寺廟燒香拜佛嗎?權(quán)威解釋來了!

審計之家
2025-08-26 09:07:52
同事偷我方案獲獎,我把下份PPT全填錯數(shù)據(jù),慶功宴上他成了笑話

同事偷我方案獲獎,我把下份PPT全填錯數(shù)據(jù),慶功宴上他成了笑話

曉艾故事匯
2025-08-27 08:12:38
觸目驚心:“波克羅夫斯克紅地毯”!多布羅皮利亞俄軍或已被包圍

觸目驚心:“波克羅夫斯克紅地毯”!多布羅皮利亞俄軍或已被包圍

鷹眼Defence
2025-08-27 16:10:31
吹捧美國空氣香甜的楊舒平,已被驅(qū)逐出境,如今回國下場大快人心

吹捧美國空氣香甜的楊舒平,已被驅(qū)逐出境,如今回國下場大快人心

跳跳歷史
2025-06-06 16:41:00
歐冠抽簽爆大冷!拜仁巴黎陷死亡之組,決賽時間地點定了

歐冠抽簽爆大冷!拜仁巴黎陷死亡之組,決賽時間地點定了

小小小白看世界
2025-08-29 06:29:51
為什么女人出軌第一次發(fā)生關系非常難,后面就會越來越容易?

為什么女人出軌第一次發(fā)生關系非常難,后面就會越來越容易?

素然追光
2025-06-23 02:10:05
金小妹凱莉:逆天身材的奧秘

金小妹凱莉:逆天身材的奧秘

述家娛記
2025-07-19 09:24:19
暴雪開發(fā)魔獸世界全新姓名板、DBM和DPS統(tǒng)計器即將到來

暴雪開發(fā)魔獸世界全新姓名板、DBM和DPS統(tǒng)計器即將到來

艾星攻略閣
2025-08-29 10:29:44
周志高先生追悼會在滬舉行,市府多位領導出席

周志高先生追悼會在滬舉行,市府多位領導出席

城市局
2025-08-29 08:23:00
蔡瀾的七大金句:“一定要想盡辦法先存到100萬”最后一句更值錢

蔡瀾的七大金句:“一定要想盡辦法先存到100萬”最后一句更值錢

資本Capital
2025-07-09 12:00:56
香港男星被砍留后遺癥,臉皮險被砍掉,身上多處刀疤清晰可見

香港男星被砍留后遺癥,臉皮險被砍掉,身上多處刀疤清晰可見

你約電影
2025-08-27 21:31:07
985女生曬工資單:“不用想養(yǎng)老,我都活不過25!”網(wǎng)友:確實!

985女生曬工資單:“不用想養(yǎng)老,我都活不過25!”網(wǎng)友:確實!

知曉科普
2025-08-15 09:57:07
政治上不如周總理,軍事上不及彭老總,他憑什么成了國家核心領導

政治上不如周總理,軍事上不及彭老總,他憑什么成了國家核心領導

大運河時空
2025-08-20 12:11:47
關稅戰(zhàn)正式開打?特朗普這下氣破防了,一記絕招直擊七寸

關稅戰(zhàn)正式開打?特朗普這下氣破防了,一記絕招直擊七寸

書房評天下
2025-08-29 09:43:30
男子半夜回家后,喊上門按摩服務,開門后居然發(fā)現(xiàn)來的是小姨子

男子半夜回家后,喊上門按摩服務,開門后居然發(fā)現(xiàn)來的是小姨子

如煙若夢
2025-08-28 17:10:05
中國憋屈了這么多年終于爆發(fā),正式宣布可以開火,看誰還敢來撒野

中國憋屈了這么多年終于爆發(fā),正式宣布可以開火,看誰還敢來撒野

小濤叨叨
2025-07-11 15:29:44
2025-08-29 11:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11206文章數(shù) 176257關注度
往期回顧 全部

科技要聞

英特爾宣布,57億美元到賬,投資者先炸了

頭條要聞

西方媒體熱炒中印關系"回暖" 臆測所謂"反美聯(lián)盟"

頭條要聞

西方媒體熱炒中印關系"回暖" 臆測所謂"反美聯(lián)盟"

體育要聞

33歲,癌癥+白血病,他還不想放棄籃球

娛樂要聞

歌手韓磊深陷輿論,被控訴騙色吃軟飯

財經(jīng)要聞

生死淘汰賽"新能源三劍客"負債6.56萬億

汽車要聞

真·滿配的越野車 全新坦克500想要滿足更多人

態(tài)度原創(chuàng)

藝術(shù)
手機
本地
房產(chǎn)
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

楊冪上手華為Mate XTs非凡大師:改文件看文件像用電腦一樣

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

房產(chǎn)要聞

三亞、陵水斷檔發(fā)力,海南新房均價飆到1.8w+!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 欧美精致人妻视频| av棋牌网站免费在线| 500av导航大全精品| 黄色视频免费观看www| 91精品国产一区二区三密臀| 日韩免费无码一区二区视频 | avtt一区二区三区| 无码少妇精品一区二区免费| 后入丰满熟妇一区二区| 欧美精品不卡| 狠狠综合久久av一区二| 久久这就是精品| 一级片黄色一区二区三区| 内射人妻无码色AB麻豆| 日本在线欧美| 欧美A区B区成人PA~| 亲子伦精品一区二区三区| 国产小受被做到哭咬床单GV| 熟女精品二区二区三区| 国产伦精品一区二区三区免费迷| 波多野结衣被很干90分钟| 韩日美无码精品无码| 无码一区二区三区av免费牛牛| 亚洲无码宅男| 日本欧美一区二区三区在线播放| 日韩福利影片一区二区| 国产欧美日韩| 亚洲精品久久久久久久久久久捆绑| 一区二区最新免费视频| 中文字幕亚洲码在线观看| 精品少妇无码一区二区三批| 国产欧美日韩专区发布| 国产精品爽爽久久久久久竹菊| 国产性色AV内射白浆肛交后入 | 国产99蜜臀视频精品免费视频| 国产各种高潮合集| 日韩不卡123| 日韩AV一点不卡| www.亚洲一区| 日韩综合夜夜香内射| avAPP大全|