夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

數(shù)據(jù)集蒸餾,連發(fā)兩篇頂會!10%樣本實現(xiàn)全量性能,魯棒不失真

0
分享至


新智元報道

編輯:LRST

【新智元導讀】數(shù)據(jù)集蒸餾是一種用少量合成數(shù)據(jù)替代全量數(shù)據(jù)訓練模型的技術,能讓模型高效又節(jié)能。WMDD和GUARD兩項研究分別解決了如何保留原始數(shù)據(jù)特性并提升模型對抗擾動能力的問題,使模型在少量數(shù)據(jù)上訓練時既準確又可靠。

數(shù)據(jù)集蒸餾(Dataset Distillation,DD)正在成為大模型時代一條務實的「降本增效」路徑:用每類極少的合成樣本訓練出接近使用全量數(shù)據(jù)的模型,從而顯著降低時間、算力與能耗。

真正的挑戰(zhàn)包括兩點:

其一,如何在極少的樣本中盡可能保留原始數(shù)據(jù)分布的幾何特性;

其二,如何在不顯著增加成本的情況下,使在DD上訓練的模型在對抗擾動下仍保持可靠。

加州大學圣地亞哥分校、伊利諾伊大學厄巴納-香檳分校等機構的研究人員在「ICCV 2025上發(fā)表的WMDD」和「AAAI 2025上提出的GUARD」分別針對這兩個問題提出了解決方案。

WMDD

用Wasserstein度量保留數(shù)據(jù)分布的幾何特性

數(shù)據(jù)蒸餾要做的,歸根到底是「少而不失真」。

WMDD(Wasserstein Metric-based Dataset Distillation)的出發(fā)點很直接:既然我們關心分布的幾何特性,就用最能保留形狀和結構的距離來對齊它——Wasserstein 距離,并以其在幾何意義上的「重心」(barycenter)作為蒸餾目標。


論文鏈接:https://arxiv.org/abs/2311.18531

代碼鏈接:https://github.com/Liu-Hy/WMDD

最優(yōu)傳輸(Optimal Transport, OT)的思想可追溯至法國數(shù)學家Monge,后由Kantorovich在二十世紀鑄成現(xiàn)代優(yōu)化理論的重要分支。

與之緊密相關的Wasserstein距離,刻畫的是把一個分布搬運成另一個分布所需的最小代價,因此能夠保留分布的幾何特性。

直觀地說,如果把數(shù)據(jù)分布想象成一團可以流動的「質量」,Wasserstein衡量的是把一團搬運成另一團的最小「功」:

帶著幾何去對齊每一份質量,而不是只盯住均值或協(xié)方差。相應的 Wasserstein 重心,也不是把若干分布簡單「糊」在一起,而是找到能同時接近它們的中心形態(tài)——在形狀上保留各自結構特征。這種「保形」的能力,正是數(shù)據(jù)蒸餾最需要的。


圖1 二維玩具分布的「重心」對比:原始分布由圓環(huán)(紅)與交叉(藍)兩類形狀組成,色深表示概率密度、色相區(qū)分源分布類型。KL與MMD的重心更像是僵硬的混合;Wasserstein重心以最小搬運代價在幾何上做自然插值,較好保留結構特征。

WMDD把合成數(shù)據(jù)的學習搬到特征空間中:先用在原始數(shù)據(jù)上訓練好的分類器,把每類樣本映射到最后一層線性分類器之前的特征空間,再在該空間分別計算各類的Wasserstein重心。

這里的重心不是一個點,而是一組帶權代表點,用盡量少的「錨」概括類內多樣性與幾何結構。

隨后,研究人員用梯度下降優(yōu)化每類少量合成圖像,使其特征貼近對應的重心代表點。

同時引入一個簡單但關鍵的正則:按類統(tǒng)計的BatchNorm約束(Per-Class BN,PCBN)。

不同于以往全局BN對齊容易讓類別間的梯度相互牽扯,PCBN在類內對齊各層BN的均值與方差,既利用了預訓練網(wǎng)絡的先驗,又不打亂類內結構的學習。

為保證可擴展性,研究人員采用高效的最優(yōu)傳輸求解,對重心的「位置—權重」交替優(yōu)化,計算與存儲開銷與主流的高效分布匹配式蒸餾方法相當。


圖2 WMDD方法流程:真實數(shù)據(jù)集T與合成集S先經(jīng)特征網(wǎng)絡f獲得特征;以真實特征計算按類的Wasserstein重心(含位置與權重);在蒸餾過程中,以「特征匹配損失+按類BN統(tǒng)計(PCBN)正則」共同優(yōu)化合成樣本,使其對齊重心并生成更具代表性的合成數(shù)據(jù)。

不同于傳統(tǒng)的基于MMD的分布匹配式蒸餾,為什么這套方案能在高分辨率數(shù)據(jù)集上既可算、又好用?

從Wasserstein更能捕捉分布幾何的角度看,它帶來的「搬運」視角會讓優(yōu)化的梯度更有指向性:不是簡單拉近某個統(tǒng)計量,而是明確地把合成樣本朝真實數(shù)據(jù)的相應區(qū)域推近;而MMD的意義嚴重依賴核的選擇與帶寬設定,未必能穩(wěn)定地刻畫我們關心的幾何關系。

另外,從DD算法實際效率的角度,研究人員在附錄中給出了另一種解釋:完整的核化MMD計算開銷隨原始數(shù)據(jù)集的樣本量平方增長,很難在ImageNet-1K量級上落地。

許多基于MMD的蒸餾方法為了規(guī)?;?,退而只對齊特征均值(等同于使用線性核),這在統(tǒng)計上并不能唯一標定分布,往往會忽略高階差異與幾何結構,從而無法給優(yōu)化提供足夠準確的信號。

Wasserstein一方面具有理論保障,即在合理的Lipschitz假設下,真實分布與合成分布在期望風險上的差異可以被W1(Wasserstein-1)距離上界;

而另一方面,固定合成樣本量下單次OT求解的復雜度只隨原始數(shù)據(jù)樣本量線性增長,同時可以借助特征空間降維與高效OT求解保持可計算性。

實驗上,WMDD在ImageNette、Tiny-ImageNet與ImageNet-1K三個高分辨率數(shù)據(jù)集上,1/10/50/100 IPC的多種預算下都給出了強競爭甚至領先的結果。

以100 IPC為例,研究人員在三套數(shù)據(jù)上的top-1分別達到約87.1%、61.0%和60.7%,逼近用全量數(shù)據(jù)訓練的同架構模型(約89.9%、63.5%、63.1%)。

更值得一提的是跨架構泛化:研究人員用ResNet-18蒸餾得到的合成數(shù)據(jù),在50IPC下訓練ResNet-50/101還能持續(xù)增益,遷移到ViT-Tiny/Small也有可觀表現(xiàn),這說明WMDD學到的不是「過擬合某個骨干」的捷徑,而是真正在特征幾何上貼近了真實分布。

效率方面,得益于重心計算的可解性,時間與顯存開銷與當前最為高效的分布匹配方法處于同一數(shù)量級,卻在大多數(shù)設置下取得SOTA表現(xiàn)。


圖3 WMDD的合成圖像可視化:在ImageNet-1K的10IPC設置下(蒸餾與可視化使用ResNet-18),從若干選定類別中隨機各采樣1張,呈現(xiàn)貼近人類感知的關鍵類別特征。

研究人員還做了一系列消融來拆解設計取舍。首先,把特征匹配從交叉熵替換為Wasserstein重心回歸,在三個數(shù)據(jù)集上都帶來穩(wěn)定增益;其次,把全局BN正則改為PCBN后,類內多樣性保持得更好,特征分布不再「塌縮」,與重心匹配目標形成共振。

研究人員也嘗試了Sliced Wasserstein作為更快的替代,得到的精度幾乎不損,速度略有提升,說明WMDD的核心收益確實來自Wasserstein幾何,而非某個工程技巧或脆弱的超參。

從更宏觀的視角看,WMDD把數(shù)據(jù)蒸餾拉回「分布幾何」的基本圖景:用最小搬運代價貼近真實數(shù)據(jù)的形,既不丟掉類內的多樣性,也不破壞類間的相對關系。這種方式天然適合與預訓練表征協(xié)同,也為與生成式模型的結合打下基礎。

研究人員也在思考兩個自然的延伸:

其一,直接在聯(lián)合空間蒸餾P(X, Y),將標簽嵌入表示空間并在聯(lián)合度量下對齊,有望同時捕捉標簽邊際分布與標簽間關系結構(例如標簽嵌入的相似性),從而改進跨類遷移與長尾類別的刻畫;

其二,「最優(yōu)」的合成數(shù)據(jù)未必就是全局最接近原始分布的那一組,決策邊界附近的代表性樣本可能更關鍵,而一種折中方案是讓部分樣本的位置介于「重心代表點」和「靠近判別邊界的支持點」之間,把最優(yōu)傳輸?shù)娜謱R與邊界敏感的判別信號結合起來。

在「保形」之外,可靠性同樣關鍵:當模型面對對抗擾動時,訓練在蒸餾數(shù)據(jù)上的模型還能扛得住嗎?這正是第二項工作所聚焦的方向。

GUARD

在蒸餾過程中平滑損失景觀以獲得對抗魯棒性

讓少量蒸餾數(shù)據(jù)上正常訓練的模型具有對抗魯棒性,最直接的想法,是把對抗訓練嵌入蒸餾流程;

但實踐顯示,這會顯著拉低干凈集性能,魯棒收益也并不穩(wěn)定。

研究人員因此轉向更本質的做法:不在外層堆疊昂貴的對抗環(huán)路,而是從損失景觀出發(fā),直接在真實數(shù)據(jù)鄰域平滑模型的局部曲率。這就是GUARD(Geometric Regularization for Adversarially Robust Dataset)的核心。


論文鏈接:https://arxiv.org/abs/2403.10045

代碼鏈接:https://github.com/yumozi/GUARD

理論上,把樣本在小球擾動內的對抗損失近似展開,可以得到一個上界,其中主導項來自損失對輸入的最大曲率(Hessian最大特征值)。當蒸餾數(shù)據(jù)與真實分布在特征空間足夠接近時,真實數(shù)據(jù)與蒸餾數(shù)據(jù)上的對抗損失上界只相差一個與偏差σ成正比的常數(shù)項。

因此,「在蒸餾數(shù)據(jù)上優(yōu)化魯棒性」能夠可靠地遷移到「在真實數(shù)據(jù)上評測魯棒性」。

實現(xiàn)上,研究人員使用一個高效近似去降低最大曲率:借助一個經(jīng)驗事實,即神經(jīng)網(wǎng)絡輸入空間的梯度方向與最大曲率方向往往高度相似。

按照常用的近似手段,如果在單位梯度方向做小步長擾動,最小化兩處梯度的差異范數(shù),就能降低最大曲率的近似,從而使損失景觀在該方向上更接近局部線性。

研究人員把該正則嵌入SRe2L的squeeze階段,將標準訓練損失替換為「原損失+曲率正則」,每步僅多一次前向與梯度計算,無需內層對抗環(huán)路,代價極低。

在ImageNette、Tiny-ImageNet與ImageNet-1K上,覆蓋10/50/100images per class(IPC)的多種設置,GUARD在多種白盒/黑盒攻擊(如PGD100、AutoAttack等)下普遍提升魯棒指標,并常?!疙槑А固嵘蓛艟?。

例如,在ImageNette 10 IPC上,干凈準確率從42.42%提至57.93%,AutoAttack從4.99%提至19.69%;在Tiny-ImageNet 50 IPC中,PGD100從0.27%提升到15.63%,AutoAttack從0.16%提升到13.84%;

當壓縮比例放寬到ImageNette 100 IPC,PGD100由31.65%提升到57.50%,AutoAttack由17.93%提升到64.84%

在更具挑戰(zhàn)的ImageNet-1K 10 IPC上,干凈準確率與魯棒性也都獲得顯著提升。

更重要的是,GUARD作為一種「損失景觀正則」的做法,具有良好的普適性:將其加入DC、CDA等不同蒸餾范式,同樣能同時提升干凈與魯棒性能。


圖4 GUARD的合成圖像可視化:在ImageNet-1K的1 IPC設置下,展示若干類別的蒸餾樣本(每類1張)。圖像呈現(xiàn)出類別相關的關鍵元素與混合外觀,體現(xiàn)蒸餾過程對主要語義特征的捕捉。

背后的直覺并不復雜:

如果教師模型在真實數(shù)據(jù)鄰域的損失景觀崎嶇、曲率大,那么最陡上升方向會頻繁改變,蒸餾過程就難以從教師的梯度場穩(wěn)定地恢復帶有類別核心特征的少量數(shù)據(jù);

相反,降低最大曲率,能減少對抗擾動最敏感方向的「尖銳性」,有利于合成數(shù)據(jù)免受高頻噪聲的影響,學到真實穩(wěn)定的類別特征,從而同時提升魯棒性與干凈泛化。

研究人員在實驗中發(fā)現(xiàn),在更小的IPC(例如1或10)下,曲率正則往往能給干凈準確率和魯棒性同時帶來顯著提升;

當IPC較大時,若正則過強則可能抑制必要的細粒度判別,此時適當減弱正則強度便能在保持魯棒收益的同時避免精度回落。

這似乎說明,合成數(shù)據(jù)量越小,能承載的模型復雜度就應越低。如何從理論角度闡釋這一現(xiàn)象,以及如何控制模型的復雜度(如曲率)使合成數(shù)據(jù)達到最優(yōu)泛化和魯棒性,有待進一步研究。

需要說明的是,研究人員并不把GUARD當作形式化的全局魯棒保證;若干假設(如局部凸性與特征映射的Lipschitz)是合理但理想化的。

然而,它以極低的額外開銷,在大規(guī)模數(shù)據(jù)與強攻擊設置下給出了兼顧精度與魯棒的均衡解。

收束與展望

這兩項工作分別回答了DD的兩個關鍵問題:如何在極低樣本預算下盡可能保留原始數(shù)據(jù)分布的重要幾何特性,以及如何在不顯著增加訓練成本的情況下獲得可遷移的對抗魯棒性。

更凝練地說,通過讓神經(jīng)網(wǎng)絡在蒸餾數(shù)據(jù)上學到更穩(wěn)健的表示,并在表示空間對數(shù)據(jù)分布的重要方面做更精準的匹配,DD有望在準確性與穩(wěn)健性之間取得兼顧。

向前看,值得探索的方向包括:在聯(lián)合空間直接蒸餾P(X, Y),在復雜場景中將生成建模與重心表達結合以提升類內多樣性,對曲率正則進行更細粒度的自適應以適配不同的IPC,以及將這些思路推廣到分布外與多模態(tài)設置中。

希望「小而強」的數(shù)據(jù)集能成為走向可信與高效AI的一條可持續(xù)道路。

作者信息

劉昊洋是UIUC信息學博士生。主要研究興趣在于可信機器學習,數(shù)據(jù)集蒸餾,并探索大模型多智能體方法用于自動化科研與數(shù)據(jù)分析。

黎羿江在約翰斯?霍普金斯大學獲得計算機科學碩士學位,現(xiàn)在是加州大學圣地亞哥分校二年級博士生,主要研究方向聚焦于實現(xiàn)多模態(tài)、交互式以及三維具身環(huán)境下高效和魯棒的AI學習。

王沛然現(xiàn)在是加州大學洛杉磯分校一年級博士生,主要研究方向聚焦于AI安全、程序分析、基于AI的安全研究以及系統(tǒng)安全方法在大模型安全上的應用

邢天騁本科畢業(yè)于南京大學,現(xiàn)就讀于新加坡國立大學計算機碩士(人工智能方向)。目前主要方向集中在LLM可靠性,特別關注其知識邊界的識別與刻畫,從而減少并控制可能產(chǎn)生的有害或錯誤行為。

沈易凡在伊利諾伊大學香檳分校獲得計算機科學碩士學位,現(xiàn)在是伊利諾伊大學香檳分校的計算機系一年級博士生,主要研究多模態(tài),強化學習,交互式視頻生成。

薛宇亮 (Eric) 本科畢業(yè)于多倫多大學,現(xiàn)就讀于哥倫比亞大學計算機科學碩士。主要研究方向聚焦于數(shù)據(jù)集蒸餾與大模型智能體,致力于探索在資源受限環(huán)境下實現(xiàn)樣本高效的學習,以及用智能體自動化機器學習的創(chuàng)新方法。

參考資料:

https://arxiv.org/abs/2311.18531

https://arxiv.org/abs/2403.10045

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
出手了!當著美國面,中國要發(fā)美元主權債

出手了!當著美國面,中國要發(fā)美元主權債

龍浩觀天下
2025-10-26 18:00:06
西媒:阿爾瓦雷斯欲離隊,拒絕馬競巨額續(xù)約

西媒:阿爾瓦雷斯欲離隊,拒絕馬競巨額續(xù)約

星耀國際足壇
2025-10-25 23:47:12
小學女生化“濃妝”競選大隊委,父母被罵慘了:怎么不給兒子化

小學女生化“濃妝”競選大隊委,父母被罵慘了:怎么不給兒子化

熙熙說教
2025-10-26 19:55:08
國家德比力克巴薩,卡瓦哈爾贏得職業(yè)生涯西甲200勝

國家德比力克巴薩,卡瓦哈爾贏得職業(yè)生涯西甲200勝

懂球帝
2025-10-27 02:33:20
終于懂了為啥這么多大佬都待見楊冪!

終于懂了為啥這么多大佬都待見楊冪!

小光侃娛樂
2025-09-28 14:30:03
你體驗過東北洗浴文化嗎?全程尷尬嗎?網(wǎng)友:零件一樣,尺碼不同

你體驗過東北洗浴文化嗎?全程尷尬嗎?網(wǎng)友:零件一樣,尺碼不同

特約前排觀眾
2025-08-17 00:15:03
建議男人:盡量別穿nike、薩洛蒙,多穿這3個中產(chǎn)品牌,更有品位

建議男人:盡量別穿nike、薩洛蒙,多穿這3個中產(chǎn)品牌,更有品位

白宸侃片
2025-10-25 15:54:25
《再見愛人》新觀察員張春遭集體投訴,觀眾為何大喊“換人”?

《再見愛人》新觀察員張春遭集體投訴,觀眾為何大喊“換人”?

可樂談情感
2025-10-27 00:08:35
你心中有過不去的坎嗎?網(wǎng)友:能傷到我們的往往是我們最親的人啊

你心中有過不去的坎嗎?網(wǎng)友:能傷到我們的往往是我們最親的人啊

解讀熱點事件
2025-10-11 00:05:03
貿(mào)易談判進入第二天,美方最害怕的人出現(xiàn),中方的要價已經(jīng)變了

貿(mào)易談判進入第二天,美方最害怕的人出現(xiàn),中方的要價已經(jīng)變了

聞識
2025-10-26 15:38:49
55歲大媽不顧女兒勸阻,與網(wǎng)戀男友相見,7天后去醫(yī)院檢查身體愣住

55歲大媽不顧女兒勸阻,與網(wǎng)戀男友相見,7天后去醫(yī)院檢查身體愣住

罪案洞察者
2025-08-14 14:56:33
“清障護航”!中央紀委常委會,提最新要求

“清障護航”!中央紀委常委會,提最新要求

政知新媒體
2025-10-25 22:27:43
為什么很多人反對給老小區(qū)加裝電梯?網(wǎng)友:得利的早已賣房走人了

為什么很多人反對給老小區(qū)加裝電梯?網(wǎng)友:得利的早已賣房走人了

裝修秀
2025-10-26 10:40:03
100克豆芽竟能甩掉半腸廢料?浙江大學研究證實:36小時噗噗通暢

100克豆芽竟能甩掉半腸廢料?浙江大學研究證實:36小時噗噗通暢

思思夜話
2025-10-25 13:22:41
硅谷的「十萬大裁員」:Meta按代碼量裁員

硅谷的「十萬大裁員」:Meta按代碼量裁員

前沿科技學習分享圈
2025-10-26 20:29:36
交通銀行重要公告,工商銀行、中國銀行、興業(yè)銀行等都出手了!

交通銀行重要公告,工商銀行、中國銀行、興業(yè)銀行等都出手了!

每日經(jīng)濟新聞
2025-10-26 09:22:04
豪取11勝攬1冠1亞!國羽天才迷失四年終王者歸來,五殺日本超霸氣

豪取11勝攬1冠1亞!國羽天才迷失四年終王者歸來,五殺日本超霸氣

體壇小二哥
2025-10-26 22:31:27
徐江為避免跳江,喊話泰山球迷,只要戰(zhàn)勝海港,他承諾做三件事情

徐江為避免跳江,喊話泰山球迷,只要戰(zhàn)勝海港,他承諾做三件事情

體壇風之子
2025-10-26 04:30:03
喬欣的媽媽李厚芳:二婚嫁進上海豪門,一手把女兒送進上流社會

喬欣的媽媽李厚芳:二婚嫁進上海豪門,一手把女兒送進上流社會

代軍哥哥談娛樂
2025-10-26 13:51:34
杭州保姆縱火案通靈實錄:通靈人與被害人交流,得知朱小貞真實死因

杭州保姆縱火案通靈實錄:通靈人與被害人交流,得知朱小貞真實死因

可兒故事匯
2024-08-29 12:50:53
2025-10-27 07:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
13712文章數(shù) 66222關注度
往期回顧 全部

科技要聞

誰“殺死”了新能源汽車周榜?

頭條要聞

特朗普和普京會晤為何被"推遲" 俄外長披露內幕細節(jié)

頭條要聞

特朗普和普京會晤為何被"推遲" 俄外長披露內幕細節(jié)

體育要聞

中超形勢:海港1分領跑 爭冠3隊僅差2分

娛樂要聞

邁克爾·杰克遜女兒拿到4.6億仍要索賠

財經(jīng)要聞

李成鋼:中美就有關議題形成了初步共識

汽車要聞

兩條腿走得更遠 哈弗H6L為燃油SUV上分

態(tài)度原創(chuàng)

教育
手機
藝術
房產(chǎn)
軍事航空

教育要聞

別再刷題了,孩子不是打印機

手機要聞

曝小米17系列實時激活銷量開始沖200萬臺:背屏設計+檔期優(yōu)勢

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產(chǎn)要聞

十年冠領三亞,三亞灣心百億大盤煥新再領航!

軍事要聞

西方多國就烏克蘭問題發(fā)聲:堅決支持立即?;?/h3>

無障礙瀏覽 進入關懷版 亚洲av成人一区二区三区av| 在线看高清中文字幕一区| 黑人牲交视频全部| XXXWWW高潮视频HD| 国产激情精品一区二区三区| 后入国产熟女中文字幕| 亚洲AV无码乱码国产二区| 日本性爱网站视频| 夜夜躁狠狠躁日日躁麻豆护士| 日本色播久久| 2018天天射| 精品噜噜噜噜久久久久久久久| 中文字幕久久精品一二三区| 狠狠色噜噜噜| 亚洲 成人 无码 在线观看| 日本熟妇久久| 91九色丨PORNY丨老师| 亚洲视频小说之无码| 国产男女无遮挡羞羞视频| 亚洲熟妇白浆无码AV自慰| 中文人妻无码一区二区三区信息| 欧洲熟妇色xxxx欧美老妇老头多毛| 久久亚洲粉嫩高潮的18p| 每日更新视频国产| 免费在线观看黄色| 好屌妞这里只有精品| 97狠狠狠狼鲁亚洲综合网| 亚洲国产精品久久久久久无码 | 国产成人麻豆亚洲综合无码精品| 国产精品无码无片在线观看| 蜜臀av国内精品久久久久百度| 亚洲综合久久成人av| 国产精品无码素人福利不卡| 91九色丨PORNY丨老师| 色综合久久综合香蕉色老大| 乱伦乱操一区二区三区| 国产丝袜黑色美腿影院| 日韩爽爽爽爽爽爽爽爽| 大香伊蕉在人线国产最新75| AV老司机色爱区综合| 亚洲AV成人一二三区观看|