夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

追求概率質(zhì)量的帕累托最優(yōu):廣義α-β散度引導(dǎo)知識(shí)蒸餾框架ABKD

0
分享至



知識(shí)蒸餾(KD)是一種將大模型(教師)的知識(shí)遷移到小模型(學(xué)生)的技術(shù),學(xué)生通過(guò)模仿教師預(yù)測(cè)分布,充分利用軟標(biāo)簽信息,通常優(yōu)于傳統(tǒng)監(jiān)督微調(diào),已在圖像分類、文本生成等任務(wù)及最新工作(如 DeepSeek-R1、Qwen-3)中得到驗(yàn)證。其核心在于分布匹配方式的選擇,主流方法多用前向 KL 散度(FKLD)或反向 KL 散度(RKLD),但 FKLD 易導(dǎo)致輸出過(guò)度平滑,難以聚焦關(guān)鍵類別,RKLD 則使學(xué)生過(guò)度自信、降低多樣性。實(shí)驗(yàn)證明,兩者在多任務(wù)中表現(xiàn)有限,且目前缺乏系統(tǒng)方法揭示其深層問(wèn)題,阻礙了更通用高效 KD 框架的發(fā)展。因此,一個(gè)自然的問(wèn)題產(chǎn)生了:

究竟是什么潛在因素導(dǎo)致了 FKLD 和 RKLD 的次優(yōu)表現(xiàn)?

為了解答這個(gè)問(wèn)題,我們通過(guò)追蹤對(duì)數(shù)質(zhì)量比(LogR),分析不同散度在訓(xùn)練中如何影響學(xué)生分布的概率分配。進(jìn)一步分析表明在溫和假設(shè)下,LogR 與損失函數(shù)對(duì) logits 的梯度成正比,這使我們將問(wèn)題轉(zhuǎn)化為分析:不同散度算法如何影響 ∣LogR∣ 下降。



  • 標(biāo)題:ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
  • 論文:https://arxiv.org/abs/2505.04560
  • 代碼:https://github.com/ghwang-s/abkd

在此框架下,我們識(shí)別出兩種關(guān)鍵的「模式集中效應(yīng)」:難度集中與置信集中。

  • 「難度集中」指的是更關(guān)注于在教師分布 p 與學(xué)生分布 q 之間誤差較大的模式。
  • 「置信集中」指的是更關(guān)注于學(xué)生分布 q 本身高度自信的模式。

進(jìn)一步研究發(fā)現(xiàn),F(xiàn)KLD 和 RKLD 的局限性正源于對(duì)這兩種集中效應(yīng)的極端利用。



  • FKLD 集中效應(yīng)較弱,對(duì)所有類別誤差一視同仁,導(dǎo)致學(xué)生難以聚焦目標(biāo)類別,易出現(xiàn)錯(cuò)誤預(yù)測(cè)(見(jiàn)圖 1d)。
  • RKLD 集中效應(yīng)過(guò)強(qiáng),兼顧高誤差和高置信度類別,易陷入「平凡解」,即學(xué)生只關(guān)注目標(biāo)類別,忽略教師分布的其他知識(shí)(見(jiàn)圖 1e)。



揭示這些局限性后,我們提出一個(gè)關(guān)鍵問(wèn)題:我們能否找到一種通用且理論上有依據(jù)的方法,來(lái)平衡「難度集中」與「置信集中」效應(yīng)?

方法

為此,我們引入了 α-β 散度。



其廣義統(tǒng)一了 FKLD、RKLD 及 Hellinger 距離等多種散度。



正如下一節(jié)理論表明,α-β 散度可通過(guò)調(diào)節(jié) α 和 β 在 FKLD 與 RKLD 間平滑插值,實(shí)現(xiàn)對(duì)難度集中和置信集中效應(yīng)的靈活權(quán)衡。這一機(jī)制帶來(lái)更合理的概率分配,據(jù)此我們提出了通用蒸餾框架 ABKD,形式為最小化:



基于 α-β 散度平衡難度集中和置信集中

ABKD 提供了一個(gè)統(tǒng)一空間權(quán)衡難度集中與置信集中。為解釋這一點(diǎn),回到對(duì)數(shù)質(zhì)量比(LogR)。下列命題解釋了超參數(shù) α 和 β 如何影響 ∣LogR∣ 的減小。





  1. 當(dāng) β→1 時(shí),退化為 RKLD 的效應(yīng)。
  2. 當(dāng) β→0 時(shí),退化為 FKLD 的效應(yīng)。

較大的 β 值會(huì)增強(qiáng)置信集中效應(yīng),使匹配性能更加專注于模型最有信心的類別(見(jiàn)圖 1c)。

在 (b) 和 (b1) 中,使用以下方式衡量難度集中效應(yīng):



  1. 當(dāng) α→1 時(shí),退化為 FKLD 的效應(yīng)。
  2. 當(dāng) α→0 時(shí),退化為 RKLD 的效應(yīng)。

較小的 α 會(huì)放大難度集中效應(yīng),在困難類別上進(jìn)行更強(qiáng)的誤差懲罰,從而實(shí)現(xiàn)更激進(jìn)的匹配(見(jiàn)圖 1b)。

通過(guò)調(diào)節(jié) α 和 β,ABKD 實(shí)現(xiàn)對(duì)兩種效應(yīng)的精細(xì)平衡,避免了傳統(tǒng)方法(FKLD/RKLD)的極端情況(見(jiàn)圖 1g)。

與 α-散度的比較

α-散度是 ABKD 框架的一個(gè)特例(當(dāng) β=1?α 時(shí)成立)。



雖然它也能實(shí)現(xiàn) FKLD(α→1)和 RKLD(α→0)之間的轉(zhuǎn)換,但根據(jù)命題 4.2,為了減小 α,必須相應(yīng)地增大 β,以滿足 α+β=1 的限制條件。這種不必要的限制阻礙了其性能的進(jìn)一步提升,具體如圖 1(a) 和圖 1(f) 所示。

與 WSD 的比較

另一種方案是對(duì) FKLD 和 RKLD 取加權(quán)和(WSD):



不幸的是,這種組合度量會(huì)過(guò)度強(qiáng)調(diào) p 和 q 中概率較小的模式。當(dāng) q(k)≈0,p(k)>0 或 p(k)≈0,q(k)>0 時(shí),有:



因此,算法必須關(guān)注極端情況以最小化目標(biāo)函數(shù),導(dǎo)致概率分配不合理。此外這種情況下梯度范數(shù)也會(huì)過(guò)度增長(zhǎng),導(dǎo)致參數(shù)更新中可能含有噪聲,破壞優(yōu)化穩(wěn)定性。

最后一種方法是使用 Jensen-Shannon 散度:

其中 m=(p+q)/2。它的缺點(diǎn)是當(dāng)分布 p 和 q 相距較遠(yuǎn)時(shí)(這是訓(xùn)練初期的常見(jiàn)情況),會(huì)出現(xiàn)梯度消失,阻礙模型收斂。

實(shí)驗(yàn)

自然語(yǔ)言任務(wù)

我們?cè)谖鍌€(gè)指令跟隨基準(zhǔn)上評(píng)估方法,使用 ROUGE-L 指標(biāo),對(duì)比了 SFT、FKLD、GKD 和 DISTILLM 等方法。



實(shí)驗(yàn)結(jié)果表明僅修改蒸餾目標(biāo),ABKD 在不同數(shù)據(jù)集上均優(yōu)于或匹配 FKLD、SFT。對(duì)比基于 SGO 的方法(如 GKD、DISTILLM)效果提升明顯,ABKD 在不公平對(duì)比下依然表現(xiàn)優(yōu)越。

  • 損失函數(shù)影響

α-β 散度優(yōu)于 α 或 β 散度及 WSD。在五個(gè)數(shù)據(jù)集上相較基線有穩(wěn)定提升。訓(xùn)練過(guò)程中的優(yōu)勢(shì)也體現(xiàn)在圖 2。

視覺(jué)任務(wù)

在 12 個(gè)常用圖像識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比方法比較了多種先進(jìn)蒸餾方法:KD、DKD、LSD 和 TTM 等。





結(jié)果表明 ABKD 能根據(jù)不同教師-學(xué)生組合自動(dòng)選擇合適的蒸餾目標(biāo)。此外 ABKD 可作為簡(jiǎn)單的插件工具,優(yōu)化現(xiàn)有方法的損失函數(shù),帶來(lái)額外性能提升。

敏感性分析



α 對(duì)難度集中的影響:圖 6(a)(b) 展示了不同 α 下的訓(xùn)練表現(xiàn)。在 CIFAR-100 中,較小 α 提升有限;在 Dolly 等大輸出空間任務(wù)中,適當(dāng)減小 α 有助于避免陷入局部最優(yōu)。

β 對(duì)置信集中的影響:圖 6(c)(d) 顯示了 β 對(duì)輸出分布的 Shannon 熵和 Self-BLEU 的影響。較小 β 使模型更關(guān)注低置信度類別,提升輸出分布的平滑性和多樣性(熵更高,Self-BLEU 更低)。

結(jié)語(yǔ)

本文指出,知識(shí)蒸餾的核心在于平衡「難度集中」和「置信集中」兩種效應(yīng),而傳統(tǒng) FKLD 和 RKLD 只覆蓋兩個(gè)極端,導(dǎo)致概率分配不合理。為此,我們提出基于 α-β 散度的 ABKD 框架,統(tǒng)一并推廣了現(xiàn)有方法,實(shí)現(xiàn)兩種效應(yīng)的靈活權(quán)衡。理論與大量實(shí)驗(yàn)均驗(yàn)證了 ABKD 的有效性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
赫魯曉夫政變細(xì)節(jié):朱可夫提前調(diào)兵入莫斯科,會(huì)上拔槍扣押貝利亞

赫魯曉夫政變細(xì)節(jié):朱可夫提前調(diào)兵入莫斯科,會(huì)上拔槍扣押貝利亞

大海的諾言
2024-10-03 08:36:35
6個(gè)“故意縮短使用壽命”的家電,你以為正常,其實(shí)是計(jì)劃性報(bào)廢

6個(gè)“故意縮短使用壽命”的家電,你以為正常,其實(shí)是計(jì)劃性報(bào)廢

室內(nèi)設(shè)計(jì)師有料兒
2025-09-04 12:21:26
沒(méi)談攏:曝足協(xié)本想邀請(qǐng)徐正源執(zhí)教國(guó)足,成都蓉城逃過(guò)一劫

沒(méi)談攏:曝足協(xié)本想邀請(qǐng)徐正源執(zhí)教國(guó)足,成都蓉城逃過(guò)一劫

姜大叔侃球
2025-10-04 21:36:05
黃磊首次回應(yīng)豆角爭(zhēng)議,此前曾說(shuō)這兩年的輿情讓自己“不知所措”

黃磊首次回應(yīng)豆角爭(zhēng)議,此前曾說(shuō)這兩年的輿情讓自己“不知所措”

都市快報(bào)橙柿互動(dòng)
2025-10-03 20:07:50
小米SU7自己“溜了”?官方實(shí)錘真相,車主連夜刪號(hào)跑路

小米SU7自己“溜了”?官方實(shí)錘真相,車主連夜刪號(hào)跑路

雷科技
2025-10-04 22:25:05
賴清德已毫無(wú)退路!臺(tái)退役中將直言:大陸動(dòng)手后連電話都打不出去

賴清德已毫無(wú)退路!臺(tái)退役中將直言:大陸動(dòng)手后連電話都打不出去

健身狂人
2025-10-02 15:50:13
捅了馬蜂窩,美軍不宣而戰(zhàn),擊沉委內(nèi)瑞拉船,美洲10國(guó)坐不住了

捅了馬蜂窩,美軍不宣而戰(zhàn),擊沉委內(nèi)瑞拉船,美洲10國(guó)坐不住了

現(xiàn)代小青青慕慕
2025-10-04 16:37:50
越南、印尼突然轉(zhuǎn)向!解決完菲律賓后,南?;?qū)⒂瓉?lái)大變局!

越南、印尼突然轉(zhuǎn)向!解決完菲律賓后,南?;?qū)⒂瓉?lái)大變局!

老范談史
2025-10-03 03:35:00
這是吳石將軍和夫人在北京的墓碑,讓人看后感慨良多

這是吳石將軍和夫人在北京的墓碑,讓人看后感慨良多

大國(guó)紀(jì)錄
2025-10-04 23:45:42
花蓮救災(zāi)一團(tuán)亂!藍(lán)營(yíng)議員:民進(jìn)黨破壞文官制度,外行領(lǐng)導(dǎo)內(nèi)行

花蓮救災(zāi)一團(tuán)亂!藍(lán)營(yíng)議員:民進(jìn)黨破壞文官制度,外行領(lǐng)導(dǎo)內(nèi)行

海峽導(dǎo)報(bào)社
2025-10-04 10:35:08
上海氣溫又要起飛,再?zèng)_高溫線

上海氣溫又要起飛,再?zèng)_高溫線

魯中晨報(bào)
2025-10-05 07:52:05
兒子被執(zhí)行死刑前,我奔赴千里之外的杭州與他會(huì)見(jiàn),談話15分鐘!

兒子被執(zhí)行死刑前,我奔赴千里之外的杭州與他會(huì)見(jiàn),談話15分鐘!

人間百態(tài)大全
2025-10-01 07:10:03
越南高鐵夢(mèng)再次破碎!日本搞砸4000億高鐵項(xiàng)目,我國(guó)拒絕“接盤(pán)”

越南高鐵夢(mèng)再次破碎!日本搞砸4000億高鐵項(xiàng)目,我國(guó)拒絕“接盤(pán)”

木禾投研
2025-10-04 15:59:08
壯成濃眉哥!湖人,爽了!NBA新賽季第一隔扣

壯成濃眉哥!湖人,爽了!NBA新賽季第一隔扣

籃球?qū)崙?zhàn)寶典
2025-10-04 17:15:55
又一位性盧的學(xué)者證明了,馬克思主義思想來(lái)源于中國(guó)

又一位性盧的學(xué)者證明了,馬克思主義思想來(lái)源于中國(guó)

讀鬼筆記
2025-10-02 19:39:58
威廉王子爆料來(lái)了

威廉王子爆料來(lái)了

平祥生活日志
2025-10-05 06:06:59
開(kāi)拓者官方曬隊(duì)內(nèi)三大中鋒定妝照合影,誰(shuí)是C位一目了然

開(kāi)拓者官方曬隊(duì)內(nèi)三大中鋒定妝照合影,誰(shuí)是C位一目了然

雷速體育
2025-10-05 09:50:06
央視怒批,國(guó)務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

央視怒批,國(guó)務(wù)院點(diǎn)名封殺!這幾位蒙騙老百姓的大網(wǎng)紅,徹底涼涼

大魚(yú)簡(jiǎn)科
2025-09-02 19:34:00
為什么你一旅游就拉不出屎?

為什么你一旅游就拉不出屎?

果殼
2025-10-03 12:14:32
61355人見(jiàn)證!中超踢蘇超險(xiǎn)成罪人,送點(diǎn)被絕平,點(diǎn)球大戰(zhàn)失點(diǎn)

61355人見(jiàn)證!中超踢蘇超險(xiǎn)成罪人,送點(diǎn)被絕平,點(diǎn)球大戰(zhàn)失點(diǎn)

夏侯看英超
2025-10-04 22:28:47
2025-10-05 12:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11404文章數(shù) 142466關(guān)注度
往期回顧 全部

科技要聞

特斯拉:擎天柱機(jī)器人開(kāi)始練中國(guó)功夫了!

頭條要聞

新一代隱身戰(zhàn)斗機(jī)殲-35A綠皮機(jī)首次公開(kāi)

頭條要聞

新一代隱身戰(zhàn)斗機(jī)殲-35A綠皮機(jī)首次公開(kāi)

體育要聞

黃潛仿效馬競(jìng)未竟,友愛(ài)姆總溫暖熊皇成全皇馬

娛樂(lè)要聞

裴秀智新劇又辱華?反派做壞事說(shuō)中文

財(cái)經(jīng)要聞

日本大變局開(kāi)始,接下來(lái)更有看頭

汽車要聞

密集攻勢(shì) 寶馬將在2年內(nèi)推40款新平臺(tái)新車

態(tài)度原創(chuàng)

手機(jī)
親子
本地
家居
軍事航空

手機(jī)要聞

央視新聞發(fā)vivo X300 Pro樣張,vivo的互動(dòng)才是重點(diǎn)

親子要聞

這孩子真聰明

本地新聞

讀港校想省錢(qián),社恐輸在起跑線

家居要聞

潮流地標(biāo) 引領(lǐng)Z世代風(fēng)尚

軍事要聞

以總理:將確保哈馬斯解除武裝

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 成人久久久久| а√天堂资源地址在线官网下载 | 久久影视中文字幕| 国产福利片无码区在线观看| 欧美色图亚洲图区| 熟女女同亚洲女同| 99久久精品久久久久婷婷| 2023国产精品自拍视频| 做A视频仔细看| 五月丁香国产动画| 欧美性xxxx极品少妇| 日本中文字幕亚洲乱码| 色狠狠色噜噜av天堂一区| 欧美少妇一区二区三区| 日韩精品一区二区三区日韩| 精品乱码乱码久久久久蜜桃小说 | 女人与公拘交酡2020视频 | 极品粉嫩无套精品人妻视频| 日韩精品无码一区二区三区av| 午夜精品久久久久久不卡AV| 无码毛片高潮一级一级喷水| 亚洲首页一区任你躁xxxxx| 国产精品自产拍在线观看55| 一本色道久久国产日韩Av| 欧洲熟妇色XXXX欧美老妇多毛,| 98在线视频噜噜噜国产| 91麻豆传传媒波多野衣久久 | 第一AV天堂| av大帝在线| 久久无码精品一区二区| 欧美熟妇乱子伦XX视频| 在线免费观看黄色的网站| 一起草草草视频在线观看| 亚洲色欲大片AAA无码 | 在线精品自偷自拍无码| 69综合精品国产二区无码| 中文AV字幕王| 精品人妻一区二区三区久久午夜| 四虎永久播放地址免费| 91 口爆吞精国产| 午夜无码人妻AV大片色欲黑人|