夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

大模型的遺忘也許是一個悖論?清華揭示Unlearning技術的兩難困境

0
分享至

讓大語言模型忘掉某件事,看似簡單,實則比教它記住更難。Unlearning 技術旨在讓模型遺忘特定的敏感數據、隱私信息或高風險知識,以降低潛在安全隱患。然而,這一過程正受到質疑:要么是模型忘不干凈——被遺忘的內容往往能被輕量微調重新喚起;要么是模型忘得太狠——連帶丟失原本的通用能力,進而陷入災難性遺忘(Catastrophic Forgetting)。


圖丨邱寒(來源:邱寒)

這使得 Unlearning 的有效性在學術界引發(fā)了廣泛的爭論。更棘手的是,我們仍缺乏可解釋的手段去揭示其內部機理:模型究竟是如何遺忘的?在最新的研究中,清華大學邱寒副教授團隊提出了可解釋性框架 UnPact,通過量化 Unlearning 前后模型對提示語(prompt)中不同詞語的關注度,揭示了這項技術背后可能的悖論(如圖所示)——讓大語言模型忘記某件事,或許本身就是一種無法兼得的兩難,在“忘不干凈”與“忘得太狠”之間艱難平衡。


(來源:arXiv)

研究團隊測試了 6 類 Unlearning 方法、3 類模型以及 3 種 Benchmarks,旨在回答 3 個核心問題:

1. 為什么 Unlearning 會起效?

許多方法之所以能讓模型表現出遺忘效果,主要是因為它們干擾了模型對提示語中支撐正確答案的關鍵字的關注。

2. 知識真的被忘掉了嗎?

被遺忘的知識往往并未真正被抹除,只是模型暫時失去了對相關關鍵詞的關注。無需微調,只需在提示語中重新強調這些關鍵詞,被遺忘的知識便能再次被喚起。

3. 為什么會出現災難性遺忘?

這種現象源于在遺忘過程中對所有詞語的無差別懲罰——連那些維持模型通用能力的常用詞(如“what”“do”“get”等)也一并受到影響,從而導致整體性能坍塌。

近日,相關論文以《理解大型語言模型的“遺忘”困境》(Understanding the Dilemma of Unlearning for Large Language Models)為題發(fā)表在預印本網站 arXiv[1]。清華大學博士生張清杰是第一作者,清華大學邱寒副教授擔任通訊作者,其他合作者來自螞蟻集團。





UnPact 可解釋性框架:從提示語追蹤遺忘的發(fā)生

要理解模型遺忘的本質,必須先構建一個針對 Unlearning 的可解釋性框架。傳統(tǒng)的可解釋性研究往往依賴模型權重或激活值分析,但在復雜的 LLM 架構中追蹤特定知識的流動困難重重,對閉源模型更是不可能。因此,研究團隊選擇了一個更具普適性的切入點:從模型能被直接觀察的輸入端——提示語出發(fā),追蹤每個詞對輸出結果的影響。


(來源:arXiv)

研究團隊提出了可解釋性框架 UnPact(interpret Unlearning via Prompt Attribution and Contribution Tracking),通過計算每個提示詞在模型生成答案過程中的貢獻度,建立了一個可量化的“關注度足跡”(如圖所示)。這一機制允許研究者在 Unlearning 前后對比模型的關注模式,從而揭示出模型是如何遺忘的。

在這一框架下,團隊進一步定義了所謂的關鍵詞(KeyTokens)——即對最終答案影響最大的那一組提示詞。值得注意的是,UnPact 不依賴任何模型內部參數,既可用于開源模型,也適用于封閉商用模型。



為什么 Unlearning 會起效?

通過對 Unlearning 前后的提示詞貢獻度進行對比,研究團隊發(fā)現:當模型忘記某個事實時,它失去了對提示語中關鍵詞的關注;相反,當模型仍然記得時,它依舊在關注同樣的一組關鍵詞。


(來源:arXiv)

如圖所示,當知識被遺忘時,Unlearning 后的模型不再關注“What”“rise”“Scotland”等 Unlearning 前模型的關鍵詞;相反,當知識被記住時,Unlearning 前后的模型關注同樣的關鍵詞“data”。研究團隊進一步統(tǒng)計了這種關鍵詞關注一致性的變化,如下表所示,當知識被遺忘時,模型的關注相似度平均下降了 20%。這意味著Unlearning 本質上是通過打亂模型對 prompt 的關注模式來實現的。


(來源:arXiv)

換言之,Unlearning 能起效,也許不是因為模型清空了記憶,而是因為它暫時模糊了那條通向記憶的路徑。



知識真的被忘掉了嗎?

如果 Unlearning 只是打亂了模型的關注模式,那么一個自然的問題是:這些被遺忘的知識是否還潛藏在模型中?

雖然已有研究表明,輕量級的微調可以恢復被遺忘的內容,但這些方法都涉及對模型權重的再次修改,本質上已經換了一個模型。因此,研究團隊提出了一個更具說服力的問題:遺忘的知識能否在同一個 Unlearning 后的模型中、僅通過黑盒方式被重新喚醒?

為此,研究人員設計了一種簡單卻具有啟發(fā)性的實驗策略——FocusOnKey。在這一方法中,他們不再調整模型參數,而是僅通過修改輸入提示語(prompt)來引導模型的關注。具體而言,研究人員會在提示語中重新強調那些在 Unlearning 前起關鍵作用的關鍵詞。令人驚訝的是,這樣微小的改動,就足以讓模型“憶起前塵”——重新給出原本被遺忘的正確答案。


(來源:arXiv)

如圖所示,Unlearning 后的模型忽視了關鍵詞“Northern”,因而輸出錯誤答案;而當提示語加上“Focus on How, Northern”時,模型重新聚焦于關鍵詞,并再次輸出正確答案。定量評估結果也支持這一結論(如下表所示),該方法在多個模型與任務上平均實現了 45.4% 的知識恢復率。


(來源:arXiv)

這說明,被遺忘的知識其實并未被抹除,它只是掩蓋在注意力的陰影里。



為什么會出現災難性遺忘?

如果說“忘不干凈”是 Unlearning 的一重困境,那么“忘得太狠”則是它的另一重困境——災難性遺忘。這一現象在早期研究中就已被多次觀察到,但其內在機制始終缺乏清晰的解釋。研究團隊利用 UnPact 框架,對這種現象的成因也進行了分析。


(來源:arXiv)

如圖所示,當災難性遺忘出現時,模型幾乎不再對任何提示詞產生關注,提示語中各詞的貢獻度同時坍塌,整段輸入被涂抹成一片低響應的“靜默區(qū)”。此時無論問題是什么,模型都無法關注有意義的信息,只能輸出模糊或無意義的字符。

研究團隊指出,這一現象源于 Unlearning 過程中對所有詞語的無差別懲罰。以 Unlearning 方法 Gradient Ascent(GA)為例,模型在生成包含敏感信息的文本時,其中的每個 token 都會被施加“負損失”的反向優(yōu)化。然而,這些文本中除了目標知識外,還包含大量普通功能詞(如“how”“do”“on”等)。當這些常見詞同樣被懲罰時,模型在遺忘特定內容的同時,也破壞了自身對語言結構的基本依賴,最終導致整體理解與生成能力的坍塌。



Unlearning 的兩難困境:要么忘不干凈,要么忘得太狠

綜合 UnPact 的分析結果,研究團隊指出 Unlearning 技術所面臨的悖論,當前方法似乎始終游走在兩種失敗之間:一方面,遺忘往往并不徹底——模型只是失去了對關鍵提示詞的關注,而非真正抹除了知識;另一方面,過于激進的遺忘又會波及通用詞匯和基礎語義結構,引發(fā)災難性遺忘,讓模型在去除風險的同時也失去理解能力。

然而,理想的 Unlearning 應能同時實現兩點,既讓被遺忘的知識真正不可恢復,又保持模型的正常性能。為了評估現有方法距離這一目標還有多遠,研究團隊提出了兩項互補的衡量指標:用恢復率(Recovery Rate)衡量被遺忘知識被重新喚起的比例,用破壞率(Destructive Rate)衡量模型在回答中出現無關或無意義輸出的比例,以反映災難性遺忘的程度。


(來源:arXiv)

研究團隊為每種 Unlearning 方法記錄了訓練進度的多個階段(每 20% 保存一次檢查點),并在這些階段分別計算恢復率與破壞率。結果如圖所示,不同方法各有偏向,有的能有效壓低恢復率,卻以高破壞率為代價,有的保持了模型穩(wěn)定性,卻難以真正忘記。研究團隊將這種局面稱為 Unlearning 的兩難困境:恢復率與破壞率幾乎呈此消彼長的關系——想要讓模型真正忘記,就必然要冒著讓它“變笨”的風險;而想保住能力,就必須接受“假遺忘”的存在。

當將這些點連接成性能邊界時,一條清晰的結論浮現——當前主流的 Unlearning 方法距離可靠的遺忘仍存在一定差距。讓模型學會忘記,可能遠比讓它生成一段優(yōu)美文本更難。

參考資料:

1.論文鏈接:https://arxiv.org/pdf/2509.24675

2.項目網站:https://unpact.site

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
哈工大研究:喜歡吃面大量放醋的人,不出半年,血管或有5個變化

哈工大研究:喜歡吃面大量放醋的人,不出半年,血管或有5個變化

小舟談歷史
2025-10-14 09:16:29
美歐全線啞火!比稀土更致命的一張牌,終于出手,美代表緊急喊停

美歐全線啞火!比稀土更致命的一張牌,終于出手,美代表緊急喊停

南權先生
2025-10-14 10:44:37
迪拜首富之女重病赴華尋求中醫(yī),中醫(yī)扎五根銀針,開口便讓他們傻眼

迪拜首富之女重病赴華尋求中醫(yī),中醫(yī)扎五根銀針,開口便讓他們傻眼

蕭竹輕語
2025-10-13 11:40:11
突發(fā)!這家美國船運巨頭公告,按中國要求繳費,費用不會轉嫁客戶

突發(fā)!這家美國船運巨頭公告,按中國要求繳費,費用不會轉嫁客戶

軍機Talk
2025-10-14 10:37:21
娃小宗,胎死腹中

娃小宗,胎死腹中

大案九處
2025-10-14 10:37:35
最有價值的投資,是腳下的自在

最有價值的投資,是腳下的自在

虎嗅APP
2025-10-13 17:26:08
婚禮當天跳河,男子父親發(fā)聲

婚禮當天跳河,男子父親發(fā)聲

中國新聞周刊
2025-10-14 13:28:48
中國一步不退,美財長想出一招“妙計”,直言:中國無法控制我們

中國一步不退,美財長想出一招“妙計”,直言:中國無法控制我們

梁訊
2025-10-14 08:59:00
紐約時報:臺積電將無法向美出售任何半導體芯片!中國真掀桌子了

紐約時報:臺積電將無法向美出售任何半導體芯片!中國真掀桌子了

剛哥說法365
2025-10-13 21:59:02
不止是佛得角!凌晨0點,比國足高1名的貝寧搏命:贏球就進世界杯

不止是佛得角!凌晨0點,比國足高1名的貝寧搏命:贏球就進世界杯

風過鄉(xiāng)
2025-10-14 12:49:57
獨家|浙江娃哈哈飲用水有限公司從宏勝系手中拿回桶裝水銷售權

獨家|浙江娃哈哈飲用水有限公司從宏勝系手中拿回桶裝水銷售權

澎湃新聞
2025-10-14 07:28:26
有風骨!死人車禍,澎湃新聞把小米放標題里

有風骨!死人車禍,澎湃新聞把小米放標題里

不主流講話
2025-10-13 17:57:59
小米SU7成都事故,余承東表態(tài)、董明珠轉發(fā)

小米SU7成都事故,余承東表態(tài)、董明珠轉發(fā)

鞭牛士
2025-10-14 11:15:08
黃某松,已被逮捕

黃某松,已被逮捕

新京報政事兒
2025-10-14 14:25:56
個人所得稅,變了!10月起正式執(zhí)行!

個人所得稅,變了!10月起正式執(zhí)行!

會計人
2025-10-13 18:18:57
金價漲瘋了?年輕人反倒玩出“新花樣”,這波操作比買金更聰明

金價漲瘋了?年輕人反倒玩出“新花樣”,這波操作比買金更聰明

特特農村生活
2025-10-14 11:06:35
成都小米汽車碰撞燃燒,司機被燒死!雷軍鐵粉稱,車禍和車子無關

成都小米汽車碰撞燃燒,司機被燒死!雷軍鐵粉稱,車禍和車子無關

火山詩話
2025-10-13 17:29:45
紐約時報:中國已有42個……

紐約時報:中國已有42個……

環(huán)球時報國際
2025-10-14 00:30:51
機場插隊被制止反扇對方耳光的女子,已社會性死亡,老公也被連累

機場插隊被制止反扇對方耳光的女子,已社會性死亡,老公也被連累

姩姩有娛
2025-10-13 18:37:49
10月13日俄烏最新:盧卡申科的“背叛”

10月13日俄烏最新:盧卡申科的“背叛”

西樓飲月
2025-10-13 20:04:48
2025-10-14 15:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15726文章數 514183關注度
往期回顧 全部

科技要聞

郭彥東:2025年具身智能要走向真實應用

頭條要聞

諾貝爾經濟學獎獲得者放話:歐洲不能讓中美贏了

頭條要聞

諾貝爾經濟學獎獲得者放話:歐洲不能讓中美贏了

體育要聞

只有53萬人的小國,今天打進世界杯了!

娛樂要聞

嫌棄劉嘉玲拒絕林青霞,他的瓜很難評

財經要聞

艾為電氣創(chuàng)業(yè)板IPO:大客戶依賴存風險

汽車要聞

標配寧王電池不變 極狐阿爾法T5增程版入列

態(tài)度原創(chuàng)

藝術
本地
時尚
手機
游戲

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游中國|闖進霸州煙火晨景!練劍唱戲超有范兒

不愧是舒淇,好“生猛”的一部劇

手機要聞

7999元起!庫克現身直播間帶貨,iPhone 17 Air下周上市

《羊蹄山之魂》動捕幕后照公開!內部稱呼揭秘!

無障礙瀏覽 進入關懷版 av在线亚洲欧洲日产一区二区| 国产微视频一区二区三区| 女人被狂c到高潮视频网站| chinese中国女人hd| 91短视频在线观看免费| AV动漫无码精品| 亚洲男人天堂久久| 国产精品14页| 日韩免费人妻av无码专区蜜桃| 3级国产操逼片| 国产乱码字幕精品高清av| 色噜噜狠狠一区二区三区| 136Av少妇熟女一区二区三区| 亚洲VA中文字幕无码久久| 精品无码国产一区二区三区高跟| 国产亚洲精品线观看k频道| 欧韩一区二区| 久久久受www免费人成| 亚洲av无码国产精品永久一区| 国产成人亚洲精品狼色在线| 日本免费一区久久人人澡| jizz视频在线观看| 色婷婷久久久久久久久久| 日韩国产精品视频在放| 农村激情亂伦视频| 婷婷国产成人精品视频| 麻豆日日干天天干夜夜操| 久久久久亚洲AV成人网毛片| 超级刺激毛片免费看| 欧美成人在线一区| 日本一道视频免费| 亚洲精品九九在线| 四虎国产精品免费久久久| 2012日日夜夜欢干天天| av无码制服丝袜国产日韩| 波多野结衣高清视频播放| 中文字幕亚洲综合第一页| 在教室伦流澡到高潮hgl视频| 中文字幕无码乱码人妻系列蜜桃| 美女视频黄是免费网址| 欧美日韩在线视频一区|